资源描述
3、LTR_STRUC
简介:
LTR_STRUC是由美国乔治亚大学的Eugene和John于2002年开发的LTR-反转座子预测软件。它不同于其它基于序列同源比对的方法,而是根据转座子的结构特征,如复制时必需的PBS和PPT位点,以及LTR末端的TG和CA位点,从DNA序列上预测转座子的位置和结构。
下载:
该软件是免费软件,目前只有Windows版,运行时至少需要512M内存。可以从以下网址。下载:http://www.genetics.uga.edu/retrolab/data/LTR_Struc.html
当前版本:version 1.1
使用:
该软件的使用可分为以下几步:
(1)在C盘根目录下创建一个名为“LTR_STRUC”的目录;
(2)将下载的程序文件“LTR_STRUC_1_1.exe”,以及辅助文件“five_p_end.txt”,“pbs.txt”,“rt.txt”,和“flist.txt”放置于该目录下;
(3)在C:\ LTR_STRUC下创建一个名为“input”的目录,并将需要操作的序列文件(Fasta格式,一个或多个文件,每个文件可含有一个或多个序列)拷贝到该目录,最后将所有的输入文件名以每个一行的方式记录在C:\ flist.txt文件中。
(4)双击“LTR_STRUC_1_1.exe”图标,或者打开cmd窗口,转到C:\ LTR_STRUC目录下,键入“LTR_STRUC_1_1”运行程序,屏幕将会跳出一些提示信息,只需要键入“Y”(yes)即可。
注意事项:
(1)三个辅助文件“five_p_end.txt”,“pbs.txt”,和“rt.txt”,分别用来记录新发现类型的转座子前20bp, PBS位点,和RT位点信息。这些文件在最初应该是空的,除了首行的一段X序列。在程序运行之中,会不断地往里面写入记录信息。这三个文件最好放到另一个独立的目录下保存,每次需要运行该软件时再把它们拷贝到C:\ LTR_STRUC目录下。
(2)输入文件除了Fasta格式,还可接受Genbank格式。输入序列必须足够长,能够容纳一个完整的转座子序列,位于序列末端的转座子预测较差,并且无法预测结构不完整的转座子片段。
(3)如果输入的是很大的基因组序列,将会生成很多的结果文件,并占用大量的磁盘空间。因而请先确保C盘有足够的空间,以免造成系统崩溃。如果C盘没有足够的空间,可以把整个任务划成小份分批完成。
输入:
Fasta格式的序列文件, 每个文件可含有一条或多条序列,格式如下:
>Chr03_2249
ACATGATCGTGCAAATGAATATCCAACAGGAGGTTTGTCTTTAGCTTCTCAAGATGCTCCAAACATGATCCATAGCGACTGGTTCAACGATTTCACGGTTAGCAGATATAACACACATCAGTTAAAAAATGTAAACTGCAATCCATCAGA
......
输出:
LTR_STRUC的输出结果保存在C:\LTR_STRUC目录下,对于每一个预测到的转座子将会产生4个类型的结果文件,文件名分别含有为“fsta”,“orfs”,“rprt”, 和“trns”,转座子信息主要存放在“rprt”文件中(详细介绍请参看下载软件包中的“READ_ME.txt”文件)。转座子的类型也反映在结果文件的命名中,其基本格式为:
[name of input file]_[score]_[RT type]_[PBS type]_[LTR type]_[hit number]_[type of output file].txt
比如名为“GP10_8000_RT3_B5_L7_621_rprt.txt”的结果文件,意思是:
a)"GP10",输入文件名(不包括“.txt”)
b)"8000", 分值0.8000, 最大值为2.000
c)"RT3",具有第三种类型的RT位点
d)"B5",具有第五种类型的PBS位点
e)“L7”,具有第七种类型的LTR
f)"621",当前扫描中发现的第621个
g)"rprt", “report”缩写,意为报告文件
该结果文件格式如下:
SOURCE: Chr03_2249
CUT-OFF SCORE: 1.00
LENGTH OF CONTIG: 41307
TRANSPOSON IS IN POSITIVE ORIENTATION
NO PUTATIVE ACTIVE SITES DETECTED.
OVERALL LENGTH OF TRANSPOSON: 3611 bp
LENGTH OF LONGEST ORF: 229
LENGTH OF PUTATIVE 5' LTR: 533 bp
LENGTH OF PUTATIVE 3' LTR: 528 bp
LTR PAIR HOMOLOGY: 94.1%
DINUCLEOTIDES: TG/CA
DIRECT REPEATS: GAAGT/GAAGT
5' FLANK: CCAGTCAGAGAAACTTTTGTAGAAGT
3' FLANK: GAAGTCTTAGGCAGAGTCCTGGCTTA
POLYPURINE TRACT: TAACTCACCCTTGCCCATGAGGGGCT
PBS: GCTGGCGCCGAGCCTGGGGACCTCCG
ID SEQUENCE (LAPS 5' END OF ELEMENT):
CCAGTCAGAGAAACTTTTGTAGAAGTTGTTGGCGGTATGTCACGAGACCCTTC
ID SEQUENCE (LAPS 3' END OF ELEMENT):
AACGTACGTAGTTGTCGCTTCGACAACAGAAGTCTTAGGCAGAGTCCTGGCTT
LTRS:
TGTTGGCGGTATGTCACGAGACCCTTCGACCAGACCTACCGAAACCATGCAACCAGCGAG
GATTCAGGCCCAAGACGCTAAGATCATCTAGGCGAAGCCCCATGGCGAAGACTATAAAGC
......
TGTTGGCGGTATGTCACGAGACCCTTCGAACAGACTTACTGAAACCATGCAACCAGCGAG
GATTCAGGCCCAAGACGCTAAGATCATCTAGGCGAAGCCCCATGGCGAAGACTATAAAGC
......
COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:
TGTTGGCGGTATGTCACGAGACCCTTCGACCAGACCTACCGAAACCATGCAACCAGCGAG
GATTCAGGCCCAAGACGCTAAGATCATCTAGGCGAAGCCCCATGGCGAAGACTATAAAGC
......
ALIGNED LTRS:
____________________________________________________________
ACATGGTTTGCACGGT CTCGGCTGAAGCTCCT AAC TCACCCTTGCCCA
||||| ||| |||. |||| ||. ||||||| |||
ATGGT GGTTGTACTCA TCCTTGCTTAATCTTTCACCCT CCA
......
从头到尾依次显示了:来源序列名,过滤阈值,序列长度,正负链位置,转座子长度,最大的ORF长度,5’LTR和3’LTR的长度及其同源度,二核苷酸序列,顺式重复序列,5’周围序列和3’周围序列,PPT位点和PBS位点,两端LTR序列,完整地转座子序列,以及两端LTR的比对信息。
实例和练习题:
预测一条水稻序列上的LTR-反转座子。将序列文件放到C:\LTR_STRUC\input 目录下,并将序列文件名写入到C:\LTR_STRUC\flist.txt。双击可执行文件图标运行程序,最后在“rprt”类型文件中查看结果。
展开阅读全文