1、生物信息学软件及使用技巧第1页内容概要一.生物信息学概念二.生物信息学软件主要功效介绍1.1.分析和处理试验数据和公共数据,加紧研究进度,缩分析和处理试验数据和公共数据,加紧研究进度,缩短科研时间短科研时间2.2.提醒、指导、替换试验操作,利用对试验数据分析所提醒、指导、替换试验操作,利用对试验数据分析所得结论设计下一阶段试验得结论设计下一阶段试验3.3.用计算机管理试验数据用计算机管理试验数据4.4.寻找、预测新基因及预测其结构、功效寻找、预测新基因及预测其结构、功效5.5.蛋白高级结构预测蛋白高级结构预测第2页三.生物学软件部分常见功效使用技巧PCR PCR 引物设计引物设计DNADNA、
2、蛋白质序列同源分析及进化树构建、蛋白质序列同源分析及进化树构建Contig Express-DNA Contig Express-DNA 序列片断拼接序列片断拼接DNA DNA 模拟电泳模拟电泳主要生物数据库介绍主要生物数据库介绍四.生物信息学服务第3页一.生物信息学概念第4页生物信息学概念:生物信息学概念:生物信息学是一门新兴交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存放、分类、检索与分析生物大分子信息,从而了解这些信息生物学意义。第5页二.生物信息学软件主要功效介绍第6页生物信息学软件主要功效1.分析和处理试验数据和公共数据,加紧研究进度,缩短科研时间2.提醒、指导、替换试
3、验操作,利用对试验数据分析所得结论设计下一阶段试验3.试验数据自动化管理4.寻找、预测新基因及其结构、功效5.蛋白质高级结构及功效预测(三维建模,当前研究焦点和难点)第7页功效功效1.分析和处理试验数据和公共数据,分析和处理试验数据和公共数据,加紧研究进度,缩短科研时间加紧研究进度,缩短科研时间核酸:序列同源性比较,分子进化树构建,结构信息分析,包含基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF),蛋白编码区(CDS)及外显子预测、RNA二级结构预测、DNA片段拼接蛋白:序列同源性比较,结构信息分析(包含Motif,限制酶切点,内部重复序列查找,氨基酸残基组成及其亲水
4、性及疏水性分析),等电点及二级结构预测等等当地序列与公共序列联接,结果扩大第8页网上数据库利用(结果扩大)http:/IRACE(基因拉长功效)BLAST同源序列检索ENTREZSYSTEM(集成信息检索系统)第9页ENTREZ集成检索示意图第10页VectorNTISuit同源比较主窗口第11页VectorNTISuit同源比较进化树第12页Antheprot5.0DotPlot点阵图第13页PeptoolLite-DotPlot点阵图第14页DNASIS2.5蛋白二级结构预测第15页DNASIS2.5RNA二级结构预测第16页DNASIS2.5tRNA二级结构预测第17页RNAStruct
5、ure3.5RNA二结构预测第18页Omiga2.0ORFMap第19页DnaStar之Protean对氨基酸亲疏水性分析:helicalwheel图第20页功效功效2.提醒、指导、替换试验操作,利用对试提醒、指导、替换试验操作,利用对试验数据分析所得结论设计下一阶段试验验数据分析所得结论设计下一阶段试验用软件设计PCR引物,测序引物或杂交探针,设计克隆策略,构建载体,做模拟电泳试验,即模拟核酸内切酶或内肽酶对对应底物分子切割后电泳行为。蛋白跨膜区域分析,信号肽潜在断裂点预测。第21页VectorNTISuit5.5模拟电泳第22页GeneConstructionKit2.0模拟电泳第23页W
6、inplas2.6质粒构建第24页OLIGO5.0PCR引物设计第25页Atheprot5.0预测蛋白跨膜区域第26页Antheprot5.0预测信号肽断裂点第27页功效功效3.用计算机管理试验室数据及文件资料用计算机管理试验室数据及文件资料试验室结果储存,管理和申报工作从网络数据库取得序列文件(由ENTREZ集成检索系统所得数据文件能够进入EndNote或者ReferenceManager储存管理)或资料文件管理软件:EndNote,ReferenceManager第28页ReferenceManager9界面第29页功效功效4.用计算机预测新基因及其结构和功效用计算机预测新基因及其结构和功
7、效对CDS(CodingSequence)蛋白编码区预测准确率已到达90%以上对整个基因结构预测存在一定难度PWM(位置权重矩阵)算法由物化原理技术开发,侧重于找基因表示系统和核酸相互作用位点。给信号序列各个位置每种可能出现核苷酸分配一个分数,将各位置分数相加后得出该序列作为潜在作用位点分数。第30页DNASIS2.5对蛋白编码区预测A.(CodonBias)第31页DNASIS2.5对蛋白编码区预测B.(RareCodon)第32页DNASIS2.5对蛋白编码区预测C.(ORFList)第33页DNASTAR之GeneQuest预测CDS第34页功效5.蛋白高级结构预测该项技术算法十分复杂,
8、还未成熟。PDB及MMDB数据库当前依然禁止收录软件预测出来蛋白高级结构模型。X射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构主要伎俩,但两种技术都有不足之处。前者要求必需得到高标准蛋白晶体,后者对分子量大于3万大蛋白不能测定。所以理论模拟和结构预测显得十分主要。序列与结构关系根源在于“蛋白质折叠问题”,这是近期研究关注焦点。第35页当前应用蛋白质结构预测算法当前应用蛋白质结构预测算法1.同源预测(一级结构决定高级结构)2.结构与结构相对比(DALI算法)3.当前最先进结构预测方法:结构类识别(foldrecognition)先建立一个已知结构类数据库(foldlibrary),将
9、待测序列“穿过”该数据库组成座标,并依据事先确定物理限制,逐一位置移动(threading,sequence-structurealignment),并用一个函数(sequence-structurefitnessalignment)判断序列与结构类符合程度,找出未知序列在目标结构上能量最优和构象最稳固比 对 位 置。对 计 算 机 要 求 很 高。第36页Cn3D2.5显示1EQFA链三维结构第37页RasMol2.7显示1EQFA链三维结构第38页PDB与MMDB结构图比较第39页三.生物学软件部分常见功效使用技巧第40页PCR引物设计第41页引物设计标准引物设计标准 首先引物要跟模板紧密
10、结合,其次引物与引物之间不能有稳定二聚体或发夹结构存在,最终引物不能在别非目标位点引发高效DNA聚合反应(即错配)。第42页围绕这几条基本标准,设计引物需要考虑很多原因,如引物长度(primer length),产物长度(product length),序列Tm值(melting temperature),G值(internal stability),引物二聚体及发夹结构(duplex formation and hairpin),错误引发位点(false priming site),引物及产物GC含量(composition),有时还要对引物进行修饰,如增加限制酶切点,引进突变等。第43页引
11、物设计关键点普通引物长度为16-23bp,惯用长度为18-21bp,过长或过短都不适当。引物3端碱基普通不用A,因为A在错误引发位点引发效率相对比较高,而其它三种碱基错误引发效率相对小一些。引物GC含量普通为45-55%,过高或过低都不利于引发反应。上下游引物GC含量不能相差太大。引物所对应模板序列Tm值最好在72左右,当然因为模板序列本身组成决定其Tm值可能偏低或偏高,可依据详细情况灵活利用。第44页G值反应了引物与模板结合强弱程度,也是一个主要引物评价指标,普通情况下,在Oligo 5.0软件G值窗口中,引物G值最好呈正弦曲线形状,即5端和中间部分G值较高,而3端G值相对较低,且不要超出9
12、(G值为负值,这里取绝对值),如此则有利于正确引发反应而可预防错误引发。分析其原理,引物与模板应含有较高结合能量,这么有利于引物与模板序列整合,所以5端与中间段G值应较高,而3端G值影响DNA聚合酶对模板DNA解链,过高则不利于这一步骤。第45页可能错误引发位点决定于引物序列组成与模板序列组成相同性,相同性高则错误引发率高,错误引发引发率普通不要高过100,最好没有错误引发位点,如此能够确保不出非目标产物假带。引物二聚体及发夹结构能量普通不要超出4.5,不然轻易产生引物二聚体带而且会降低引物浓度从而造成PCR正常反应不能进行。对引物修饰普通是增加酶切位点,应参考载体限制酶识别序列确定,经常对上
13、下游引物修饰序列选取不一样限制酶识别序列,以有利于以后工作。第46页关于引物自动搜索和评价分析推荐使用自动搜索软件:Primer Premier 5.0 推荐使用引物评价软件:Oligo 5/6实际操作示例 第47页DNA、蛋白质序列同源分析及进化树构建第48页相同性与同源性相同性是指一个很直接数量关系,比如部分相同或相同百分比或其它一些适当度量。可进行本身局部比较。如 Dot Plot(点阵序列比较)同源性指从一些数据中推断出两个基因或蛋白质序列具而共同祖先结论,属于质判断。如 Alignment(同源性分析)第49页推荐软件相同性分析 Peptool Lite同源性分析Vector NTI
14、 Suit 6-AlignX实际操作示例 第50页ContigExpress-DNA序列片断拼接第51页推荐软件DNA序列片断拼接Vector NTI Suit 6-ContigExpress Project实际操作示例 第52页DNA模拟电泳第53页一点体会DNA模拟电泳含有一定试验预示功效,模拟电泳不能作为试验结果或依据实际操作示例 第54页主要生物数据库介绍第55页三大数据库NCBI(美国)http:/www.ncbi.nlm.nih.govDDBJ(日本)http:/www.ddbj.nig.ac.jpEBI(欧洲)http:/www.ebi.ac.uk/index.html第56页其
15、它主要数据库酵母基因组数据库(SGD)酵母蛋白质数据库(YPD)拟南芥数据库(AtDB)医学数据库(OMIM)线虫数据库(ACEDB)第57页四.生物信息学服务第58页服务内容1.PCR引物、测序引物及杂交探针设计及评价2.DNA,蛋白质序列同源分析及进化树构建3.生物大分子二级结构模拟显示及基本序列分析第59页4.相关蛋白质亲疏水性,等电点,抗原性,跨膜蛋白,信号肽等分析以及Dot Plot服务5.质粒载体构建及克隆策略6.小型数据库建设及帮助试验室进行数据管理维护 第60页7.医学相关图像、病例统计、分析及小型数据库建设8.网上数据库应用辅助:包含序列拉长(扩大试验结果),Blastn/Blastp,NCBI Entrez查询(多维查询),新序列、SNIP等申报9.蛋白质三维结构初步预测(此为生物信息学当前研发焦点,正在探索中,结果可能不十分准确或者不能出结果)第61页Thanks!第62页