1、1. 生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。2. BLAST(Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常
2、见的残基之外,它们不能表示任何概率信息。5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。7. 非信息位点:对于最大简约法来说没有意义的点。8. 标度树:分支长度与相邻节点对的差异程度成正比的树。9. 非标度树:只表示亲缘关系无差异程度信息。10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达
3、其他任何节点。11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。16. 微阵列芯片:将探针有规律地排列
4、固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上, 由计算机进行的一种理论上的蛋白裂解反应。18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。质谱分析的两个工具19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21. 先导化合物:是指具
5、有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。24. 系统生物学(systems biology)
6、:是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。二.填空题1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE2. 初级序列数据库:GenBank,EMBL和DDBJ3. 蛋白质序列数据库:SWISS-PROT和TrEMBL4. 提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(
7、蛋白质信息资源)5. 目前由NCBI维护的大型文献资源是PubMed6. 数据库常用的数据检索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA和BLAST8. 高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)9. 多序列联配的常用软件:Clustal10. 蛋白质结构域家族的数据库有:Pfam,SMART11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法 12. 系统发育树的构建方法: 距离矩阵法,最大简约法和最大似然法13. 常用系统发育分析软件:PHYLIP14. 检测系统发育树可靠性的技术:bootstrapping和Ja
8、ck-knifing15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16. 检测原核生物ORF的程序:NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)18. 二级结构的三种状态:螺旋,折叠和转角19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISSMODEL网站)21. 蛋白质质谱数据搜索工具:SEQUEST22. 分子途径最广泛数据库:KEGG23. 聚类分析方法,分为有监督学习方法,无监督学习方法2
9、4. 质谱的两个数据库搜索工具:SEQEST和Lutkefish三.问答题1. FASTA序列格式 第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。 (NBIR/PIR序列格式 第一行以“”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。 GDE序列格式 与FAST
10、A的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)2. BLAST的五个子程序程序查询序列数据库种类简述方法Blastp蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较Blastn核苷酸核苷酸适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较Blastx核苷酸(已翻译)蛋白质适合新DNA序列和EST序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBlastn蛋白质核苷酸(已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比TBlastx核苷酸(已翻
11、译)核苷酸(已翻译)适合分析EST序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列3. 生物类的数据库类别: 一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。4. PSI-Blast的原理:PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。具
12、体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。(以下为研究生课件部分)PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。 利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。 5. 多序列联配的意义: 1)分析多个序列
13、的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。6. 系统发育学的研究方法: 1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到; 2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列; 3)进化分类法:该方法综合
14、了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;7. 系统发育树的构建方法: 1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树; 2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类; 3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。8. 简述人工神经
15、网络预测蛋白质二级结构的基本步骤。1)输入数据(来自PDB)2)产生一个神经网络(一个计算程序)3)用已知的蛋白质二级结构来训练这个模型4)由训练好的模型来给出未知蛋白的一个可能的结构5)最后从生物角度来检验预测的一系列氨基酸是否合理9. 预测蛋白质三级结构的三种方法 1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型; 2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型; 3)从头预测法:根据序列本身从头预测蛋白质结构。10. 分子途径和网络的特点:1)分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们可能包含了多个分支,盘绕的连接和回路
16、。2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。11. 先导化合物的来源有四种来源: 1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来) 2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的) 3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮) 4)先
17、导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘) 12. 简述DNA计算机的基本原理:1)以编码生命信息的遗传物质DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。13. 简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?试管方式:就是
18、在一个或多个试管的溶液里进行生化反应;表面方式:是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。(1)操作简单,易于实现自动化操作;(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10的5次方倍;(5)结果易于纯化。14. 简述PCR引物设计的基本原则及其注意要点原则:首先引物与模板的序列要紧密互补,其次引物与引物
19、之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74,不适合于TaqDNA聚合酶进行反应。2、引物序列在模板内应当没有相似性较高,尤其是3端相似性较高的序列,否则容易导致错配。引物3端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。3、引物3端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3端使用碱基。另外,
20、引物二聚体或发夹结构也可能导致PCR反应失败。5端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。5、引物所对应模板位置序列的Tm值在72左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3端G值较低(绝对值不超过9),而在5端和中间G值相对较高的引物。引物的3端的G值
21、过高,容易在错配位点形成双链结构并引发DNA聚合反应。7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。8、对引物的修饰一般是在5端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。15. 假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对
22、,得到该序列的保守情况和突变情况。3、最后用距离法构建系统发育树。16. 假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。1、用该序列进行BLASTP搜索。2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。3、再用ClustW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。 17. BLAST中,E值和P值分别是什么,它们有什么意义? 答:BLAST中使用的统计值有概率p值和期望e值。 E期望值(E-value)这个数值表示你仅仅因为随机
23、性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。 p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。 18. 什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么 答:PAM
24、矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以使用PAM,FASTA缺省推荐BLOSUM50矩阵。 PAM矩阵(Point Accepted Mutation)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨
25、基酸。 模块替换矩阵BLOSUM(BLOcks Substitution Matrix)首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。 19. 为什么蛋白质空间结构预测很重要,目前有哪几条途径用于从蛋白质的氨基酸序列预测其空间三维结构? 答:蛋白质空间结构的预测很重要。研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认
26、识蛋白质与蛋白质(或其它分子)之间的相互作用,通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。 目前有三条途径用于从蛋白质一级序列预测其空间三维结构: A、同源建模法。是蛋白质三维结构预测的主要方法。对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。前提是必须要有一个已知结构的同源蛋白质。 B、穿针引线法。需建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。 C、从头开始法。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,直接根据序列本身来预测其结构。该方法先对蛋白质及溶剂作近似处理,再建立能量函数,通过对构象空间进行快速搜索找到与某一全局最小能量相对应的构象。