1、生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个
2、部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94进化树:物种的进化被表现成为一系列的分叉,并符合分类理论,这些树就叫做进化树。多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问
3、题。基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。自举法检验(Bootstrap):放回式抽样统计法。
4、通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。相似性(similariy): 定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构
5、和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。PROSITE:是蛋白质家
6、族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功
7、能、表达机制和物种进化的学科。它们不能表示任何概率信息。HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。鸟枪法测序(shotgun method)一种测序方法,包括从基因组中获得随机的、已测序的克隆片段,并且对初始基因的位置一无所知。多序列比对(multiple sequence alignment)
8、:三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。互补序列(plementary sequence)能够与其他DNA片段根据碱基互补序列(A与T配对,G与C配对)形成两练结构的核苷酸序列。保守序列(conserved sequence)指DNA分子中的一个核苷酸片段或者蛋白质中氨基酸片段,它们在进化过程中基本保持不变。注释(annotation)对数据库中原始的DNA碱基序列添加相关信息(比如编码的基因,氨基酸序列等)或其他的注解。基因预测(gene prediction)用计算机程序对可能的基因所做的预测,它是基于DNA片段与已知基因序
9、列的匹配程度的。表达序列标签(EST)一种短的DNA片段,是cDNA分子的一部分,可用来鉴定基因,通常用于基因定位和基因图谱中。多态性(PolyMorphism)多个个体之间DNA的差异叫多态性。简述分子生物学中的“中心法则”。“中心法则”的核心是什么? (1)DNA是遗传物质,是携带遗传信息的载体。信息从基因的核苷酸序列中被提取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家称之为中心法则(central dogma)。(2)“中心法则”的核心:DNA分子中的遗传信息转录(transcription)到RNA分子中(即RNA聚合酶以DNA为模板合成RNA),再由RNA翻
10、译(translation)生成体内各种蛋白质,行使特定的生物功能。生物信息学的发展经历了哪几个阶段答:生物信息学的发展经历了3个阶段。第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。生物信息学步入后基因组时代后,其发展方向有哪几个方面。答:生物信息学步入后基因组时代后,其发展方向主要有:各种生物基因组测序及新基因的发现;单核苷酸多
11、态性(SNP)分析;基因组非编码区信息结构与分析;比较基因组学和生物进化研究;蛋白质结构和功能的研究。美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上Entrez系统可以检索的数据库。(NCBI维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。维护的主要数据库包括答:PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。BLAST套件的blastn、blastp、blast
12、x、tblastn和tblastx子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P97简述构建
13、进化树的步骤,每一步列举1-2种使用的软件或统计学方法。答: (1)多序列比对:Clustal W (2)校对比对结果:BIOEDIT(3)建树:MEGA(4)评估系统发育信号和进化树的牢固度:自举法(Bootstrap)如何用BLAST发现新基因? 答:从一个一直蛋白质序列开始,通过tBLASTn工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因。试述SWISS-PROT中的数据来源。答:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质
14、数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。FASTA序列格式 第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。 (NBIR/PIR序列格式 第一行以“”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。 GDE序列格
15、式 与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)BLAST的五个子程序程序查询序列数据库种类简述方法Blastp蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较Blastn核苷酸核苷酸适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较Blastx核苷酸(已翻译)蛋白质适合新DNA序列和EST序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBlastn蛋白质核苷酸(已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比TBlastx核苷
16、酸(已翻译)核苷酸(已翻译)适合分析EST序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列PSI-Blast的原理:PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。(以下为研究生课件部分)PSI-BLAST的基本思路在于根据最初的搜索结果,依照
17、预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。 利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。 多序列联配的意义: 1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的
18、蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。系统发育树的构建方法: 1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树; 2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类; 3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。简
19、述PCR引物设计的基本原则及其注意要点原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74,不适合于TaqDNA聚合酶进行反应。2、引物序列在模板内应当没有相似性较高,尤其是3端相似性较高的序列,否则容易导致错配。引物3端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。3、引物3端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增
20、效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。5、引物所对应模板位置序列的Tm值在72左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。
21、应当选用3端G值较低(绝对值不超过9),而在5端和中间G值相对较高的引物。引物的3端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。8、对引物的修饰一般是在5端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷
22、酸序列和蛋白质序列。2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。3、最后用距离法构建系统发育树。假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。1、用该序列进行BLASTP搜索。2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。3、再用ClustW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。BLAST中,E值和P值分别是什么,它们有什么意义? 答:BLAST中使用的统计值有概率p值和
23、期望e值。 E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。 p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。 预测基因的一般步骤是什么? 获取DNA目标序列查找ORF并将
24、目标序列翻译成蛋白质序列,利用相应工具查找ORF并将DNA序列翻译成蛋白质序列在数据库中进行序列搜索,利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索进行目标序列与搜索得到的相似序列的全局对比查找基因家族进行多序列比对,获得比对区段的基因家族信息查找目标序列中的特定模序,分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索预测目标序列蛋白质结构,利用PredictProtein(EMBL)、NNPREDICT等预测目标序列的蛋白质二级结构。生物信息学所用的方法和技术。(1)数学统计方法;(2)动态规划方法 ;(3)机器
25、学习与模式识别技术 ;(4)数据库技术及数据挖掘 ;(5)人工神经网络技术;(6)专家系统 ;(7)分子模型化技术;(8)量子力学和分子力学计算 ;(9)生物分子的计算机模拟;(10)因特网(Internet)技术。国际上权威的核酸序列数据库有那些?(1)欧洲分子生物学实验室的EMBL 。(2)美国生物技术信息中心的GenBank。(3)日本遗传研究所的DDBJ。生物信息学在基因芯片中的应用有哪些?(1)确定芯片检测目标。(2)芯片设计。(3)实验数据管理与分析。生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功
26、能。生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。基因芯片对于生物分子信息检测的作用和意义?在生命科学领域中,基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗传过程中的规律。基因
27、识别:是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。生物信息学研究意义?(1)认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。(2)改变生物学的研究方式改变传统研究方式,引进现代信息学方法(3)在医学上的重要意义为疾病的诊断和治疗提供依据,为设计新药提供依据人类基因组计划与生物信息学之间的相互促进关系。人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大的科学计划,
28、与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3109个碱基对(bp,base pair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的
29、管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。值得庆幸的是,人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学在最近10年
30、迅速发展的历程证明了这一点。掌握蛋白质结构有什么意义?为什么要进行蛋白质结构预测? (1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。