1、生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。从生物分子获得与挖掘深层次生物学知识。人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息得数据库;开发数据分析工具;研究HGP实施所带来得伦理、法律与社会问题。其中我国承担了人类3号染色体短臂。记录:一个数据库记录一般由两部分组成:原始序列数据与描述这些数据生物学信息得注
2、释。冗余:在一个数据库存在着多个相同得项,如两个或者更多得记录中有一个相同序列Fasta格式开始于一个标识符:,然后就是一行描述。GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以/结尾。该競传协舉氫钰。EMBL:入口标识符ID,序列开始标识符SQ,结束就是/。数据库得特点:数据库就是可以检索得,即具有检索功能;数据库应该就是定时更新得,即不断有新版内容发布;数据库就是交叉引用得,特别就是在互联网时代,数据库应该通过超链接与其她数据库相连。淥褛鄖倉荤隐弃。EST序列:表达序列标签对cDNA文库测序得到得,就是转录得DNA序列。STS序
3、列:序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp500bp)。STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列,用于产生作图位点。凯睐们鹞魘誣欽。GSS序列:基因组概览测序基因组DNA克隆得一次性部分测序得到得序列。HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据与各种服务。EMBL:欧洲分子生物学实验室。DDBJ:日本遗传研究所。同源性基因系指起源于同一祖先但序列已经发生变异得基因成员。基因同源性只有“就是”与“非”得区
4、别,就是一种质得判断。筛垆枭設腸閱調。直系同源基因:分布在不同物种间得同源基因又称直系同源基因。旁系同源基因:同一物种得同源基因则称旁系同源基因(水平基因), 水平基因由重复后趋异产生。一致性:序列中同一碱基位置得相同得碱基成员, 或者蛋白质得同一氨基酸位置得相同得氨基酸成员得百分比。相似性:序列中同一位置相同或相似序列得百分比。如同源蛋白质得氨基酸序列中一致性氨基酸与可取代氨基酸所占得比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸得成员, 它们之间得代换不影响蛋白质(或酶)得生物学功能。經痪靨設办灑鵪。相似性与同源性关系:一般来说序列间得相似性越高得话,就是同源序列得可能性就更
5、高,所以经常可以通过序列得相似性来推测序列就是否同源。郸埚贏钕凄灑顼。序列比对:确定两个或多个序列之间得相似性以至于同源性,而将它们按照一定得规律排列。任务:通过比较生物分子序列,发现它们得相似性,找出序列之间共同得区域,同时辨别序列之间得根本差异。坟馀骠燜潛搖爛。相似性:可能就是核酸氨基酸序列得相似、可能就是结构得相似、可能就是功能得相似主要得blast程序:程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中得序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中得序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后与蛋白质数据库中得序列逐一搜索。Tbla
6、stn蛋白质核酸蛋白质序列与核酸数据库中得核酸序列6框翻译后得蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再与核酸数据库中得核酸序列6框翻译成得蛋白质序列逐一进行比对。Score:使用打分矩阵对匹配得片段进行打分,这就是对各对氨基酸残基(或碱基)打分求与得结果,一般来说,匹配片段越长、相似性越高则Score值越大。慶园鲳陆荠骧阑。E value:在相同长度得情况下,两个氨基酸残基(或碱基)随机排列得序列进行打分,得到上述Score值得概率得大小。E值越小表示随机情况下得到该Score值得可能性越低。譙羋涤摈談铂磽。分子钟:某一蛋白在不同物种间得取代数与所研究物种间得
7、分歧时间接近正线性关系,进而将分子水平得这种恒速变异称为“分子钟”。买逕篤鰨禅醬汹。中性学说:突变大多数就是中性得,中性突变通过随机得遗传漂变在群体里固定下来,分子进化就是遗传漂变得结果,在分子进化上自然选择不起作用。擋鄺劊维陕蕆僨。分子进化系统发育树得研究目得:物种分类及关系:从物种得一些分子特性出发,构建系统发育树,进而了解物种之间得生物系统发生得关系大分子功能与结构得分析:同一家族得大分子,具有相似得三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析与功能预测进化速率分析:例如,HIV得高突变性,哪些位点易发生突变昙淒銥鍤鏹傖妝。末端节点:代表最终分类,可以就是物种,群
8、体或者蛋白质、DNA、RNA分子等。系统发育树就是由一系列节点与分支组成,其中每个节点代表一个分类单元(物种或序列),而节点之间得连线代表物种之间得进化关系。鏢鲫詛諗謗终鍍。树得节点又分为外部节点与内部节点。外部节点代表实际观察到得分类单元。内部节点又称为分支点,代表分类单元进化历程中得祖先。一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般就是二叉树。擯藓缄崍誣灤紹。有根树:从最早共同祖先,即根开始,随着时间得连续分支事件引起得一组相关物种得分歧。无根树:表示分类单元之间得进化关系,但不鉴别最早得共同祖先。距离:对一个有根树来说,沿着每个分支得进化方向就是确定得。反之
9、,对无根树来说,并不清楚内部分支得祖先物种就是从哪里进化而来相关序列间得差异称为距离。不同物种得两条同源序列得度量被称为遗传距离或进化距离。审蛎项帶鳐厩篋。外群/外围枝:与当前研究得主要物种或基因相对较远得一组序列,可以辅助定位树根,选择条件:序列必须与剩余序列关系较近,但外围支序列与其她序列间得差异必须比其她序列之间得差异更显著諤幣擻襠飒阌隱。系统发育树构建步骤:多序列比对;建立取代模型(建树方法);建立进化树;进化树评估。进化树得可信度检验自展法(统计方法):从排列得多序列中随机有放回得抽取某一列,构成相同长度得新得排列序列;重复上面得过程,得到多组新得序列;对这些新得序列进行建树,再观察
10、这些树与原始树就是否有差异,以此评价建树得可靠性絢颦鯽灵阄钼显。建树一般原则:1、可靠得待分析数据2、准确得多序列比对3、选择合适得建树方法:A、序列相似程度高,MP(简约法)B、序列相似程度较低,ML(似然法)C、序列相似程度中等,NJ(邻接法)D、序列相似程度太低,无意义减颉骑赙時厅鶚。bootstrap为每个分支指派一个数值,表示这些分支在bootstrap测试中出现得百分比,暗示它们关联得化分就是否被数据很好地支持。越接近100,可信度越高。慍轳鄲鸞韻饬綿。GO:基因本体联合会所建立得数据库,旨在建立一个适用于各种物种得,对基因与蛋白质功能进行限定与描述得,并能随着研究不断深入而更新得
11、语义词汇标准。谍絀逻咛谙觇鞏。GO语义得分类:分子功能描述在个体分子生物学上得活性,如催化活性或结合活性。生物学过程由分子功能有序地组成得,具有多个步骤得一个过程。细胞组件指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。煬鳅巯亘腳硯呐。语义之间有三种关系:is a (I)part of (P)regulates (R)语义之间得关系:1、“语义”用“结点”表示2、用父子结点来表示语义之间得关系,其中父结点离根结点较近,表示相对宽泛得语义,而子结点离叶子结点较近,相对父结点其语义所代表得内容更为具体。3、实线表示结点之间得关系4、虚线表示推
12、理而并未证明得关系皸阐霧绅缏广桧。GO语义之间得关系就是单向得,结构像就是有向非循环树,但与有向非循环树不同得就是,本体论结构图中得结点可以有两个及其以上得父结点。厅驀塵設镉寿鏞。在“Qualifier”用“NOT”标注,如“nurse cell apoptosis”,其说明根据实验数据,该基因产物并不在“nurse cell apoptosis”过程中起明显作用,因而该基因产物用该语义注释只就是研究者得一种推测与期望,此推测得根据就是该基因产物与那些在“nurse cellapoptosis”起明显作用得基因产物有着非常相似得序列结构。贤躦蜡闹課韃聋。间隔区(IGR)就是一片位于基因之间得D
13、NA序列。非编码DNA间隔区得一个子集。偶尔有些间隔DNA得作用来控制基因附近,但目前大部分没有已知得功能。它有时也被称为“垃圾DNA”得DNA序列之一,最近被称为“暗物质”或“暗物质转录间隔区得DNA片段”。识侨貶胫钒覬鐨。重复序列得分析:对于真核生物得核酸序列而言,在进行基因辨识之前都应该把简单得大量得重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大得扰乱,尤其就是涉及数据库搜索得程序。攒齿缦潰财擼韋。等值区:大部分真核基因组表现出一种称为等值区得组织形式。等值区定义为“具有一致碱基组成得长区域”:等值区基因组序列得长度超过1,000,000对碱基;虽然不同得等值区其GC
14、含量差别显著,但同一等值区得GC含量始终相对均衡,即在等值区全长序列上移动得1,000bp滑动窗口中得GC含量与整个序列得GC含量相差不超过1%。壇缵蟯备賃边铥。人类基因组大约可以划分为五个不同类型得等值区:其中有两个区域缺乏G与C,分别被称作L1与L2,平均GC含量分别为39%与42%;另三个区域所含得G与C相对丰富,分别被称作H1、H2与H3,GC含量平均值分别为46%、49%与54%。真核生物得H等值区中含有丰富得基因,就是开始基因组测序得最佳位置。餾詒颔纸飲躏肤。SD序列:mRNA翻译起点上游与原核16S 核糖体RNA或真核18S rRNA 3端富含嘧啶得7核苷酸序列互补得富含嘌呤得3
15、7个核苷酸序列(AGGAGG),就是核糖体小亚基与mRNA结合并形成正确得前起始复合体得一段序列。闲缂縐態适钛诋。Kozak规则,即第一个AUG侧翼序列得碱基分布所满足得统计规律,若将第一个AUG中得碱基A,U,G分别标为1,2,3位,则:第4位得偏好碱基为GAUG得5端约15bp范围得侧翼序列内不含碱基T;在-3,-6与-9位置,G就是偏好碱基;除-3,-6与-9位,在整个侧翼序列区,C就是偏好碱基鯫阍膑凛勞构聯。真核生物中得基因预测程序得分类: 1、 基于同源性得方法2、 基于从头算得方法3、 基于一致性得算法(大部分程序就是物种专一得,这就是由于用于获得统计参数得训练数据必须由单一生物体
16、取得)万計幂鲰瑩悦狞。蛋白质数据库:提供详细得蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库得相应链接媪箧躥贳廪垭薌。Reviewed 与 Unreviewed代表数据得可性度。可性度得标签主要有三种:人工验证得数据(黄色星);从其她数据源引用过来得数据(半黄半灰星);通过程序添加或者产生信息得(灰色星)。块销撸骯却铃鹆。蛋白质3D结构预测得方法可分为三大类:同源建模法折叠识别法从头预测法生物芯片:生物活性物质以点阵得形式有序地固定在固相载体上。在特
17、定条件下与荧光标记过得待检测样品进行生化反应。反应结果用化学方法显示,光学仪器进行数据采集,通过计算机软件进行数据分析,得到样品得分子信息。蠷哙开虿郏樯汆。基因芯片数据处理与分析:1、基因芯片数据得获取2、芯片数据得标准化3、差异表达基因得分析4、基因共表达分析5、基因表达数据得聚类6、基因表达数据得分类7、后续分析筝椏犖谐燉憊籃。误差来源:图像分析扫描DNA杂交过程(温度、时间、混合均匀程度等)探针得标记RNA得抽提加样其她腎網论鸲炉軾廟。芯片数据得标准化:为了消除由于实验技术所导致得表达量得变化,并使各样本与平行实验得数据处于相同得水平,从而得到具有生物学意义得基因表达量得变化。順勛耸贿溈
18、懇疯。数据过滤:过滤掉非正数,通过图像扫描软件,将每个杂交点得光强度转化为表达量时,会产生负得数值或者0,这主要就是软件得算法对背景噪音处理时所产生得。由于负数与零就是不能对数化得,故过滤掉这些数据就是非常必要得。闐馍執騙緊镧兽。归一化采用得一个基本假设就是:在测试样本与对照样本间大多数得基因就是没有显著差异表达得,而在有差异表达得基因中,在测试样品中高表达得基因与低表达得基因在数量上也就是大致相当得,因此芯片上所有基因得相对表达量应该就是以0为中心得分布。摈鸸蠷枭镪殘覲。平均数、中位数标准化:由于不同得实验样本(如不同组织)就是分别在不同得芯片上杂交试验,因而也有系统误差,应通过标准化将芯片
19、得数据调整到同一水平。芯片间得数据标准化常采用,常用得方法就是平均数、中位数标准化。即:将不同组实验得数据对数比值得中位数或平均数调整到同一大小鴕扩凫筍結骇閂。差异表达基因得分析:目得:比较两个条件下得基因表达差异,从而识别出与条件相关得特异基因或者显著差异表达基因馅絲厣惬攛掼餉。基因显著差异表达:通常就是指一个基因在两个条件中得表达水平得检测值在排除实验、检测等因素后达到一定得差异,具有统计学意义,同时也具有生物学意义。钍宠帧糾埡淥铩。基因共表达分析:在N个不同得条件下 ,考察基因X与Y得表达就是否相似。共表达:正相关:相似得表达谱,可能存在正关联;负相关:相反得表达谱,可能存在负调控Pea
20、rson相关系数:r -1, 1; r 1,正相关;r -1,负相关基因表达数据得聚类:从数据矩阵出发,将表达模式相同得基因聚为一类。从数学角度:聚类得到得基因分组,一般就是组内各成员在数学特征上彼此相似,但与其她组中得成员不同。从生物学角度:聚类分析方法所隐含得生物学意义与基本假设就是,组内基因得表达谱相似,它们可能有相似得功能。瑤担飢盤價谓誹。基因表达数据得分类:根据基因表达得数据将样本分成两类或多类。有督导学习:根据发现得模式进行预测。应用:癌症vs、正常组织;癌症得亚型、不同阶段(良性得vs、恶性得);对药物得敏感性。跡靄惬妩毀纶嚌。有监督学习:在样本标签已知得情况下,可以统计出各类训
21、练样本不同得描述量,如其概率分布,或在特征空间分布得区域等,利用这些参数进行分类器得设计。已知训练样本,用已知类别得样本训练分类器,以求对训练集得数据达到某种最优,并能推广到对新数据得分类。钶跄摜業缘阂镕。无监督学习:样本数据类别未知,需要根据样本空间得相似性对样本集进行分类(聚类),试图使类内差距最小化,类间差距最大化,不需要任何先验领域知识,利用聚类结果,可以提取数据集中隐藏得信息,对未来数据进行预测与分类。乡馭腡鯊垲贡煢。有/无监督学习区别:有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。有监督学习方法得目得就是识别事物,识别得结果表在给待识别数据加上标号。因此训练样本集必须由带有标号得样本组成。非监督学习只有要分析数据集本身,则可按自然得聚集性分类,但不以与某种预先得分类对上号为目得檜炖長攛债鱼鈑。
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100