收藏 分销(赏)

医学生物信息学-绪论-1.ppt

上传人:精**** 文档编号:12162678 上传时间:2025-09-19 格式:PPT 页数:89 大小:4.98MB 下载积分:18 金币
下载 相关 举报
医学生物信息学-绪论-1.ppt_第1页
第1页 / 共89页
医学生物信息学-绪论-1.ppt_第2页
第2页 / 共89页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,课程介绍,参考书,:,生物信息学札记,樊龙江,Bioinformatics,.David W.mount,Bioinformatics for Geneticists.,Michael R.Barnes,Ian C.Gray,课程主要内容,:,1.,医学生物信息学,(,主要考试内容,),2.,生物医学工程介绍,(,次要考试内容,),一、信息学基础,Fundament of Informatics,绪 论,常见的信息形式,1),文字、数字、图表,一季度,二季度,三季度,2000,278,301,243,2001,309,432,433,2002,455,477,234,Form of Information,根据信号数据计算绘出的曲线图,根据数学公式计算机画出的,3D,图形,根据,X,线的吸收数据计算机画出的,CT,影像,Images,显微照相得到的细胞图像,记录的含有噪音的数字语音信号和除去噪音的信号,虚拟现实,:,Computer and Application,计算机的应用,Computer and Application,计算机的应用,脑科学研究与学习,辅助教育:,Computer and Application,计算机的应用,(9),Digital Technology,数字化与数字信号处理,(1),各种传感器,AD/DA,数据采集卡,模拟设备,数字设备,数字化与数字信号处理,(2),一维信号,:,Digital Technology,二维信号处理,:,去 噪,Digital Technology,图像分割,Digital Technology,直方图分析,Digital Technology,人工智能、模式识别及信息融合,(1),人工智能:,Artificial Intelligence And Model Identification,人工智能、模式识别及信息融合,(2),Artificial Intelligence And Model Identification,智能,识别,神经网,络模型,传,感,器,计算机,系统,驱动,设备,专家,系统,操作,对象,状态,指,令,模式识别:,利用人的知识库,通过数学模型让计算机识别一定的事务。,如:文字识别,指纹识别,语音识别,细胞记数,基因蛋白质序列、智能控制与信息处理等其它各种电脑自动分析系统。,人工智能、模式识别及信息融合,(2),Artificial Intelligence And Model Identification,信息融合:,脑功能图与形态图形融合,Artificial Intelligence And Model Identification,人工智能、模式识别及信息融合,(3),医学信息学,Digital Technology,医学信息学,信息融合与模式识别脑科学中的应用,脑电信息融合的认知动力学,Bioinformatics,基因序列分析生物信息学,Bioinformatics,基因位点分析生物信息学,Bioinformatics,质粒位点分析生物信息学,信息融,合与模,式识别,领域典,型应用,二、生物信息学产生的背景,1,、,人类基因组计划的完成,第一个人类染色体全序列,-,第,22,号染色体的测序工作已经在,1999,年,12,月完成,人类基因组计划工作草图已完成。,给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时为基因组研究取得突破性进展提供了可能。目前在数据库中模式生物全基因组序列越来越多。,人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平,上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。,绪论,-,生物信息学产生的背景,人基因组测序完成后,基因组研究已进入全面信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段,-,后基因时代。,功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。,很多模式生物基因组,如果蝇基因组,1.2,亿碱基对的编码区于,2000,年,2,月测序并组装完成。,绪论,-,生物信息学产生的背景,GenBank,中的,DNA,碱基数目呈指数增加。,1999,年,12,月其数目已达,30,亿,它们来自,47000,种生物。,2000,年,4,月,DNA,碱基数目是,60,亿。,2001,年初这一数目已达,110,亿。,各种生物的,EST,序列已达,600,多万条,其中人类的,EST,序列已超过,300,万条,估计覆盖人类基因,90,以上。,UniGene,的数目约达,7,万个。,自,1999,年初单核苷酸多态性数据库出现以来,到,2000,年,3,月,20,日总数是,26569,,现在已超过,600,万。,自全长,1.8Mb,的嗜血流感杆菌基因组序列于,1995,年发表以来,已有,54,个模型生物的完整基因组完成了测序,它们中有,9,个古细菌、,31,个原核真细菌、,14,个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的,70,余个微生物基因组正在测试当中。,2,、基因测序数据高速积累,绪论,3,、大量未知基因需要破解其功能,人类基因组从第,22,号染色体已鉴定出,679,个基因,其中有,35,种疾病与该染色体突变相关,如免疫系统疾病、先天性心脏病和精神分裂症,但是其中,55,的基因是未知的。,信息量随计算机运算速度增长,计算机运算速度,:18,个月增长一倍,;,DNA,序列数据,:14,个月增长一倍,3,、生物信息的文献增长迅速,根据,PubMed,数据整理,分子生物学和遗传学的文献积累从,60,年代中期的接近,10,万篇迅速增长至,60,年代末期的,20,多万篇,即在,3-4,年间就可以翻一番。到,现在,年,则增长至约,1,50,万篇,4,、生物信息数据库涌现,美国的核酸数据库从,1979,年开始建设,,1982,年正式运行。,欧洲分子生物学实验室的,EMBL,数据库也于,1982,年开始服务。,日本于,1984,年开始建立国家级的核酸数据库,DDBJ,,并于,1987,年正式服务。,DNA,序列的数据已经从,80,年代初期的百把条序列,几十万碱基上升至现在的,500,亿碱基!这就是说,在短短的约,18,年间,数据量增长了近十万倍。,绪论,概念与定义,生物信息学的内涵,生物信息学是在基因组计划背景下发展起来的综合运用,生物学、数学、物理学、信息科学,以及计算机科学等诸多学科的理论方法的崭新交叉学科。,生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。它的拓展为蛋白质组信息学。,绪论,概念与定义,基因组信息学的定义,Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition,processing,storage,distribution,analysis,and interpretation,,,which is essential part of bioinformatics.,它是一个学科领域,,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。是生物信息学的重要组成部分。,绪论,概念与定义,生物信息学产生与技术融合:,1.,生物学对生命现象认识的迅速发展,2.,信息技术与计算机技术的高速发展,3.,生物数学研究的深入,4.,生物学与信息科学方法交叉融合,5.,*,神经信息学与脑科学的发展,生物信息学,绪论,广义生物信息学研究范畴,生物遗传信息,:,DNA-RNA-PROTEIN,遗传信息的转录,-,翻译,遗传信息与遗传生物信息学,生物电磁学与电磁生物学,:,生命活动反映出的电磁信息,电磁辐射对生命体产生的各种影响,人体生物信号的检测与调制,视觉与光信息处理,:,视觉神经元回路信息的处理与视觉编码,视觉的认知与图像的智能模式识别,成像机制,人体体免疫信息学,:,与免疫相关的人体免疫球蛋白,表达基因等相关的信息学,绪论,广义生物信息学研究范畴,脑与神经信息学,:,脑感知信息提取与应用,脑认知系统的信息提取与信息处理新方法,思维、逻辑、记忆、学习、形象思维模型的研究,机器学习方法与神经网络算法的研究,生物体结构与微光机电仿真研究,:,DNA,驱动的微型机器人,大分子,细胞结构组装信息的组织工程学研究,分子聚集化学的研究,生物芯片的研究,:,基因芯片、蛋白质芯片、组织芯片研究,绪论,现代生物信息学研究范畴,基因层次的生物信息学,产生背景,:,1,.,生物学,+,物理学,+,信息科学,+,计算机,2.,快速序列测定、基因重组、多维核磁,3.,同步辐射、光电子学、纳米与机器人技术,4.,网络与海量存储设备的发展,5.,基因组,DNA,序列信息分析,6.,蛋白质空间结构模拟和预测,7.,蛋白质功能信息分析与药物设计,核心内容,:,基因组信息的获取、处理、存储、分配和分析解释。,关键任务,:,解读基因组的核算序列,确定基因在染色体上的确切位置,解释功能,用新基因进行蛋白质空间结构的模拟和预测,设计新药物。,疾病层次的生物信息学,1.,研究基因表达与调控机制,2.,根据调控分子作用描述人类疾病诊断与治疗规律,研究目标,:,基因组信息的复杂结构与遗传信息规律,解释生命遗传规律,关键,:,解释生物体基因组序列的组织结构和信息结构,绪论,现代生物信息学研究范畴,关键是读懂编码,破译功能,CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG,(1250 characters),绪论,现代生物信息学的任务,绪论,现代医学生物信息学的主要组成,医学生物信息学是医学信息学的重要内容之一,它主要包括:,基因组信息学,蛋白质组信息学,功能蛋白组信息学,蛋白质结构与功能预测,免疫生物信息学,基因与蛋白质药物设计,*,脑信息学与神经信息学,*,中医信息学,*,心脑联合信息学,绪论,医学生物信息学的研究路线,获取基因序列数据,基因的识别,发现蛋白质的调控网络,功能结构的模拟预测,结构预测,药物设计,绪论,生物信息学的研究内容,生物信息的收集,基因测序,蛋白质测序,生物信息的存储,生物信息学数据库的建立,核酸序列数据库,:,GeneBank,EMBL,DDBJ,等,三维结构数据库,:,PDB,NDB,CCSD,等,蛋白质序列数据库:,SWISS-PROT,PIR,OWL,NRL23D,TrEMBL,等,蛋白质结构数据库,:SCOP,CATH,FSSP,3D-ALL,DSSP,等,国际数据共享的环境,生物信息数据库的评估与检测,生物信息的管理与服务提供,生物信息数据库管理系统的开发,分布式管理与维护系统的建立,生物信息的共享服务,建立数据库与网站,:,中国,:,北大,PDB,与,EMBL,镜像,生物物理所,JIPID,等,绪论,生物信息学的研究内容,生物信息学算法与软件研究,算法,:,并行算法,遗传算法,面向对象算法,虚拟机技术,神经网络算法等,线性与非线性统计,专用软件,:,DNASTAR,OMIGA,GENESCAN,等上百种,结构与功能预测软件示例,绪论,一,生物信息学的研究内容,基因组序列信息的提取,基因组信息学的根本任务,:,破译人类遗传密码,现状,:,目前掌握的只有,DNA,上的编码蛋白质区域,也称基因,占人类基因组的,13%,其余,97%,的基因序列的功能未知,这部分基因叫,Junk DNA,,,并对生命过程有活力,。,Junk DNA,所在的区域叫非编码区,包含有如下,DNA,、,RNA,成份,内含子、卫星,DNA,、非均一核,RNA,与假基因,以及顺序调控元件的起动子、增强子等。,目前研究热点:,97%Junk DNA,中非编码区编码特征、信息调控与表达规律。发现新的基因,研究其生理功能和疾病本质,为开发新药奠基。,绪论,一,生物信息学的研究内容,基因组序列信息的分析,计算方法:,高维分布的统计方法,神经网络方法,分形与分类方法,密码学方法,分析编码:,碱基三联体大于且接近,20,的组合分析,非三联体碱基组合分析,操纵子模型分析(,Jack-Monod model),分析方法:,用,EST,(,Expressed Sequence Tags),数据库发现新的基因。大尺度作图与预测;多序列比较分析,绪论,一,生物信息学的研究内容,功能基因组相关信息分析,分析方法:,表达谱分析,相关算法研究,软件开发,表达调控网络研究,功能分子结构模拟,核酸、蛋白质空间结构的预测与模拟,蛋白质功能预测,蛋白质结构的预测,研究现状:,蛋白质结构的预测问题仍然没有解决,核酸与蛋白质分子模拟技术是研究热点,绪论,一,生物信息学的研究内容,蛋白质结构的预测,目的:,用已知的序列来构建蛋白质的立体结构模型,研究蛋白质的功能,用于药物设计。,方法:,1.,分子动力学,:,根据分子力学、动力学、物理化学原理,在能量最小状态下的构像研究蛋白质的结构。,2.,基于知识的预测:,用已知空间结构的蛋白质进行对比分析,找出蛋白质一级结构的联系,总结规律。对于同源性低的蛋白质分子二级结构预测受限。,3.,知识预测的算法与准确率:,单残基,Chou-Fasman,统计,(56%),Garnier,信息统计和,Lim,统计法,(59%),人工神经网络,(64%),。,理想的准确率:,80%,可认为二级结构的预测基本准确。,绪论,一,生物信息学的研究内容,蛋白质分子模拟软件,MSI,公司的,Insight,Quanta,Tripos,公司的,Sybyl,等,北京大学的蛋白质分子设计软件等,生物大分子模拟和药物设计的内容,RNA,结构模拟,反义,RNA,分子设计,;,蛋白质空间结构和分子设计,;,复合蛋白质以及连接肽设计,;,生物活性分子的结构计算和设计,;,纳米生物材料的模拟与设计,;,基于,DNA,结构的药物设计,;,基于酶和功能蛋白结构以及细胞受体结构的药物设计。,绪论,一,生物信息学的研究内容,分子图像模拟与药物设计,1.,用大量已知的核酸、蛋白质、糖类的三维结构设计。,2.,已知功能蛋白质的改造,改造对象必须是结构清楚,功能确定,具有可操作性,3.,改造后的蛋白质结构模型的模拟,并与自然蛋白质比较,预测新序列的空间结构和生物学功能特性,4.,在氨基酸顺序已知的基础上,模拟蛋白质的空间结构,5.,根据蛋白质的空间结构,改性天然大分子,进行受体药物设计,如,:,酶结构、抗体结构、基因表达产物、膜受体结构、转录因子结构的药物设计,6.,用生物信息学芯片高通量技术进行靶向药物的筛选,绪论,-,生物信息学的技术方法研究,DNA,芯片技术,:,提取基因表达功能谱,DNA,快速测序,DNA,突变检测,药物筛选,蛋白质测序技术,:,二维凝胶电泳、测序质谱技术、蛋白质芯片、飞行质谱技术等。,生物信息数据库与信息处理方法研究,测序相关基础知识,基因组计划,80,年代中期,美国能源部启动了一系列旨在构建人类基因组详尽的遗传和物理图谱研究项目,测定了人类基因组的全部核酸序列,并将约,10,万个人类基因定位于染色体。,如此大规模的研究项目,必须采用新方法分析基因图谱和,DNA,序列数据,用新仪器检测和分析,DNA,分子。为使研究结果尽快为公众所用,计划还要求利用先进的信息技术将研究成果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目引发的国际合作,就是众所周知的人类基因组计划,(Human Genome Project),模型生物基因组计划,一些模型生物,(model system),的基因组计划先后在世界各地的实验室启动。它们包括大肠杆菌,(Escherichia coli),啤酒酵母,(Saccharomyces cerevisiae),线虫,(Caenorhabditis elegans),果蝇,(Drosophila melanogaster),拟南芥,(Arabidopsis thalania),狗,(Canis familiaris),、小鼠,(Mus musculus),。但由此而产生的序列数据已经大量涌入公共的核酸序列数据库。,测序相关知识,人类基因组计划工作步骤,通过分析在染色体上测定基因组全序列的基本过程通常分两步,:,第一步是随机测序及序列组装,俗称鸟枪法,(shotgun),测序。,第二步则是找出这些随机片段之间的间断序列,确定那些歧义位点的碱基。,人类基因组含,70%,以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定后,进行连接装配,显然具有相当大的难度。,本世纪,60,年代和,70,年代,科学家们一直致力于研究测定核酸序列的方法。最初使用的方法只能测定,核糖核酸,(RNA),,主要是转移核糖核酸,(tRNA),。,tRNA,分子的序列比较容易测定,因为它的链较短,通常只有,74-95,个核甘酸,(nucleotide),,有可能分离单个,tRNA,分子。,脱氧核糖核酸,(DNA),的情况不同。人染色体,DNA,分子约含,5,千,5,百万到,2,亿,5,千万个碱基对,(basepairs,,简称,bp),,远远大于,RNA,分子。,测定一个染色体,DNA,分子的全部核苷酸序列是一项艰巨的工作。即使可以将其分割成较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为,500bp,。由此,要测定人类染色体,DNA,分子的全序列,就得将其分割成,50,万个片段。如何把某个片段从这,50,万个片段中分离出来,成了,DNA,测序问题的关键。,此外,基因克隆,(gene cloning),和多聚酶链反应,(polymerase chain reaction,,简称,PCR),技术为,DNA,全序列测定带来了方便。,核酸序列测定,序列测定,(sequencing),已有,50,多年的历史,进展缓慢。最初,人们致力于建立蛋白质,(proteins),和多肽,(peptides),的分离技术,确定其氨基酸,(amino acids),种类及含量。,1945,以前,没有任何蛋白质序列定量测定的方法。以后十年,随着色谱技术和标记方法的出现,,1955,年,Ryle,等完成了胰岛素的全序列测定。五年后,Hirs,等完成了第一个核糖核酸酶序列测定。,1965,年,约有,20,个含,100,多个残基的蛋白质序列被确定。截止,1980,年,这一数字已达,1500,个。而今天,已测定的蛋白质序列已超过,30,万。,蛋白质序列测定,蛋白质序列测定方法,最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲基化,(Edman deglation-dansylation),方法,(Edman,,,1950,年,),。,蛋白质序列测定的进展很快,应该归功于自动测序仪的研制成功。埃德曼和贝格,(Begg),于,1967,年发明的测序法相比,,1980,年开始使用的自动测序仪灵敏度提高了近,1,万倍。,质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白质分子是在,1997,年。质谱法测序的突出优点是可以识别翻译后修饰,(post-translations modification),得到的特殊氨基酸。用其它方法进行蛋白质序列测定时,这种修饰信息无法获得。,真核和原核细胞的结构,基因组测序的流程,细胞核中的染色体,染色体,DNA,相关蛋白质,DNA,的双螺旋结构,DNA,的分子组成,核甘,(nucleotides),磷酸盐,(phosphate),糖,(sugar),四种碱基,:,腺嘌呤,(,A,denine),鸟嘌呤,(,G,uanine),胞嘧啶,(,C,ytosine),胸腺嘧啶,(,T,hymine),DNA,的双螺旋结构的碱基互补,:A/T C/G,DNA,复制或克隆原理,基因组的定义,任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,,一个细胞中的全部基因序列及其间隔序列统称为基因组(,genomes,)。,基因的定义,DNA,上具有特定功能、负责一种特性表达的一个片断叫基因。一般来讲,一个基因只编码一个蛋白质。,DNA,、,RNA,与蛋白质,DNA:,两条互补链。由,ATCG,四个碱基字母形成的字符串描述。,RNA:,单链结构。由,AUCG,四个碱基字母形成的字符串描述。,蛋白质,:,一条或多条肽链。每个肽链是由,20,种氨基酸形成的长链,即,20,个氨基酸字母形成的字符串描述。,翻译:每,3,个碱基翻译成一个氨基酸。,DNA,上的基因,PCR,的作用,DNA,体外扩增方法的一种,能够将很少的样本,比如一滴血,就能扩增为完全相同的无数个拷贝。,类似于,DNA,的天然复制过程,其特异性依赖于与靶序列两端互补的寡核苷酸引物。,每,PCR,一个循环,扩增两倍,1-2-4-8-16,PCR,的原理,复制过程类似于,DNA,的天然复制过程,其特异性依赖于与靶序列两端互补的寡核苷酸引物。,PCR,由,变性,-,退火,-,延伸,三个基本反应步骤构成:,模板,DNA,的变性,:模板,DNA,经加热至,93,左右一定时间,使,DNA,双链解为单链,以便它与引物结合,为下轮反应作准备,模板,DNA,与引物的退火,(,复性,),:,模板,DNA,经加热变性成单链后,温度降至,55,左右,引物与模板,DNA,单链的互补序列配对结合,引物的延伸:,DNA,模板,-,引物结合物在,TaqDNA,聚合酶,的作用下,以,dNTP,为反应原料,靶序列为模板,按碱基配对与半保留复制原理,合成一条新的与模板,DNA,链互补的半保留复制链。重复循环变性,-,退火,-,延伸三过程,就可获得更多的“半保留复制链”,而且这种新链又可成为下次循环的模板。每完成一个循环需,2,4,分钟,,2,3,小时就能将待扩基因扩增放大几百万倍。到达平台期,(Plateau),所需循环次数取决于样品中模板的拷贝。,PCR,原理示意图,电泳测序原理,在凝胶一端小槽中放入荧光标记的,DNA,片断,两端加电压,短,DNA,片断跑得快,长,DNA,片断跑得慢。,测序时需要区分长度只差一个碱基的片断,负极,正极,DNA,样本,电泳带,电泳槽,测序流程,确定一条染色体片断上的碱基顺序叫测序。,Sanger,法:,在,PCR,时加入荧光标记的复制终止剂,比如,ddA,ddT,ddC,ddG,(相应于,4,种碱基),ddX,的两个作用:,可以当作正常碱基参与复制,一旦链入,DNA,中,其后就不能再继续连接,电泳,谁终止,碱基就是谁,此方法获,1974,年的,Nobel,奖,Sanger,的步骤,:,第一步:加入复制终止剂,荧光检测探头,电泳,看谁跑得快,第二步:荧光检测,Shotgun,测序,DNA,的提取和纯化,载体预备:与,DNA,片断结合,从而能够在细菌中扩增。,DNA,片段的制备:将,DNA,用超声波切成能够测序的小片断,转化培养:小片断和载体结合,植入细菌中进行扩增。,提质粒:从细菌中提取出繁殖好的质粒,电泳检测:检测质量的好坏,测序:上测序仪测序,DNA,整体,小段和载体结合,结合后进行测序,切成小段,测序前的准备过程,:,细菌扩增,Shotgun,测序,拼接,因为整个基因组太长(上,M),而每次只能测得一个,500,的小片断,(read),拼接的问题是如何根据不同的片段序恢复原始顺序?,类比:,10,本圣经,都从随机点起始剪成,500,个字母左右的小纸条,问:给你这么一堆小纸条,你能读出圣经来吗?,拼接错误难免!,Shotgun,法序列拼接,Consensus,Sequence,Gap,Low Base,Quality,Single,Stranded,Region,Mis-Assembly,(Inverted),拼接中的重复错误,测序后的工作,测序之前几乎全是分子生物学工作。,测序的结果,:,得到了一组天然形式化的代表碱基的字符串:,ATCG,串,测序之后就全是计算机信息学的问题。,信息学的核心问题:,字符串对比:两个字符串的差距,字符串拼接问题,蛋白质一维预测二、三维结构预测,在生物学的研究中,将未知序列同已知序列进行比较分析已经成为一种强有力的研究手段,生物学领域中绝大部分的问题在计算机科学领域中主要体现为序列或字符串的计算和比较问题,。,小结,描述了生物信息学产生背景,定义了生物信息学概念。,阐述了生物信息学的广义与现代研究的范畴,以及生物信息学研究的关键问题和生物信息学的主要技术组成。,列举了生物信息学的主要研究内容与生物信息学的分析技术方法。阐述了生物信息学研究的一般方法路线和步骤、生物信息学研究的成果和存在的问题。,补充了基因与蛋白质测序相关的基础知识和阐述了测序的流程,对基因扩增的,PCR,原理及测序方法进行了说明。列举了生物信息学研究的难点和热点。,作业,:,回答问题,生物信息学研究的主要内容有那些?,生物信息学研究的技术方法主要有哪些?,叙述基因测序方法及其关键步骤。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服