1、结构生物信息学本章内容提要本章内容提要r1、Microarray简介简介r2、图像处理与数据标准化图像处理与数据标准化r3、基因芯片得数据分析基因芯片得数据分析r4、Microarray:工具工具&数据库数据库基因芯片基因芯片r1、基因芯片基因芯片(1987)r2、根据免疫测定得根据免疫测定得(immunoassay)得方法予以改得方法予以改进进r3、高通量、点阵以及高通量、点阵以及Northern杂交杂交|同时测定细胞内数千个基因得表达情况同时测定细胞内数千个基因得表达情况|将将mRNA反转录成反转录成cDNA与芯片上得探针杂交与芯片上得探针杂交r4、芯片得体积非常小芯片得体积非常小:微量样
2、品得检测微量样品得检测r5、基因表达情况得定量分析基因表达情况得定量分析r6、其她类型得芯片其她类型得芯片:|组织芯片组织芯片|蛋白质芯片蛋白质芯片基因芯片得密度基因芯片得密度基因芯片得密度基因芯片得密度:100-1 million DNA 100-1 million DNA 探针探针探针探针/1cm/1cm2 2将样品中得将样品中得DNA/RNA表上荧表上荧光标记光标记,则可以定量检验基因则可以定量检验基因得表达水平得表达水平碱基互补碱基互补基因表达情况得定量测定基因表达情况得定量测定p1、发现在特定生长时期发现在特定生长时期,或者随着环境变化或者随着环境变化,那那些基因得表达收到诱导或者抑
3、制些基因得表达收到诱导或者抑制p2、在相同条件下在相同条件下,上调或者下调变化规律相似得上调或者下调变化规律相似得基因基因,可能具有功能上得关联可能具有功能上得关联p3、可以从共表达得基因中寻找调控模体可以从共表达得基因中寻找调控模体p4、基因表达得模式可以用来表征异常得细胞调基因表达得模式可以用来表征异常得细胞调控控,例如例如,癌症得诊断癌症得诊断基因芯片技术得类型基因芯片技术得类型按技术手段、探针类型分类按技术手段、探针类型分类r1、Short oligonucleotide arrays(Affymetrix)r2、cDNA arrays(Brown/Botstein)r3、Long o
4、ligo arrays(Agilent)r4、Serial analysis of gene expression(SAGE)按实验要求分类按实验要求分类r1、单通道单通道(Single Channel):一次检验一种状一次检验一种状态态 r2、双通道双通道(Dual Channel):差异表达基因得筛差异表达基因得筛选选两类主流得两类主流得DNA芯片芯片p1、cDNA microarrays:将将5005,000bp得得cDNA固载到介质上固载到介质上(例如玻璃例如玻璃),Stanford开发设开发设计计,通常为双通道通常为双通道p2、DNA chips:将寡核苷酸探针将寡核苷酸探针(208
5、0-mer)合合成到芯片上成到芯片上,Affymetrix开发设计开发设计,通常为单通道通常为单通道(1)cDNA microarrayscDNA clonesRobot spotter普通得盖玻片普通得盖玻片cDNA microarrays得制备得制备差差异表达基因得筛选异表达基因得筛选Treatment/controlNormal/tumor tissueBrain/liver大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点点样后得点样后得cDNA MicroarraysGene
6、smRNA samplesGene expression level of gene i in mRNA sample j=Log(Red intensity/Green intensity)Log(Avg、PM-Avg、MM)sample1 sample2 sample3 sample4 sample5 1 0、46 0、30 0、80 1、51 0、90、2-0、10 0、49 0、24 0、06 0、46、3 0、15 0、74 0、04 0、10 0、20、4-0、45-1、03-0、79-0、56-0、32、5-0、06 1、06 1、35 1、09-1、09、基因表达得数据基因表达
7、得数据(1)DNA chipsDNA chips得制备得制备:Affymetrix photolitographyr探针长度探针长度:25 bpr每个基因每个基因:22-40个探针个探针rPerfect Match(PM)vs、MisMatch(MM)probes点样后得点样后得Gene chip总结总结基因芯片得实验流程基因芯片得实验流程2、图像处理与数据标准化图像处理与数据标准化单单通道基因芯片通道基因芯片 white(very high)red(high)Yellow(a little high)green(medium)blue(low)black(no)图像处理图像处理植根区域生长法
8、植根区域生长法(SRG)Fixed Circle1.栅格化栅格化:确定点得位置确定点得位置2.图象分割图象分割(Segmentation):将点从背景中分离出来。将点从背景中分离出来。3.抽提亮度抽提亮度:各个像素亮度得平均值各个像素亮度得平均值(mean)或中位数或中位数(median)4.背景校正背景校正:局部或全局局部或全局基因表达量得定量基因表达量得定量对于每个点对于每个点,我们可以计算我们可以计算 Red intensity =Rfg-Rbgfg=foreground,bg=background,and Green intensity=Gfg-Gbgand bine them in
9、the log(base 2)ratio Log2(Red intensity/Green intensity)Green intensity(medium):1Microarray:误差得来源误差得来源r系统得系统得r随机得随机得 log signal intensity log RNA abundanceMicroarray:误差得来源误差得来源r1、图像分析图像分析r2、扫描扫描r3、DNA杂交过程杂交过程(温度、时间、混合均温度、时间、混合均匀程度等匀程度等)r4、探针得标记探针得标记r5、RNA得抽提得抽提r6、加样加样r7、其她其她Red/green 比值比值存在亮度得倾向存在亮度
10、得倾向M=log2R/G =log2R-log2G=(log2R+log2G)/2Values should scatter about zero、数据标准化数据标准化beforeafter3、基因芯片得数据分析基因芯片得数据分析r(1)差异表达基因得分析差异表达基因得分析r(2)基因共表达分析基因共表达分析r(3)基因表达数据得聚类基因表达数据得聚类r(4)基因表达数据得分类基因表达数据得分类r(5)Map to GOr(6)Gene regulatory network(1)差异表达基因得分析差异表达基因得分析r1、差异表达基因得分析差异表达基因得分析:寻找处理前后表达上调寻找处理前后表达
11、上调或者下调得基因或者下调得基因r2、Are the treatments different?r3、使用标准得统计学方法检验使用标准得统计学方法检验(t-test or f-test),发现统计显著性差异表达得基因发现统计显著性差异表达得基因,r4、如果处理本身并不显著如果处理本身并不显著,则结果无意义则结果无意义统计学分析统计学分析r1、Fold change,一般一般2-fold increase or decrease(平行实验得样本较少平行实验得样本较少)r2、p-value(平行实验得样本较多平行实验得样本较多)under-expressedover-expressed/2/2P-
12、value:学生分布学生分布r1、T-test:学生分布学生分布r2、Excel函数函数:TTEST(array1,array2,tails,type)|Array1为第一个数据集为第一个数据集|Array2为第二个数据集为第二个数据集|Tails指示分布曲线得尾数。如果指示分布曲线得尾数。如果 tails=1,函数函数 TTEST 使用单尾分布。如果使用单尾分布。如果 tails=2,函数函数 TTEST 使用双尾分使用双尾分布布|Type为为 t 检验得类型检验得类型1 成对成对 2 等方差双样本检验等方差双样本检验 3 异方差双样本检验异方差双样本检验 P-value:学生分布学生分布r
13、1、一般选择双尾分布一般选择双尾分布r2、异方差双样本检验异方差双样本检验r3、Excel函数函数:=TTEST(B2:D2,E2:G2,2,3)r4、C:对照组对照组;T:实验组实验组C1C2C3T1T2T3TTESTGene 11、3221、6761、4573、5264、2343、8790、001988Multiple parisonsr1、在基因芯片得实验中在基因芯片得实验中,每一个基因每一个基因/探针探针,都就是都就是一个独立得实验一个独立得实验r2、基因芯片基因芯片:高通量高通量,1,000个基因个基因/探针探针r3、因此因此,无论怎么比较无论怎么比较,总会有一些基因会就是统总会有一
14、些基因会就是统计显著性差异表得计显著性差异表得 可能就是随机产生得可能就是随机产生得r4、如何评估表达差异基因预测得有效性?如何评估表达差异基因预测得有效性?r5、例例:1,000个探针得双通道芯片个探针得双通道芯片,以以p-value 0、01为域值为域值,发现发现7个上调基因个上调基因,5个下调基因个下调基因,分析结分析结果就是否具有统计学意义?果就是否具有统计学意义?False Discovery Rate(FDR)r1、False positive prediction:“Type 1 error or False Discoveryr2、False Discovey Rate(FDR
15、)=p-value*No、of Genes|上例上例:FDR=0、01*1,000=10(随机随机)|7个上调基因个上调基因,5个下调基因个下调基因 10|因此上例计算得结果无统计学意义因此上例计算得结果无统计学意义r3、FDR必须远小于发现得差异表达基因数目必须远小于发现得差异表达基因数目|实验得有效性实验得有效性|p-value得选择得选择(2)基因共表达分析基因共表达分析r1、在在N个不同得条件下个不同得条件下(时间序列得芯片数据时间序列得芯片数据),考考察基因察基因X和和Y得表达就是否相似得表达就是否相似r2、Gene 1#就是否与就是否与Gene 2#、Gene 3#和和Gene 4
16、#共表达?共表达?r3、共表达共表达:|正相关正相关:相似得表达谱相似得表达谱,可能存在正关联可能存在正关联|负相关负相关:相反得表达谱相反得表达谱,可能存在负调控可能存在负调控Eisen MB,et al、,(1998)PNAS 95:14863-14868Gene NameT1T2T3T4T5T6Gene 1#123456Gene 2#100200300400550610Gene 3#660540430320210101Gene 4#150421535725451670998没有相关性?没有相关性?基因相关性分析基因相关性分析r1、Spearman rank correlationr2、K
17、endalls taur3、Euclidean distancer4、Pearson correlation coefficient:-1 1rExcel函数函数:=PEARSON(array1,array2)Eisen MB,et al、,(1998)PNAS 95:14863-14868Pearson相关系数相关系数r1、r -1,1|r 1,正相关正相关|r-1,负相关负相关Gene 1#Gene 2#Gene 3#Gene 1#Gene 2#0、996368Gene 3#-0、99988-0、99611Gene 4#0、2452920、254855-0、2395r结论:Gene 1#与
18、Gene 2#表达正相关,与Gene 3#表达负相关,与Gene 4#无关联(3)基因表达数据得聚类基因表达数据得聚类r1、将表达谱相似得基因聚类在一起将表达谱相似得基因聚类在一起r2、无督导学习无督导学习(unsupervised learning)r3、Pattern finding:发现新得模式发现新得模式r4、聚类方法聚类方法:|A、Hierarchical clustering|B、K-means clusteringHierarchical ClusteringHierarchical clusteringr1、用树状结构来表征基因用树状结构来表征基因表达之间得相似性表达之间得相似
19、性/相关性相关性r2、优点优点:不需要指定结果有不需要指定结果有多少类多少类Object12345122365410 9459853Distance matrixDistanceCluster01,2,3,4,52(1,2),3,4,53(1,2),3,(4,5)4(1,2),(3,4,5)5(1,2,3,4,5)K-means clusteringr1、对数据进行聚类对数据进行聚类r2、必须给定结果分必须给定结果分成多少类!成多少类!r3、假设假设,该例中该例中,指指定为聚成定为聚成5类类K-means clusteringr1、随便选取随便选取5个点个点,作为每一个类得中作为每一个类得中心
20、点心点K-means clusteringr2、计算其她点与这计算其她点与这5个中心点得个中心点得距离距离r距离距离:|欧氏距离欧氏距离|马氏距离马氏距离|皮尔孙相关系数皮尔孙相关系数r点得归类点得归类:离哪个中心离哪个中心点近点近,归哪个类归哪个类K-means clusteringr3、针对每一类中得针对每一类中得每一个点每一个点,计算其与其计算其与其她点得距离她点得距离,加和加和,除除以该类点得数目以该类点得数目;r找到新得中心点找到新得中心点,即改即改点到该类中其她点得点到该类中其她点得平均值最小平均值最小;r确定新得确定新得5个中心点!个中心点!K-means clusteringr
21、4、重复重复2,3,直到结直到结果收敛果收敛r实际操作时实际操作时,因结果因结果完全收敛时间过长完全收敛时间过长,一般指定迭代得次数一般指定迭代得次数,如如1,000次次K-means clusteringr5、最终结果最终结果:所有基所有基因芯片数据被聚成因芯片数据被聚成5类类r软件软件:Cluster 3、0,Michael Eissen,Stanford(4)基因表达数据得分类基因表达数据得分类r1、根据基因表达得数据将样本分成两类或多类根据基因表达得数据将样本分成两类或多类;r2、督导学习督导学习(supervised learning):根据发现根据发现得得pattern进行预测进行
22、预测r3、应用应用:|癌症癌症 vs、正常组织正常组织|癌症得亚型、不同阶段癌症得亚型、不同阶段(良性得良性得 vs、恶性得恶性得)|对药物得敏感性对药物得敏感性(tamoxifen for breast cancer)Diffuse large B-cell lymphoma(DLBCL)1、通过聚类发现各种亚型通过聚类发现各种亚型之间得关系之间得关系2、根据基因表达模式根据基因表达模式,能能够预测新得基因表达样本够预测新得基因表达样本(5)Map to GOr1、通过基因芯片通过基因芯片,找到了一批找到了一批“interesting”得基因得基因r2、生物学功能上就是否存在关联?生物学功能
23、上就是否存在关联?|某种功能就是否显著?某种功能就是否显著?r3、Gene Ontology+超几何分布超几何分布GOToolBox(6)Gene regulatory networkr1、早期观点早期观点:表达谱相似得基因可能存在表达谱相似得基因可能存在功能上得关联功能上得关联,可能相互作用可能相互作用(直接作用直接作用)r2、当前得观点当前得观点:表达谱相似得基因可能具表达谱相似得基因可能具有共同得调控元件有共同得调控元件(基因基因UTR区域存在共同区域存在共同得得Promotor),能够被同一个上游因子所调能够被同一个上游因子所调控控相关系数相关系数:基因共表达网络基因共表达网络ERL2SKP1UnknownChS1Wild-typeMutantr1、与光合效率和气孔发育相关得基因与光合效率和气孔发育相关得基因:ERL2|A、在在Wild-type中与之显著相关中与之显著相关,但在但在Mutant中显著不中显著不相关得基因相关得基因相关系数相关系数:基因共表达网络基因共表达网络4、Microarray:工具工具&数据库数据库GEO-NCBIArray Express-EMBL
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100