1、浙江大学硕士学位论文基于基因表达数据的癌症分型方法姓名:陈星申请学位级别:硕士专业:生物医学工程指导教师:段会龙20070501浙江大学硕f 学位论文摘要摘要癌症作为一种重病轻症的疾病,治愈的关键在于如何有效而又准确地及早发现和充分治疗。其中最大的挑战是肿瘤的诊断和精确分型,以区分形态上相似的肿瘤分子亚型,寻找针对病理发生学上一致的肿瘤特异性靶向疗法。基因芯片技术能够快速并行处理大量基因表达,实现多通道、高通量、自动化的数据处理,已被广泛应用于疾病诊断、临床检验等方面。应用基因芯片技术对肿瘤进行诊断和分类,可以在基因表达水平上精确区分肿瘤的分子类型,以更好地预测肿瘤疗效,亦对肿瘤的发生发展机理
2、探讨、肿瘤的早期诊断和分子分型等方面均有重要意义。常规的基因表达数据分类方法将全部样本或者基因作为特征空间。但考虑到在部分样本中发生的某个生物学过程仅涉及到芯片上部分基因,本文采用双向聚类思想,利用与该生物学过程相关的基因簇对样本进行分割,具体内容包括:介绍癌症亚型区分的意义和研究现状,着重介绍急性白血病和弥漫性大B 细胞淋巴癌两类癌症的亚型。分析基因芯片的相关知识及其在癌症分型方向上的应用。研究基因表达数据的图像处理和数据分析方法,重点研究聚类分析的常规方法。深入探讨双向聚类方法并对其种类,算法和存在的问题进行分析,在此基础上改进并设计一种基于系统树图的耦合双向聚类算法。在M A T I A
3、 B 6 5 的平台上,实现此基因表达数据的双向聚类算法。利用急性白血病和弥漫性大B 细胞淋巴癌的基因表达谱数据实验和检验这种聚类算法。实验结果表明,基于系统树图的双向聚类算法能有效地找到特征基因簇。利用这些基因簇分割样本,可以得到与同类算法相比较高的癌症亚型识别率,并有助于发现关键基因和表达模式。关键词:癌症分型,基因表达数据,基因芯片,双向聚类,系统聚类,稳定性子类,急性白血病,弥漫性大B 细胞淋巴癌浙江大学硕 学位论文A B S T R A C TA B S T R A C TT h ek e yp r o b l e mo fc a n c e rt r e a t m e n tl
4、i e sO ne a r l yp r e d i c t i o na n df u l lt h e m p ye f f e c t i v e l ya n da e c u r a t c l y T h ec h a l l e n g eh a sb e e nt od i s t i n c tp a t h o g c n e t i c a lt u m o rt y p e sw i t hm o r p h o l o g i c a l l ys i m i l a ra p p e a r a n c ea n dt a r g e ts p e c i f i
5、ct h e r a p i e s M i c r o a r r a yt e c h n i q u em a k e si tp r a c t i c a lt oq u a n t i t a t et h ee x p r e s s i o no ft h o u s a n d so fg e n e si np a r a l l e l,a n dh a sb e e nu s e di nd i s e a s ed i a g n o s i sa n dc l i n i c a lt e s t T h ea p p l i c a t i o no fg c n
6、 em i c r o a r r a yi nt u m o rp r e d i c t i o na n dc l a s s i f i c a t i o ni sb c n e f i c i a lt oa c c u r a t e l yd i s t i n c tt I I m o r so nm o l e c u l a rl e v e l sf o rb e t t e re f f i c a c y,a sw d la st op r o b ei n t op a t h o g e n e s i s,e a r l yp r e d i c t i o
7、na n dm o l e c u l a rs u b t y p e s R e g u l a rc l a s s i f i c a t i o nm e t h o d so fg e n ee x p r e s s i o nd a t at a k ea l lt h eg e n e so rs a m p l e sa sc h a r a c t e r i s t i c sa n dd on o tc o n s i d e rt h a to n l yp a r to fg e n e si sc o r r e l a t e di no n eb i o l
8、 o g i c a lp r o c e s s T h i st h e s i sp r e s e n t sab i c l u s t e r i n ga l g o r i t h m(H c r w c)t Os e a r c hm e a n i n g f u lg e n es i 印a t u r ea n df i n dn a t u r a lp a r t i t i o n so fc a n c e rs a m p l e s T h ec o n t e n t sa r el i s t e db e l o w:T h em e a n i n
9、ga n dd e v e l o p m e n to ft u m o rs u b t y p ec l a s s i f i c a t i o n,t a k i n ga c u t el e u k e m i a(A L)a n dd i f f u s el a r g eB c e l ll y m p h o m a(D L B C L)f o re x a m p l e R e l e v a n tk n o w l e d g eo fg e n ec h i p sa n da p p l i c a t i o ni nt u m o rc l a s s
10、i f i c a t i o n T h ei m a g ep r o c e s s i n ga n dd a t aa n a l y s i sm e t h o d so fg e n ec h i p s,f o c u s i n go nc l u s t e r i n gm e t h o d s T h et y p e sa n dl i m i t a t i o n so fb i c l u s t e r i n ga n dt h ed e s i g no fH C T W C T h er e a l i z a t i o no fH C T W C
11、b a s e do nM A T I A B6 0T h ee x p e r i m e n ta n dt e s to fH C T W Ci nA La n dD L B C L B yi d e n t i f y i n gr e l e v a n ts u b s e t so fm i c r o a n a yd a t aa n df o c u s i n go nt h e m,i ti sp r a c t i c a lt od i s c o v e rp a r t i t i o n s,f i n dk e yg e n e sa n du n d e
12、r s t a n de x p r e s s i o np a t t e r n sw i t ht h i sa l g o r i t h m,w h i c hi sp r o v e db yt h ee x p e r i m e n tr e s u l t s K e yW o r d s:t u m o rc l a s s i f i c a t i o n,g e n ee x p r e s s i o nd a t a,m i c r o a r r a y,b i c l u s t e r i n ga l g o r i t h m,h i e r a r
13、c h i c a ld u S t e r i n g s t a b l es u b t y p e,A LD L B C L4独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表:或撰写过的研究成果,也不包含为获得逝望盘茎或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:币隹要签字日期:矽7 年月多日学位论文版权使用授权书本学位论文作者完全了解堂鎏盘鲎有关保留、使用学位论文的规定,有权保留并向国家
14、有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权迸望盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:7 皋星签字日期:一7 年月占日翩躲荔,签字日期:7 年占月占日,学位论文作者毕业后去向:赴瑞士攻读博士学位工作单位:瑞士苏黎世联邦理工大学通讯地址:电话邮编浙江人学硕f 学位论文致谢致谢值此论文完成之际,首先要感谢我的导师段会龙教授。本文课题的选取、研究方向的确定、科研工作的开展,到最后的成文,无一不得到了段老师的精心指导和悉心教诲。他的君子风范和宽广的胸
15、襟,他对学科发展的前瞻性认识、严谨求真的科研态度、敏锐独到的眼光,都给我以深远的影响,激励着我不断地努力向上,使我真正能够以一种积极、严谨、认真的态度,来对待科研学习和工作,让我树立起对知识追求的志向。在此向段老师表示由衷的敬意和感谢,并送上我最诚挚的祝福。感谢吕旭东副教授对我的关怀和指导。吕老师对问题的分析、处理能力,对新知识、新技术的快速理解掌握能力,在医学信息学领域的广博知识,以及亲切热情的待人处事,都给我留下了深刻印象。感谢邓宁师兄在这两年里对我的指导和帮助。无论科研还是学习,邓宁师兄善于思考总结,踏实勤恳的作风,以及对待科研工作一丝不苟和认真负责的态度,在潜移默化中已经深深的影响了我
16、,并为本文的撰写提出了很多宝贵意见。同时感谢黄正行师兄在我刚刚进入实验室时对我的引领和指导。感谢实验室的安继业、刘鹏飞、张立东、王曦、郑慧瑛、李悦溪、吕颖莹、欧阳涵、王一宝、邓文亮、王丽琴等同学以及维科软件公司的应永进、程贵红、王红霞、傅彬、吕广宇、刘丹、陈亮等对我论文的支持,和平时工作学习中的支持和帮助。在这里所学习到的,感受到的,已经融合成了一种习惯,将延续在我以后的学习工作和生活中。感谢我的父母家人,是你们一贯的支持与肯定,让我有勇气和力量去争取自己想要的生活。谢谢我的男友,我的朋友陈张好、马朝阳、胡瑞芬、魏依娜、陈芳、杨杨等,你们在精神上和生活上给予我的支持和鼓励,使我有信心克服一切困
17、难。这几年来,与你们同行,是我受益终生的财富。感谢求是园这片热土,教会了我如何去书写青春的精彩。最后,向未提及的其他所有关心和支持我学业的老师、同学和朋友一并表示最真诚的感谢和祝福。陈星2 0 0 7 年5 月于求是园肺癌http:/ 1 选题意义第一章绪论癌症是一组可影响身体任何部位的1 0 0 多种疾病的通称。使用的其它术语为恶性肿瘤或肿瘤。癌症的一个特征是快速产生异常细胞,这些细胞超越其通常边界生长,侵袭身体的毗邻部位和扩散到其他器官,这个过程称为转移,也是癌症难以控制或根治的一大原因。癌症是全世界一个主要的死亡原因。在2 0 0 5 年全世界5 8 0 0 万死亡总数中,癌症占所有死亡
18、的7 6 0 万(约1 3)。2 0 0 5 年所有癌症死亡的7 0 以上发生在低收入和中等收入国家。预计全世界癌症死亡将继续增加。据估计,2 0 1 5 年将有9 0 0 万人死于癌症,并且2 0 3 0 年将增加至1 4 0 万人I”。继2 0 0 5 年5 月在第五十八届世界卫生大会上通过一项预防和控制癌症决议之后,世界卫生组织正在制定世卫组织全球癌症控制战略。该战略旨在依靠计划和实施癌症预防和控制战略,在全世界减少癌症负担和癌症危险因素以及提高患者及其家庭的生活质量。世卫组织在其癌症研究机构即国际癌症研究机构和联合国系统其它组织的合作下为国际癌症的预防和控制强化了一系列行动,其中有一项
19、内容提到:如果及早发现和充分治疗,可减少三分之一的癌症负担。癌症的及早发现以观察为基础。癌症发现越早,治疗越为有效,目标是在癌症限于局部时发现它。癌症及早发现规划有两个组成部分:教育。通过认识癌症早期征兆,例如肿块、疼痛、持续消化不良、持续咳嗽和身体管口出血,以及立即为这些症状寻求医疗的重要性,促进早期诊断。筛查。通过检测手段在征兆可发觉之前查明早期癌症或癌前期患者。如,目前比较成熟的筛查检测可用于乳腺癌(乳房x 线摄影)和宫颈癌(细胞学检测)等。癌症治疗的目的是治愈癌症患者,延长生命和提高生活质量。一些最常见癌症种类,例如乳腺癌、宫颈癌和结肠直肠癌,在得到及早发现和根据最佳证据治疗时,有很高
20、的治愈率。主要治疗方法是外科手术、放射疗法和化疗。肺癌http:/ 学位论文第一帝绪论依靠成像技术(超声波、内窥镜、x 线摄影术)和实验室(病理学)调查等方法做出准确诊断对于适当治疗至关重要。新世纪肿瘤治疗的挑战之一,就是寻找针对病理发生学上一致的肿瘤类型的特异性靶向疗法,以达到最大疗效和最小毒性,其中肿瘤的诊断和精确分型是关键。生物芯片,尤其是基因芯片的间世及其在分子生物学领域中的快速发展表明,应用基因芯片技术对肿瘤进行诊断和分类,可能在基因表达水平上精确区分肿瘤的分子亚型,以更好地预测肿瘤疗效。因此,该研究的开展标志着肿瘤分型己进入分子时代,孕育着肿瘤治疗上的革命。新的癌症相关基因克隆的发
21、现和进一步功能研究,可作为肿瘤治疗的分子靶标,亦对肿瘤的发生发展机理探讨、肿瘤的早期诊断和分子分型等方面均有重要意义。1 2 研究现状1 2 1 癌症分型的常规方法目前,癌症分类或分型主要依据于形态学标准,同时借助其它一系列相互独立的实验过程,如化疗反应,免疫显型,细胞生成分析1 2 l 等。然而实践证明,相同形态的肿瘤可能具有明显不同的临床过程和治疗反应。这些肿瘤在l 临床上的异质性提示可能存在不同的分子亚型。1 2 2 基因芯片在癌症分型上应用的可行性,必要性和发展前景依据基因表达模式作癌症分型的可能性,早期例证来自马萨诸塞州技术研究所基因组研究中心的埃里克兰德(E r i cL a n
22、d e r)与托德戈勒伯(T o d dG o l u b)1 2 1 为首的研究组。他们成功比较并区分出了急性髓系细胞白血病(N I L)与急性淋巴细胞白血病(A L L),这是用标准的病理检查方法通常难以区别的两种血液癌症。从此,研究人员就用基因表达模式揭开若干前所未知的癌症分型。基因芯片技术为解决疾病的异质性提供一种有效的生物技术手段,分析基因表达谱数据能够从分子水平更精确地发现疾病中隐含的子结构(亚型)。在复杂疾病的基因表达谱中,基因的表达受不同疾病亚型细胞类型的影响,表达谱矩阵是这些疾病亚型细胞类型的组合,因此分析的目标应是尽可能的分离不同的疾2肺癌http:/ 1,乳腺癌1 4,5
23、 1,肾移植【6】和肺癌1 7,8 1 等亚型的发现。L a p o i n I sJ等【9】利用在样本中差异表达较大的基因进行双向聚类发现I;f 列腺癌存在至少3种亚型。目前,公开发表的生物芯片应用文章中,8 3 5 是关于癌症诊断和治疗的I l o l。这一方面由于癌症研究本身的重要性和未知性,另一方面是因为肿瘤具有具体的形态,而且往往比较大,适合于并行表达的基因芯片采样。因此,无论是从结果上还是从技术上看,应用基因芯片对癌症进行分型具有现实的可行性,必要性,以及巨大的潜力和发展空间。1 2 3 应用基因芯片的癌症分型方法研究现状目前普遍采用的癌症分型方法是检测具有相似表达模式的分组。利用
24、有监督的或者无监督的聚类方法,寻找具有相似基因表达谱的癌症样本。也就是将基因作为特征空间对样本进行聚类。从另一个方向来看,具有相似样本表达谱的基因在它们的调控机制中可能存在着相同的东西,也就是说共表达的基因通常被共调控。因此,将具有相似功能的基因聚类在一个簇中,有助于从簇中已知功能的基因去推断同簇中其它基因的功能,发现功能基因组。更进一步,这有助于研究序列调控区与表达谱之间的关系,寻找基因集合的一致序列I u,1 2 1。在这种思想的延伸下,不同研究者从不同的角度出发,提出相似的双向聚类概念。双向聚类算法同时对样本和基因聚类,寻找特征基因表达下的样本分类,有可能从更深的层次发现生物学规律,具有
25、更高的价值。然而已有的双向聚类方法,大多要求表达谱数据本身具有某些特征,如是恒定的或者加和性的矩阵(“贪婪递归法”郾1),或者具有棋盘状结构(光谱聚类旧)等。对表达谱数据没有限制的祸合双向聚类启发式思想,又要求与之配合的聚类算法能够无监督地产生稳定性的子类,于是将已知的一大部分算法拒之门外。目前在耦合双向聚类启发式思想下唯一能够采用的是超顺磁性聚类,它是一种非均匀铁磁体模型物理性质的模拟。但它不具有像距离那样明确的相似度定义,很难得到清晰的生物学解释,同时不具有灵活的扩展性,因此,目前没有一种合适的基因芯片聚类算法,既能够适用于任何特征的基因表达谱数据,3肺癌http:/ 学位论文第一章结论又
26、能合理地从生物学角度进行分析,并且具有良好的扩展性。1 3 目标和内容本文的目标是对基于基因表达数据的癌症分型方法进行探索性研究。重点在于研究具有生物意义和数据降噪等优势的双向聚类分析方法,探索一种合适的聚类算法,既能够适用于任何特征的基因表达谱数据,又能合理地从生物学角度进行分析,并且具有良好的扩展性,同时利用急性自血病和弥漫性大B 细胞淋巴癌的基因表达谱数据进行实验和检验。具体内容包括:1 介绍癌症亚型区分的意义和研究现状,着重介绍急性白血病和弥漫性大B 细胞淋巴癌两类癌症的亚型。2 分析基因芯片的相关知识及其应用在癌症分型方向上的应用。3 研究基因表达数据的图像处理和数据分析方法,重点研
27、究聚类分析的常规方法。4 深入探讨双向聚类方法并对其种类,算法和存在的问题进行分析,在此基础上改进并设计一种基于系统树图的耦合双向聚类算法。5 在M A T L A B 6 5 的平台上,实现此基因表达数据的双向聚类算法。6 利用急性白血病和弥漫性大B 细胞淋巴癌的基因表达谱数据实验和检验这种聚类算法。4肺癌http:/ 一学位论文第二章摹冈芯片0 癌症分型第二章基因芯片与癌症分型2 1 基因芯片概述基因芯片是生物芯片的一大类,将大量寡核苷酸片段或基因片段探针通过点样以大规模阵列的形式排布,形成可与目标基因相互作用,并行反应的固相表面,在激光的顺序激发下标记荧光根据实际反应情况分别呈现不同的荧
28、光发射谱征,C C D 相机或激光共聚焦显微镜根据其波长及波幅特征收集信号,进行扫描成像和数据处理,继而做出比较和检测,得出所要的信息。如果用纯化的蛋白分子代替D N A 探针分子,得到的微阵列就构成蛋白芯片。基因芯片与蛋白芯片、细胞芯片、组织芯片,统称为生物芯片。其它生物芯片一样,完整的基因芯片分析过程包括样本采集、芯片制备、扫描成像、图像处理和数据分析等几个部分【l o,1 3,1 4 。基因芯片分析是基因芯片技术的重要组成部分,分析过程中需要处理大量的信息,分析性能的优劣对基因芯片的作用会产生重大影响。图2-1 分别是基因芯片和蛋白芯片的扫描图像。可以看出,由于D N A 探针分子相对于
29、蛋白质分子幽2 一l 左幽为人类乳腺癌检测的基W 芯片扫描幽像右图为丙型肝炎病毒(H C V)检测蛋白芯片肺癌http:/ 档症分塑来说较小,基因芯片点样相对密集,在一张芯片上得到的生物信息数据量也相对较大,因而,对数据分析和处理的要求也更高。2 1 1 基因芯片的原理基因芯片的基本原理同芯片技术中杂交测序(s e q u e n c i n gb yh y b r i d i z a t i o n,S B H)一样,即任何线状的单链D N A 或R N A 序列均可被分解为一个序列固定、错落而重叠的寡核苷酸,又称亚序列(s u b s e q u e n c e)。例如可把寡核苷酸序列T
30、r A G C T C A T A T G 分解成5 个8n t 亚序列:这5 个亚序列依次错开一个碱基而重叠7 个碱基。亚序列中A、T、C、G4个碱基自由组合而形成的所有可能的序列共有6 5 5 3 6 种。假如只考虑完全互补的杂交,那么4 8 个8 a t 亚序列探针中,仅有上述5 个能同靶D N A 杂交。可以用人工合成的已知序列的所有可能的n 体寡核苷酸探针与一个未知的荧光标记D N A R N A 序列杂交,通过对杂交荧光信号检测,检出所有能与靶D N A 杂交的寡核苷酸,从而推出靶D N A 中的所有8a t 亚序列,最后由计算机对大量荧光信号的谱型(p a t t e m)数据进
31、行分析,重构靶D N A 的互补寡核苷酸序列【”】。2 1 2 基因芯片的制备芯片种类较多,制备方法也不尽相同,常见的芯片可分为两大类:一类是原位合成:一类是直接点样。原位合成适用于寡核苷酸;直接点样多用于大片段D N A,有时也用于寡核苷酸,甚至m R N A。原位合成有两种途径。一是光蚀刻法;一是喷印法。光蚀刻法可以合成3 0 a t 左右,喷印法可以合成4 0-5 0 a t,光蚀刻法每步缩合率较低,一般为9 5 左右,合成3 0 n t 产率仅2 0;喷印法可达9 9 以上,合成3 0 n t 产率可达7 4,从这个意义上说喷印法特异性应比光刻法高。6肺癌http:/ 学位论文第二章幕
32、田芯片j 绋症分型此外,喷印法不需特殊的合成试剂。与原位合成法比较点样法较简单,只需将预先制备好的寡核苷酸或c D N A 等样品通过自动点样装置点于经特殊处理的玻璃片或其它材料上即可【1 7 1。图2-2 原位合成法:在经过处理的载玻片表面铺上一层连接分子,其羟基上加有光敏保护基团,可用光照除去,用特制的光刻掩膜(p h o t o l i t h o g r a p h i cm a s k)保护不需要合成的部位,而暴露合成部位,在光作用下去除羟基上的保护基团,游离羟基,利用化学反应加上第一个核苷酸,所加核苷酸种类及在芯片上的部位预先设定,所引入的核蕾酸带有光敏保护基团,以便下一步合成。然
33、后按上述方法在其它位点加上另外三种核苷酸完成第一位核苷酸的合成,因而N 个核苷酸长的芯片需要4 N 个步骤。图2-3 直接点样法:打印顾印针将探针从多孔板取出直接打印或喷印于芯片上。直接打印时针头与芯片接触;在喷印时针头与芯片保持一定距离。2 1 3 样本制备一般所需m R N A 的量是以一张表达谱芯片需要取gm R N A 计算的,表2-1是不同组织抽提3-1 0g m R N A 所需的组织量。根据实验目的的不同,在提取样本时,应尽量保持除了目标特征之外的其他因素相同,如分析化疗前后基因变化时,应尽量保持两次取样的外界环境温度,用药情况等其他条件相同。7肺癌http:/ 学位论文第二章幕
34、W 芯片j 痛症分型表2-1 不同组织抽提3-1 0 t t g m R N A 所需的组织量量掣R A N 得A 愁j 爵揽毫克克组织】=尸”“一18 0 二1 9 0 m g g08 0 一上鲫卫3 0 舅g,q 缺数塌一一10 0-一1,0 0m g g?0 0 一一06 0 06 0 I T I g,gi 10 02 7 0 2 7 0 m a,g06 012 0 1 2 0 m g,g1 08 017 0 1,7 0 m g,g 07 005 0 05 0 m g,gt l3 914 0 14 0 m g g,06 017 0 1 7 0m g gi 1 1 038 4 3 8 4
35、m g,g0 7 02 0 0 20 0 m q,q|1 q 72 1 4 基因芯片的检测基因芯片的检测包括杂交信号产生、信号收集及传输和信号处理及成像三个部分组成。基因芯片的扫描是指将与目标D N A(或R N A)杂交后,大量点阵的生物反应结果阅读出来,转变成可供计算机处理的数据。目前,基因芯片一般都采用荧光物质进行标记,利用生物芯片扫描仪,能够获得生物芯片的数字荧光图像。常见的生物芯片扫描仪有激光共聚焦扫描仪和C C D 扫描仪1 1 0,1 8 l。激光共聚焦扫描仪M i n s k y 早在上世纪5 0 年代就率先提出了共聚焦扫描成像的思想。共聚焦扫描系统不仅可以抑制成像中弱杂散光的
36、影响,而且在相同的成像条件下,分辨力很高。激光共聚焦生物芯片扫描仪就是集共聚焦原理、高速扫描技术和激光成像技术于一体的高新技术光电设备。由于激光的亮度高、单色性好、发射角小、聚焦性优良,因而在生物芯片扫描仪中采用激光作为光源。共聚焦生物芯片扫描仪采用共轭焦点技术,使光源、生物芯片和光电倍增管探测器处在彼此对应的共轭位置。图2-4 所示为激光共聚焦生物芯片扫描仪的工作原理图。C C D 扫描仪C C D 扫描仪也是基于荧光显微镜,但是以C C D 相机作为信号接收器而不是光电倍增管,因而无须扫描传动平台。由于不是逐点激发探测,因而激发光照8肺癌http:/ 痛症分型图2-4 激光共聚焦扫描仪原理
37、:激光束经过物镜在生物芯片表面聚焦成衍射限制的斑点,激发位于载体表面包含荧光物质的样本产生荧光,荧光通过物镜和探测镜在共聚焦探测针孔平面成像,由靠近像面位置的光电倍增管探测接收荧光。激发光由光电倍增管进行检测并转化为数字信号。射光场为整个芯片区域。由C C D 相机获得整个D N A 芯片的杂交谱型。这种方法一般不采用激光器作为激发光源,因为激光束光强的高斯分布,会使得光场强度分布不均,而荧光信号的强度与激发光的强度密切相关,因而不利于信号采集的线性响应。由于采用了C C D 相机,大大提高了获取荧光图像的速度,曝光时间可缩短至零点几秒至十几秒。其特点是扫描时间短,灵敏度和分辨率较低,比较适合
38、临床诊断用。2 1 5 基因芯片数据库基因芯片技术得到了大量含有生物信息的数据,其中有的已经找到科学解释,然而更多的是需要全世界的研究者共同探索的未知领域,涉及到生物,遗传,生理,病理等多学科范围。同时,为了实现数据信息的共享,必须建立专门的数据库及相应的存储。目前国际上已经出现了多个与微阵列基因芯片和基因表达谱相关的公共数据库,具有代表性的有【1 9。2 1】:G E O 是由N C B I 在2 0 0 0 年开发的一个基因表达和杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到2 0 0 4 年3 月,数据仓库中包含内容有6 0 5 个P l a t f o r
39、m,1 4 3 9 1 个S a m p l e,8 1 6 个S e r i a l。P l a t f o r m 是关于物理反应物的信息,S a m p l e 是关于待检测的样本信息和使用单个P l a t f o r m产生的数据。S e r i e s 是关于样本集的信息,反映样本问的相关性和组织。A r r a y E x p r e s s 是基于基因表达数据的微阵列公共知识库,目的是存储被注释9肺癌http:/ r r a y E x p r e s s 提供一个简单的基于W e b 的数据查询界面,并直接与E x p r e s s i o nP r o f i l e r
40、 数据分析工具相连,可以进行表达数据聚类,和其它类型的W e b 数据挖掘,并将进一步开发多个实验和数据库间的交叉查询。S M D 是一个使用O r a c l e 作为数据库管理软件的关系数据库;S M D 存储微阵列实验的原始数据、归一化数据和对应的图像文件,并提供部分在线分析处理方法。自2 0 0 2 年1 月1 日起,到2 0 0 4 年4 月已包括8 5 篇学术论文,超过3 5 0 0个双色点样c D N A 微阵列的实验数据,并且每年增加1 0 0 0 个微阵列实验的数据。本文所采用的急性白血病和弥漫性大B 细胞淋巴癌的基因表达谱数据就是来自S M D。表2-2 基因芯片数据库1
41、0肺癌http:/ 学位论文第二章摹冈芯片与痛症分型2 2 癌症分型癌症治疗中一个关键的问题是如何正确地区分肿瘤亚型,确定特定的治疗方案以达到最好效果,同时使毒副作用降低到最小。相同形态的肿瘤可能具有明显不同的临床过程和治疗反应,提示了形态上相似的肿瘤可能由不同的机制产生,具有不同的发病机理,如急性白血病亚型,非霍奇金淋巴瘤,乳腺癌等;对于更多的肿瘤亚型,如前列腺癌,从临床治疗的差异性中可以看出具有不同的亚型,但尚未找到明确的分子标记 2,2 Z 础I。另外,癌症作为目前世界上的第一大杀手,是一种重病轻症的疾病。如果能够在早期症状不明显的情况下,从分子角度识别和预测出来,将具有非常重要的意义。
42、下面以急性白血病(A c u t eL e u k e m i a,A L)和弥漫性大B 细胞淋巴癌(D i f f u s eL a r g eB c e l lL y m p h o m a,D L B C L)为例,说明癌症亚型的存在以及基因芯片在其分型上的应用。本文最后利用A L 和D L B C L 的数据进行实验和检验。2 2 1 急性白血病自血病俗称血癌,是造血组织中自细胞系统肿瘤性增生,伴随血液中自细胞数量和质量异常(白细胞增多或者减少,常出现幼稚白细胞),临床上常伴有贫血、发热、感染、出血、肝脾淋巴结不同程度肿大等表现。根据细胞形态学将急性白血病分为急性淋巴细胞白血病(A c
43、 u t eL y m p h o b l a s t i cL e u k e m i a,A L L)和急性髓系白血病(A c u t eM y c l o i dL e u k e m i a,A M L),为中、青年发病率和病死率较高的恶性肿瘤。A M L 占所有白血病半数以上,男女之比为1 5 4:1【2 5 捌。图2-5 为A L L 与A M L 的常用临床诊断方法骨髓涂片法。图2-5 骨髓涂片法:左图为A L L 右图为A M L1 1肺癌http:/ 学位论文第二二章幕圉芯片0 痛症分型l 鼍曼曼鼍曼曼鼍曼曼曼!曼曼曼曼曼量曼曼曼曼!曼鼍!皇曼皇曼目曼曼曼曼曼!曼曼曼曼曼曼曼
44、寡曼曼曼曼曼曼鼍皇曼曼曼曼!曼苎!曼曼堂皇兰曼不同时期的N I L 和A L L 在形态上存在相似性,用标准的病理检查方法通常难以区别这两种血液癌症。G o l u b 等人【2】利用基因表达数据成功比较并区分出了A M L 与A L L。他们分析了包括7 2 个急性白血病样本的急性白血病基因表达谱数据集,每个样本均含7 1 2 9个基因的表达数据。其中4 7 个样本被诊断为圉圈目+崮A L L,2 5 个被诊断为A M L。整个数据集被划分谰缓集舅试囊为训练集与独立测试集,图2 7 为选取了5 0图2-6 急性白血病数据集个特征基因的虹工与A M L 区分。图2-7 选取了5 0 个特征基因
45、的A I 工与A M L 区分但其分型过程是借助生物学知识人为选取了5 0 个与A M U 札L 区分相关的特征基因,不能自动识别特征基因和发现表达模式。2 2 2 弥漫性大B 细胞淋巴癌弥漫性大B 细胞淋巴癌(D L B C L)是一种常见的非霍奇金淋巴瘤的亚型,临床异质性非常明显,4 0 的患者对现行的治疗手段反应良好,能长期生存,其余患者则相反【1 l】。A l i z a d e h A A 等人【刎利用点有1 8 0 0 0 个基因的芯片,分析淋巴细胞恶性肿瘤肺癌http:/ 细胞、滤泡型淋巴瘤(F L)和慢性淋巴细胞性白血病(c u,),以期对淋巴肿瘤重新分类。初步研究结果已经显示
46、,不仅上述3 种淋巴瘤具有明显不同的基因表达构型,而且A l i z a d e h A A 等人利用来自生发中心B 细胞的基因对D L B C L 样本进行聚类,结果从分子角度把D L B C L 分为两个类型,每一类型具有B 细胞分化不同阶段的基因表达模式。其中一类呈现生发中心B 细胞的基因表达模式,被称为生发中心B 细胞样D L B C L(G C B 1 i k eD L B c L);另一种呈现外周血B 细胞体外活化的基因表达模式,被称为活化B细胞样D L B C L(A B 1 i k eD L B c L)。当研究者把他们的结果和癌症病人的医疗记录相比时,发现前者对治疗的反应明显
47、优于后者,这解释了患者对治疗反应的差异,对于解释此类肿瘤明显不同的亚型具有重要意义。图2 8 为A l i z a d e h A A 等人实验的9 6 个样本的基因表达数据系统聚类结果。图2-8 左侧为9 6 个样本列表:右侧为聚类结果树图,其中每一行代表一个基闪,每一个列代表一个样本肺癌http:/ 学位论文第三章幕冈芯片分析方法第三章基因芯片分析方法基因芯片的完整分析可以分为两个部分:图像处理和数据分析。应用图像处理算法对扫描得到的原始图像进行平滑滤波、靶点分割等,得到包含有所需数据信息的矩阵列表,通常保存为文本(肛t)或者E x c e l 格式。数据分析就是利用这些数据信息,采用统计
48、学进行判别、聚类或差异表达,得出结论。3 1 基因芯片的图像处理方法图像分析的目的是需要从图像中精确地分析出真正的信号。就目前的研究而言,基因芯片的图像分析涉及了图像分割、图像匹配、图像增强、几何变换、模式识别等算法和方法,主要包括平滑滤波、阵列分割、靶点分割三个步骤。3 1 1 平滑滤波由于芯片的制作、杂交等过程中的灰尘污染、共聚焦扫描仪的激发光在样品中经历多次的散射和吸收及芯片扫描仪的一些其他噪声等原因,容易产生较大的刺峰信号,严重影响图像质量,给实验结果分析带来麻烦,所以必须将其消除。图像平滑处理有多种数学算法可供选择,比较常用的有均平滤波法、中值滤波法及延时相关算法等。其中均平滤波法是
49、利用输入像素点的边沿像素进行简单的平均值计算来求取对应的输出像素值;中值滤波法的原理类似于均平滤波法,二者均是将输出像素值设置为相应输入像素点的边沿值的合成,所不同的是在中值滤波中,输出像素值是边沿像素的中值,而非边缘像素的平均值;而延时相关算法则是将两帧以先后次序到达的图像的对应灰度值相乘,由于随机噪声的随机性,在两帧图像的同一位置均为噪声的概率很小,这样,随机噪声就容易消除掉。另外,由于图像中像元的灰度值不具有频率特性,所以高通、低通滤波对图像的平滑处理意义不大I 删。鉴于基因芯片扫描图像具有双通道的特殊性,将两个通道的T I F F(T a g g e dI m a g e F i l
50、e F o r m a t)图像看成彩色图像R G B 空间的一种特殊形式,B 方向上的数值恒为零。在这种表达下,引出了向量中值滤波,向量方向滤波等更加有效的平肺癌http:/ 学位论文第三帝筚闪芯片分析方法滑方法陋,3 0 1。本文作者也借用这种思想,提出了一种新的基于向量的滤波方法,设计并计算得到具有靶点位置特征的图像掩模,有效地去除了背景不均匀造成的影响,同时增强了掩盖在强噪声下的微弱信号点。图3 1 基因芯片T I F F 扫描图像的矢量空间表达方式图3-2 不同滤波结果:(a)原始图像;(b)均平滤波;(c)高斯滤波:(d)向量中值滤波;(c)方向滤波;3*3 模版形态学滤波;(g)