ImageVerifierCode 换一换
格式:DOC , 页数:21 ,大小:12.24MB ,
资源ID:3077123      下载积分:4 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3077123.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc)为本站上传会员【精***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析.doc

1、2016年“华为杯”第十三届全国研究生数学建模竞赛学校西南大学参赛队号 10635001队员姓名1.彭 敏2.吴 战3.陈环宇题目 具有遗传性疾病和性状的遗传位点分析摘要遗传性疾病和性状的相关联位点分析对人类研究遗传学具有重要意义。目前许多疾病或性状均有典型的多基因遗传特性,即具有众多基因共同控制,且单个基因的作用较小的特点,非常适用于全基因组关联性分析(GWAS)的研究。本文通过建立卷积神经网络模型(Convolutional Neural Network,CNN),对相应的数据进行分析和统计,完成了对遗传疾病、性状与其相关联位点的分析。我们通过训练该网络模型,实现了在许多位点中寻找与相应疾

2、病或性状有关的位点。对于问题一,要求根据合适的方法,把1000个样本在染色体片段上所有的位点信息转换为数值编码方式。本文考虑到数值编码不仅要体现碱基的生物特性,同时要考虑到后续的数据存储、运行和统计分析。因此,我们的编码方式是C对应(01)、T对应(11)、A对应(00)、G对应(10)。对于问题二,要找到某种疾病最有可能的一个或几个致病位点。本文的解决方法是采用卷积神经网络建立模型。首先把每个样本的位点信息转换为数字编码信息进而转变为位点编码图。通过建立卷积神经网络模型,之后采用反卷积的方式,建立每个样本的特征图。本文通过对1000个特征图累加并进行统计分析,最终选取了15个位点。在模型验证

3、中,本文选取常用的分类器进行分类,包括线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)、朴素贝叶斯分离器(NBC)和Adaboost分类。对得到的15个特征位点进行分类,其结果均在80%以上,证明了本模型选取的15个位点的有效性以及合理性。对于问题三,基因是若干个位点组成的集合,并且每个基因包含的位点数目不同。在问题二的基础上,如果当某个基因包含的位点集合中的一个或几个位点属于我们已经找到的致病位点集合,那么我们认为该基因与疾病相关。按照这种方式,我们找到了与疾病相关的9个基因。对于问题四,在问题二的基础上,本文通过对10种性状分别建立卷积神经网络模型。沿用解决问题二的方法,最终

4、找到了对应这10种性状的位点。关键词:全基因组关联性分析(GWAS) 致病位点 卷积神经网络一、问题重述1.1问题背景人体的每条染色体携带一个DNA分子,人的遗传密码有人体中的DNA携带。DNA是由分别带有A,T,C,G四种碱基的脱氧核苷酸链组成的双螺旋长链分子。在这条双螺旋的长链中,共有约30亿个碱基对,而基因则是DNA长链中有遗传效应的一些片段。在组成DNA的数量浩瀚的碱基对(或对于的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点。在DNA长链中,位点个数约为碱基对个数的1/1000。由于位点在DNA长链中出现频繁,多态性丰富,近年来成为人们研究D

5、NA遗传信息的重要载体,被称为人类研究遗传学的第三类遗传标记。大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发生。近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,具体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人。对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体具有双螺旋结构,所以用两个碱基的组合表示一个位点的信

6、息);研究人员可以通过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理。1.2 需要解决的问题问题一:采用适当的方法,在1000个样本在某条染色体片段上所有的位点信息中,每个位点的碱基(A,T,C,G)编码方式转化成数值编码方式。问题二:设计或采用一个方法,找出某种疾病最有可能的一个或几个治病位点,并给出相关的理论依据。问题三:现在有300个基因,每个基因所包含的位点已知,由于可以把基因理解为若干个位点组成的集合,遗传疾病与基因的关联性可以由基因中包含的位点的全集或其子集合表现出来请找出与疾病最有可能相关的一个或几个基因,并说明理由。问题四:在问题二的基础上,

7、已知9445个位点和其编码的信息。在实际的研究中,科研人员往往把相关的性状或疾病看成一个整体,然后来探寻与它们相关的位点或基因。根据题目给出1000个样本的10个相关性状的信息及其9445个位点的编码信息,找出10个性状相关联的位点。二、模型假设(1)假设题中所给信息及数据均正确。(2)假设每个位点的信息不会受到其它疾病或性状的影响。(3)假设问题中所提到的性状或疾病只与9445个位点有关。(4)假设问题中所提到的疾病只与300个基因有关,与其他基因无关。(5)假设转换为位点编码图时,对图像的填充不会对提取特征产生影响。(6)假设疾病不会受多个位点特殊排列组合的影响。三、符号说明符号名称符号说

8、明A腺嘌呤T胸腺嘧啶C胞嘧啶G鸟嘌呤GA遗传算法DT决策树算法MCA多重对应分析CNN卷积神经网络卷积层中第j个输出池化层中第j个输出输入图像乘性偏置加性偏置卷积核权值激活函数Max最大值函数*卷积符号ReLu修正线性单元向量F的输出类别全连接层权值输出类别个数Momentum梯度下降过程中的跳出局部最优动量大小Minni-batchsize批输入大小Dropout随机置0Ostu大津分割Deconv反卷积操作Unpooling反池化操作Down()池化函数LDA线性判别分析SVM支持向量机RF随机森林NBC朴素贝叶斯分类AdaboostAdaboost分类器四、问题一的分析与建模4.1问题分

9、析传统的碱基编码方式是胸腺嘧啶(T),胞嘧啶(C),腺嘌呤(A)和鸟嘌呤(G),随着人类基因组计划的完成,数十亿年生物的进化DNA序列的数据库积累了大量数据资料,破译这些 DNA 序列密码的生物学意义,弄清 DNA 序列与生物进化,遗传机理和疾病发生的关系,是目前生物信息论学家和数学家面临的迫切而艰巨的任务1。在分析序列的过程中,对 DNA 序列进行数字化编码具有十分重要的意义。问题一要求根据合适的方法,把1000个样本在染色体片段上所有的位点信息转换为数值编码方式,这样便于后面问题的统计分析和为数学建模鉴定基础。对于数值编码方式的解决。同时,编码的设计与DNA计算的可靠性和精确性是有很大的关

10、系的。有必要从以下几个方面考虑:(1)4个碱基对中C与G互补,T与A互补,数值编码要体现碱基的生物特性2。(2)编码规则要简单实用。 (3)采用数字编码的方式要便于数据的存储、运行和统计分析。4.2模型的建立与求解DNA长链由C、T、A、G四种碱基排列而成。其中,C与G互补,T与A互补,根据数字编码的规律,(00)与(11)互补,(01)与(10)互补,这样很好的体现了碱基的生物特性。因此,我们采用的编码方式如表4.1所示:表4.1 碱基编码方式字符编码CTAG数字编码01110010所以不同位点的的碱基对数值编码方式如表4.2所示:表4.2 不同碱基对对应的编码方式AATACCGCATTTC

11、GGG00001100010110010011111101101010AGTGCTGAACTCCAGT00101110011110000001000101001011本文采用的DNA数字编码技术具有许多的优势:(1)体现了碱基互补配对的生物特性。(2)比传统的字符编码更简单。(3)采用字符编码的方式,每个碱基要占用8个比特,而采用数字编码每个碱基仅仅占用了2个比特,所以数字编码在一定程度上节省了存储空间、减少冗余度,而且提高了编码效率。(4)采用数字进行编码可以直接进行数据的运行、统计和分析,为后边问题的分析与建模奠定了良好的基础。五、问题二的分析与建模5.1问题分析在问题二中,给定了1000

12、个染色体片段样本分别在9445个位点上的编码信息,其中,这1000个样本有500个来自正常样本,500个来自患有A病样本。问题二需要解决的是找出一个或几个最有可能导致疾病A发生的致病位点。通过问题二的描述,我们可以将问题转换为:在9445个位点上,找出最有可能区分正常和患有A疾病的一些特征位点。因此,我们可以从机器学习的角度,让算法学习出这些特征位点。5.2模型的建立与求解在寻找特征位点中,常用的方法有遗传算法(Genetic Algorithms, GA)3、决策树(Decision tree, DT)4方法及多重对应分析(Multiple correspondence analysis,M

13、CA)5。其中利用遗传算法寻找致病位点过程中,需要对9445个致病位点进行基因编码,然后对其组成的特征空间进行搜索,虽然遗传算法具有训练速度快,计算量小等优点,但在维度较高的情况下(9445个致病位点),算法复杂度较高,且算法容易陷入局部最优解;同遗传算法类似,决策树在特征维度较高时,其表现也不理想,且决策树的ID3算法在递归时存在内存开销大的问题;多重对于分析作为对于分析的一个扩展,目前在行为科学及医学中广泛应用,但由其变量维度不确定性及对极端值敏感等缺点,因而会造成基因致病位点确定不准确等问题。因此,如何建立好的模型对9445个致病位点组成的特征空间进行快速而精准的位点定位是解决问题二的关

14、键。卷积神经网络(CNN)是一种常见的深度学习架构,受生物自然视觉认知机制启发而来。由于CNN避免了对图像复杂的前期预处理,可以直接输入原始图像,特别是其强大的自动学习特征能力,相比传统的特征设计而言,其人为干扰因素小,因此,近年来,CNN已经成为众多科学领域的研究热点。本文中,我们首先将每个样例转换为一幅图像,建立起每个致病位点与图像中每个像素点的对应关系;随后通过建立卷积神经网络,对建立起的1000个图像样本进行参数学习,利用反卷积,让每个图像样本从输出端到输入端反卷积回来,从像素级上得到卷积神经网络学习到的每个样例的特征图,最后从这些特征图中,统计出正常样例和A疾病样例在特征图上的差别,

15、进而通过这些特征图的差别定位出关键的致病位点。5.2.1卷积神经网络的模型建立如图5.1所示,为本文所建立的卷积神经网络结构模型。在图5.1中,右侧为卷积过程,左侧为对应的反卷积过程。图5.1 建立的卷积神经网络模型在图5.1右侧所建立的CNN网络结构中,包括卷积层、池化层和分类层,其中卷积层和池化层是卷积神经网络的核心组成部分。卷积层:卷积层中的每个神经单元对应上层输入的一个局部感受区,通过设计卷积核,来提取感受区的特征。一般在CNN的每个卷积层中具有多个卷积核,对应于多个卷积特征输出,以此来达到充分提取上层特征的目的。如图1所示,为单个卷积核对输入图像进行卷积处理的过程。一个卷积层的一个特

16、征输出可以表示为:(1)式中表示某一卷积层的第个输出,表示待卷积图像,分别表示卷积核的权值和偏置,对单个卷积核而言,采取权值共享方式(即W、b均相同)。表示激活函数,如simgoid函数和tanh函数,在本文建立的模型中,采取修正线性单元(ReLU)6,即,修正线性单元(ReLU)作为传统激活函数的一种扩展,具有更快的收敛速度及更高的训练效率。除此之外,标准的sigmoid或tanh函数输出不具备稀疏性,需要通过惩罚因子来使得训练得到的权值接近于0,从而产生稀疏数据。相比之下,ReLU表述更为简单,直接让小于0的权值置0,这种简单的表述不但加快了训练效率,而且训练后的网络完全具备适度的稀疏性。

17、 图5.2 单个卷积核对输入图像卷积处理池化层:池化层主要对卷积层进行特征处理,具有减小图像分辨率及保持图像全局特征的能力。如图5.2表示了一幅图像的池化过程。对池化层的一个输出图像来说,(2)式中,表示该池化层中的第个输出,对应上层中的第个卷积输出,表示一个池化函数,常用的有最大池化和平均池化两种,池化模板一般为22大小,即在模板区域取极大值或均值得到池化层输出。池化层的每个输出都对应一个乘性偏置和一个加性偏置。在卷积神经网络中,常用池化方式为最大池化,因此在本文建立的模型中,均采取最大池化方式。由于特征图的变长不一定是2的倍数,所以在边缘处理上也有两种方案:1.忽略边缘。即将多出来的边缘直

18、接省去。2.保留边缘。即将特征图的变长用0填充为2的倍数,然后再池化。图5.3 池化处理分类层:分类层可看为一个普通神经网络的输出层,输出层节点个数为类别数。在分类层与上层输入之间采用softmax连接,Softmax回归中将上层的输入向量分类为类别的概率表示为: (3)其中为输入向量F的分类类别,为输出层与上层之间的连接权重矩阵,为总类别数。在得到输出向量后,根据训练数据的输出标签,采取BP训练方式来调整整个网络权值。在图5.1左侧中,为本文网络模型所对应的反卷积过程。卷积的概念己经比较成熟,通过卷积核不断对图像进行卷积,每个卷积核相当于一个特征提取器,最终卷积得到一系列特征图。反卷积是指通

19、过测量输出和已知输入重构未知输入的过程,广泛应用于语音识别、图像恢复等领域。从数学角度来讲,反卷积是卷积操作的逆运算。不同于卷积层,用一个滤波窗口连接多个输入激活单元,以产生一个单一的激活值,而反卷积层的一个单一的输入激活单元对应多个输出,如图5.4所示。图5.4 反卷积运算反卷积:在卷积神经网络中,反卷积被用来可视化卷积网络,从像素级别上理解网络每层学习到的特征图像。在本模型中,我们利用Matthew D。Zeiler和Rob Fergus提出的反卷积(Deconvnet)7方法,模型的反卷积过程如图5.5所示。图5.5 反卷积过程在图5.5中,由卷积层到重构上层特征的过程为反卷积重构,一个

20、重构反卷积图像表示为:(4)其中,*表示2维卷积操作,为卷积层第k个特征图像,为所对应的卷积核参数,为该卷积层卷积特征图的个数。由池化层到上层的重构过程为反池化,由于池化过程不可逆,所以反池化只是正常池化的一种近似;即通过记录正常池化时的位置,以其他位置置0的方式来重构上层特征。反池化如图5.5彩色部分所示。图5.6为一个反池化的例子。图5.6 22为半径的池化和反池化过程5.2.2卷积神经网络的模型求解该数据样本为的矩阵,其中1000为样本个数,9445为碱基对个数。由问题一的结论,我们把每个碱基对的字符编码转变为数字编码,这样对整体样本而言我们得到一个大小为1000(94454)的数字编码

21、矩阵。在利用卷积神经网络对这些数据进行学习时,首先我们需要将每个数字编码行向量转换成数字图像。图5.7以两个相邻的碱基对为例,展示了将其数字编码对应到数字图像中的过程。图5.7 数字编码向量转换成数字图像过程从图5.7中可以看出,每个碱基对按照列排列规则映射到图像中的一个22区域中,并且碱基对与碱基对之间也按照列排列方式依次对应到图像中。最终按照图5.7所示方式,每个样本可以转换成图5.7所示的数字图像。其中每个图像大小为196196像素大小,每个碱基对位点占用4个像素点,图像最后空余部分补0。图5.8 某一样本对应的数字编码图在得到每个样本的数字编码图之后,我们就可以将这1000个数字编码图

22、像送入建立好的卷积神经网络模型中,让模型自动学习出区分正常样例和患有疾病A样例的关键性致病位点。在建立的模型中,网络各层输出大小及各层卷积核、池化半径大小设置如表5.1所示。表5.1 网络各层输出大小及各层卷积核、池化半径大小LayerCore SizeOutput SizeInputConv1Maxpool1-332219619632196196329898Conv2Maxpool23322649898644848Conv3Maxpool3332212848481282424Conv4Maxpool4332225624242561212Conv5Maxpool5332251212125126

23、6Conv6Maxpool63322102466102422Classify layer-2由图5.7可知,在每个数字编码图中,每4个像素点对应于一个致病位点,因此为了对每个致病位点进行特征学习,卷积神经网络中卷积核及池化半径大小均不宜过大。即网络各层卷积核大小均设置为33,池化半径大小均设置为2,最终决定了图5.3所示的6层深度网络结构。卷积神经网络训练参数设置如表5.2所示。表5.2 网络训练参数设置项目参数说明学习率0.0001Momentum0.9Mini-batchsize8Dropout0.5其中,Maxpool6层采取Dropout8技术,让网络学习到的特征更具稀疏性。按照上述参

24、数设置,在卷积神经网络对1000个样本学习完成后,需要利用反卷积,得出卷积神经网络对每个样例学习到的特征位点。如图5.9所示,左侧为一个输入图像,右侧为卷积数据网络学习到的特征位点(图中激活区域)。 图5.9 一个输入样例所对应的特征位点通过分别对500个正常样本和500个A疾病样本所得到的特征图的激活区域进行统计分析,得到了图5.10所示的总体激活区域。其中左侧为正常样本统计得出的激活区域,右侧为A疾病样本统计得出的激活区域。图5.10 正常样本和A疾病样本的激活位点为了找出区分正常和A疾病的特征位点,按照图像对于激活区域相减,得到如图5.11所示的激活位点。图5.11 区分正常和A疾病的激

25、活区域从图5.11可知,一些区域(位点)并未激活,一些区域相对激活较弱,一些区域有较强的激活,依据图像分割算法(Ostu)9,我们可以从图5.11中分割出比较显著的激活区域,最终得到15个较强的激活区域,其分别对应的索引值为2586、2783、2882、3492、4644、6398、6399、6400、6497、6498、9366、9367、9376、9378、9379,致病位点rs12410893、rs0864413、rs2119508、rs2336379、rs598371、rs1463273、rs4654880、rs6695218、rs2796355、rs785197、rs12087046

26、、rs1107427、rs2292165、rs4949371、rs12725881。表5.3以索引值和致病位点对应的方式显示了问题二所要求得的致病位点。表5.3索引值和致病位点索引值对应的致病位点2586rs124108932783rs08644132882rs21195083492rs23363794644rs5983716398rs14632736399rs46548806400rs66952186497rs27963556498rs7851979366rs120870469367rs11074279376rs22921659378rs49493719379rs127258815.2.3模

27、型的验证验证本模型的有效性,即为验证本模型学习到的特征是否能够很好的区分出正常样本和A疾病样本。因此,我们分别选出1000个样本中相对应位置的15个位点的碱基对,组成100015的碱基对样本,按照问题一中的编码方式,我们同样可得到1000(154)的数据样本,其中这1000个样例中,500个位正常样本,500个位患病样本。从模式分类的角度,我们可以将筛选出来的15碱基对编码数据作为特征输入,送入到分类器中进行分类,如果这些特征能够将这两类样例区分开来,即说明了本模型选得的致病位点是有效的。基于以上思想,我们选取常用的分类器进行分类,分类器包括线性判别分析(LDA)、支持向量机(SVM)10、随

28、机森林(RF)、朴素贝叶斯分离器(NBC)和Adaboost分类。分类结果如表6.4所示,其中分类过程中,数据集均采取10折交叉验证方式。表5.4 各分类器以15个致病位点为特征得到的识别率分类算法识别率LDA80.5%SVM83.3%RF84.1%NBC82.4%Adaboost83.4%从表5.4可知,5种分类算法在10折交叉验证中,识别率均达到了80%以上,说明了本模型筛选出来的致病位点是有效的。六、问题三的分析与建模6.1问题分析对于问题三,依然假设同问题二的样本患有遗传疾病A的的信息,现有300个基因,通过观察数据显示发现,每个基因包含的位点数目不同。由于基因为若干个位点组成的集合,

29、遗传疾病与基因的关联性可以由基因中包含的位点的全集或其子集合表现出来。为了找出这300个基因当中与疾病最有可能相关的一个或几个基因,我们可以用问题二的分析结果,即找出的致病位点集合,来对比每个基因中所包含的位点。6.2问题求解如果当某个基因包含的位点集合中的一个或几个位点属于我们已经找到的致病位点集合,那么我们认为该基因与疾病相关。由问题2得到的致病位点集合筛选出300个基因里面包含了9个与疾病相关联的基因。基因对应致病位点如表所示:表6.1 基因对应致病位点序号对应的致病位点1rs124108932rs108644133rs21195084rs23363795rs5983716rs14632

30、73 rs4654880 rs66952187rs2796355 rs7851978rs12087046 rs11074279rs2292165 rs4949371 rs12725881通过结果观察可得,基因205与基因297与该疾病的相关性最强,基因7和基因8与该疾病的相关性次之,基因1、2、3、4、5与该疾病的相关性相对较强,结果如下表所示。表6.2 基因位置与编号序号123456789基因8996100118153205207296297七、问题四的分析与建模7.1问题分析对于问题四,我们认为是问题二的拓展。问题二认为疾病由致病位点影响,而在实际中,科研人员往往把相关的性状或疾病看成一个

31、整体,然后来探寻与它们相关的位点或基因。现有问题二中的1000个样本的10个相关联性状的信息以及每个样本对应的9445个位点的编码信息,要求找出与这10个性状相关联的位点,其实也就是将问题二的求解分析过程循环十遍,每次分析的结果就是所对应的每个性状的相关联的位点信息,合起来就是这10个性状相关联的位点。7.2模型的建立与求解7.2.1模型的建立问题四沿用问题二中所建立的卷积神经网络模型,所有的模型参数都没有改变,模型的输出由问题二中的是否患病(即前500个为0,后500个为1)变为1种性状(即0和1的位置发生了变化)。7.2.2模型的求解数据样本与问题二中的样本一致,详情请参考5.2.2。采用

32、7.2.1所建立的模型,分别求解10种性状所对应的相关位点,以第一种性状为例进行说明。首先,对原始数据进行编码以及转换为位点编码图,这里将不再赘述。之后将1000张位点编码图放入卷积神经网络进行训练,达到训练要求之后,通过反卷积的变换形式得到位点特征图,如下图所示。图7.1.1 图7.1.2图7.1.3 图7.1.4图7.1 任意4个样本的位点特征图之后分别对其标签为0、1的样本位点特征图相加,如下图所示。图7.2.1 标签为0的位点相加特征图 图7.2.2标签为1的位点相加特征图图7.2位点相加特征图为了体现标签0和1的特征位点差别,所以将标签为0的位点相加特征图减去标签为1的位点相加特征图

33、,如下图所示。图7.3 标签0、1特征位点相减图根据图7.3可以得出位点与亮度的曲线,如图7.4所示。图7.4 位点与亮度的关系图从图7.4我们可以看出不同的亮度值对应了不同个数的位点,我们通过计算,得到了阈值为6。因此,我们筛选出亮度大于6的位点作为我们的相关联位点,如图7.5所示。图7.5 与性状1相关联的位点分布图从图7.5,我们可知,与性状1相关联的位点一共有14个,它们的位置分别是第2487、2584、2681、2684、2974、3195、3964、3965、3966、4269、5603、6139、6988、8219个位点,分别所代表的位点名称如表7.1所示。表7.1 与性状1相关

34、联的位点属性表序号位置名称12487rs753575222584rs1112123732681rs77004142684rs175168152974rs91296363195rs654095973964rs1204429983965rs1181103193966rs12118400104269rs12029721115603rs2236798126139rs17354986136988rs876685148219rs1273158710种性状相关联的位点分析结果如下表所示。表7.2 不同性状与对应的相关联位点的个数性状12345678910位点个数1417121910152291716表7.3

35、 不同性状的对应相关联位点序号对应的相关联位点1rs7535752 rs11121237 rs770041 rs1751681 rs912963 rs6540959 rs12044299 rs11811031 rs12118400 rs12029721 rs2236798 rs17354986 rs876685 rs127315872rs7535752 rs17389460 rs11802925 rs12145857 rs6540999 rs2789746 rs3753315 rs11260711 rs11577496 rs16823061 rs3767230 rs12145027 rs224

36、2421 rs7513455 rs17356087 rs2473242 rs109172193rs653667 rs12043808 rs7519744 rs848198 rs4655224 rs2807345 rs298458 rs9659647 rs12566174 rs9426282 rs271376 rs2376723 4rs1782455 rs2486178 rs10928013 rs12085105 rs12401403 rs2294630 rs209696 rs209692 rs580878 rs2267960 rs10489438 rs4636398 rs6688931 rs2

37、066995 rs11247963 rs3753693 rs12045777 rs9426279 rs35047308 5rs1052576 rs11578845 rs4920332 rs2869513 rs6659209 rs11247776 rs904300 rs7530417 rs8048 rs10914217 6rs10927459 rs883867 rs718178 rs2301475 rs960564 rs2501431 rs11249020 rs11247864 rs8564 rs4970517 rs2985334 rs2319404 rs9442466 rs1977676 rs

38、4949477 7rs2486772 rs12733185 rs804125 rs4661330 rs2281376 rs910223 rs872730 rs501080 rs2314331 rs1473688 rs12045792 rs11799849 rs3026886 rs4649124 rs501748 rs6424101 rs926461 rs2982292 rs11247735 rs17162102 rs12137317 rs66050858rs12736085 rs12078414 rs12129390 rs17394154 rs960564 rs803314 rs1158739

39、3 rs11247756 rs109152719rs10927459 rs883867 rs718178 rs2301475 rs960564 rs2501431 rs11249020 rs2982292 rs11247864 rs8564 rs4970517 rs2985334 rs2319404 rs9442466 rs1977676 rs12027089 rs494947710rs7522410 rs10927681 rs6429728 rs7554324 rs279024 rs9662941 rs6686865 rs728611 rs3890762 rs12562197 rs25012

40、79 rs11582542 rs4655054 rs6690260 rs1934482 rs10799757从表7.1和表7.2可知,不同的形状的相关联位点个数与形状本身没有关系,并且不同性状的相关联位点存在差异。7.2.3模型的验证问题四采用十折交叉验证的方法,将10种性状所对应的相关联位点用LDA、SVM、RF、NBC、Adaboost进行模式识别,结果如表7.4所示。表7.4 采用LDA、SVM、RF、NBC、Adaboost分类识别10种性状的识别率表7.4.1 采用LDA分类识别10种性状的识别率性状12345678910识别率(%)85.387.580.586.989.381.58

41、2.187.680.485.3表7.4.2 采用SVM分类识别10种性状的识别率性状12345678910识别率(%)86.788.682.780.484.689.687.588.589.487.2表7.4.3 采用RF分类识别10种性状的识别率性状12345678910识别率(%)80.281.288.584.689.687.188.481.581.885.9表7.4.4 采用NBC分类识别10种性状的识别率性状12345678910识别率(%)81.583.682.187.581.884.582.783.482.583.4表7.4.5 采用Adaboost分类识别10种性状的识别率性状12

42、345678910识别率(%)80.281.984.782.882.583.980.484.780.981.7从表7.4可以看出,采用5种不同的分类器对其进行识别,识别率均高于80%,从而可以说明,我们提取的位点是与10种性状相关联的。八、模型的评价与结论本文的主要工作是通过对于遗传疾病和性状位点的分析,针对相应的数据分析和统计,我们建立了卷积神经网络模型(Convolutional Neural Network,CNN),通过训练该网络模型,从而实现在DNA长链寻找相应疾病或性状有关的位点。对于问题一,本文采用二进制编码的方法不仅体现碱基的生物特性,同时,编码方式简单实用。而且数字编码的方式

43、便于数据的存储、运行和统计分析。对于问题二、问题三,本文建立了卷积神经网络模型,关于遗传疾病和性状位点的分析中,常用的算法有遗传算法(Genetic Algorithms,GA)、决策树(Decision tree,DT)及多重对应分析(Multiple correspondence analysis,MCA)。相比与这些模型,卷积神经网络的复杂度更小,对服务器所占用内存较小,且是无监督学习的方式;同时,建立卷积神经网络模型解决了变量不确定性及极端值敏感等缺点。对于本文9445个致病位点信息的分析与处理,数据维度较高,采用CNN模型可以很好的解决这一问题。对于问题四,要求分别寻找10个性状的相

44、关位点。本文延续问题二的卷积神经网络网络模型对10个性状分别寻找相关位点。卷积神经网络的自学习过程弥补了繁重的工作量,同时精确的找到了每个性状相关位点的信息。根据模型的建立与相关文献表明,本文提出的卷积神经网络模型对于遗传疾病和性状位点的分析拥有较大的参考意义。在信息化和科技发展迅猛的今天,遗传疾病和性状位点分析的手段有很多,本文建立的卷积神经网络模型与其他传统的分析方法相比并没有广泛的取得应用,同时其中网络架构的完善需要日后的工作学习中继续进行。参考文献1 Ellis, Nathan A. DNA helicases in inherited human disorders. Current

45、 Opinion in Genetics & Development 7.3(1997):354-363.2 刘文斌,王淑栋,许进 DNA计算中的编码方法研究 北京:计算机工程与应用学报 2003.3 吕思晨 基于遗传和粒子群搜索的SNP关联分析算法 北京:西安电子科技大学 2014.4 黎成 基于随机森林和ReliefF的致病SNP识别方法 西安 西安电子科技大学2014.5 董涛涛 基于对应分析方法的酵母RP基因上游转录因子结合位点的统计分析. 云南大学学报, 2014.6 Y. L. LeCun, et al.Gradient-based learning applied to document recognition. Proc IEEE.Proceedings of the IEEE 86.11(1998):2278

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服