数学模型在生物信息学教学中的应用.doc

资源描述

1、数学模型在生物信息学教学中的应用作者：日期：2 个人收集整理勿做商业用途目录目录i摘要ii第一部分数学建模11 数学建模的介绍12 数学建模的主要内容13 数学建模的流程24 数学建模的主要算法25 数学建模的软件3第二部分生物信息学31 什么是生物信息学32 生物信息学的研究方向3第三部分生物信息学与数学建模的交叉31 方法和技术的交叉31。1 数学统计方法41。2 动态规划方法41。3 机器学习41.4 数据挖掘41。5 生物分子的计算机模拟52 目的上的相似5第四部分数学建模在生物信息学中的部分应用51 运用数学模型的预测52 运用数学模型的数据分析6参考文献7数学建

2、模在生物信息学中的应用研究摘要本文首先介绍了数学建模和生物信息学的基础知识,然后分析了数学建模和生物信息学的交叉知识点。分析显示，数学建模和生物信息学不仅在统计方法和数据挖掘等使用方法和技术方面存在交叉知识点，还在目的上具有一定的相似性，即两者都是对大量的数据进行统计和分析，都以解决问题为最终目的。最后，文章重点回顾了数学建模在生物信息学中数据分析和结构预测方面的部分应用。关键词：数学建模生物信息学应用研究ii 第一部分数学建模1 数学建模的介绍从航空航天领域中的火箭发射、武器的自动导航，到企业中该如何配置人力、物力和财力，进而用最小的成本产生最大的利润,再到生活中如何规划自己有限的时

3、间复习期末考试,等等.这都或多或少地运用到了数学建模的知识.数学建模是一个将实际问题用数学的语言、方法，去近似刻画、建立相应数学模型并解决科研、生产和生活中的实际问题的过程。数学建模的问题比较广泛，涉及到多学科知识，它不追求解决方法的天衣无缝，不追求所用数学知识的高深，也不追求理论的严密逻辑，它以解决问题为主要目的。模型的建立，即把错综复杂的实际问题简化、抽象化为具有合理的数学结构的过程。通过调查、收集数据资料，观察和研究实际对象的固有特征和内在规律，抓住问题的主要矛盾，建立起反映实际问题的数量关系，然后利用数学的理论和方法去分折和解决问题。随着科学技术的飞速发展，人们越来越认识到数学的重要性

4、：数学的思考方式具有根本的重要性,数学为组织和构造知识提供了方法,将它用于技术时能使科学家和工程师生产出系统的、能复制的、且可以传播的知识数学对于经济竞争是必不可少的，数学科学是一种关键性的、普遍的、可实行的技术。在当今高科技与计算机技术日新月异且日益普及的社会里，高新技术的发展离不开数学的支持，没有良好的数学素养已无法实现工程技术的创新与突破。 2 数学建模的主要内容数学建模理论包含统计回归模型、优化模型、图论模型、微分模型和概率模型等【13】，如表1所示。1表1 数学建模的主要内容统计回归模型运筹与优化模型图论与网络模型微分差分模型概率模型数学挖掘聚类分析层次分析线性回归非线性回归主成分分

5、析时间序列分析数据拟合与插值博弈论线性规划整数规划目标规划动态规划非线性规划多目标决策存贮论模型图论模型最小生成树最大流问题最短路径问题最长路径问题PERT网络图模型最小费用流问题GM模型微分方程模型稳定性模型差分方差模型灰色预测模型偏微分方程模型随机模拟计算机模拟决策论模型排队论模型马氏链模型3 数学建模的流程图1数学建模的流程34 数学建模的主要算法蒙特卡罗算法该算法又称随机性模拟算法，是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性。数据处理算法通常会遇到大量的数据需要数据拟合、参数估计、插值等处理，通常使用Matlab作为工具。规划算法遇到线性规划、整数规划

6、、多元规划、二次规划等最优化问题,可以用数学规划算法来描述，通常使用Lingo软件实现。图论算法-包括最短路、网络流、二分图等算法.动态规划、回溯搜索、分治算法、分支定界等算法。非经典算法-模拟退火法、神经网络、遗传算法为最优化理论的三大非经典算法.5 数学建模的软件数学建模有专用的软件：Matlab 7, Lingo 8为其中最主要的软件，其他重要的软件有Mathematice，S-plus，SAS等。第二部分生物信息学1 什么是生物信息学生物信息学是一门新兴的交叉学科，它使用数学和计算机这两项工具，对日益增长的生物数据进行快速、高效的组织与分析。生物信息学的近期任务是大规模的基因组测序中

7、的信息分析、新基因和新SNP的发现与鉴定、完整基因组的比较研究、大规模基因功能表达谱的分析、生物大分子的结构模拟与药物分析,其远期任务是非编码区信息结构分析、遗传密码起源和生物进化的研究。2 生物信息学的研究方向生物信息学的发展异常迅速,现主要包括DNA序列对比、蛋白质结构对比与预测、编码区的基因识别、序列重叠群(Contigs）装配、基于结构的药物设计、非编码区的分析研究、遗传密码的起源、分子进化与比较基因组学、生物系统的建模和仿真、生物信息学技术方法的研究等几个研究方向【4-6】.第三部分生物信息学与数学建模的交叉生物信息学是利用数学和计算机作为工具，不可避免地与数学建模，这一利用计算

8、机和数学理论解决实际问题的学科，无论在研究方法和技术上，还是在运用目的上均产生一定的交叉。1 方法和技术的交叉生物信息学所使用的方法与技术包括数学统计方法、动态规划方法、机器学习与模式识别技术、数据库技术与数据挖掘、人工神经网络技术、生物分子的计算机模拟等，而这些恰恰是数学建模领域的核心理论与知识。1.1 数学统计方法数据统计、因素分析、多元回归分析是生物学研究必备的工具,而这些是数学建模的统计回归模型中最为基础的知识；隐马尔科夫模型(Hidden Markov Models）在序列分析方面有着重要的应用，与隐马尔科夫模型相关的技术是马尔科夫链（Markov Chain）,而马尔科夫链模型

9、正是数学建模中针对离散状态按照离散时间的随机转移而建立的模型。总之，生物信息学和数学建模有的第一个共同点是，都有对海量数据进行统计分析的过程。1。2 动态规划方法动态规划（Dynamic Programming）是一种解决多阶段决策过程的最优化方法，在每个阶段做出一定的决策并影响后续的决策,最终选择一个最优决策。当两个DNA序列长度较小时，采用动态规划算法可以很好地解决两个序列的相似性问题。当序列长度太长时，改进的BALST和FASTA算法也是基于动态规划的思想。同时，动态规划在数学建模领域也被用来解决最短路线、库存管理、资源分配等生产和生活中的现实问题.1。3 机器学习机器学习一般采用遗传

10、算法、神经网络或聚类分析等，模拟人类的学习过程，以计算机为工具获取知识、积累经验，在拥有大样本、多向量数据的数据分析中发挥着日益重要的作用。比如，聚类分析已经运用于癌症类型的分类，神经网络和隐马尔可夫模型对于缺乏完备理论体系的生物领域也同样奏效。以上聚类分析、神经网络和隐马尔可夫模型均为数学建模中的重点方法。1。4 数据挖掘数据挖掘又被称作数据库中的知识发现，在此意义上，生物信息学也是在海量的生物数据中发掘生命的奥秘。基因序列包括外显子和内含子，其中外显子只占其中的一小部分.大部分的内含子序列的作用并不为人知，如何从这些简单的ACGT序列中发现内含子如何参与基因的转录与翻译变得异常重要.比如

11、，利用一阶和二阶马尔可夫链的方法侦测密码区。1。5 生物分子的计算机模拟所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发，建立分子体系的数学模型，利用计算机进行模拟实验,预测生物分子的结构和功能，预测动力学及热力学等方面的性质，常用的方法是蒙特卡罗法和模拟退火方法。2 目的上的相似数学建模与生物信息学都会对大量的数据进行统计和分析,都以解决问题为最终目的，并且以求得满意解为重点，因为有时全局最优解难以得到。另外,数学建模和生物信息学的研究都更强调能否具有实用性。比如生物信息学的机器学习技术中运用到了神经网路或隐马氏模型，但人们目前并不清楚该算法或模型是如何到达解的,即对其具体的

12、机理并不十分了解.但这并不妨碍我们使用这种方法，因为这种方法具有使用成功性和可用性。在这个意义上,数学建模也经常通过此类“黑箱操作达到特定解。正如Cynthia Gibas和Per Jambeck在Developing Bioinformatics Computer Skills的前言所说，生物信息学“is often less about developing perfectly elegant algorithms than it is about answering practical questions”.从这个意义上说，数学建模与生物信息学有着目的上的相似性。第四部分数学建模在生

13、物信息学中的部分应用1。运用数学模型的预测1993年Rost和Sander6提出了三级网络模型，这种神经网络方法已经成为了蛋白质结构预测普遍采用的方法。2003年闫化军等7人也通过神经网络算法预测蛋白质二级结构。2007年林卫中等8人将GM（1,1）模型应用于蛋白质二级结构类型的预测，把提取出的蛋白质氨基酸的排列信息作为伪氨基酸成分,从而较大的提高了预测的成功率.2008年邱望仁等9人将OET-KNN算法应用于蛋白质二级结构类型的预测，通过LZ复杂度的算法计算了伪氨基酸的成分,再用OET-KNN算法分类预测，从而也较大的提高了预测的成功率.Bader等10人将Logistic回归模型用来预测蛋

14、白质之间的生物学关系，这种运用使得通过遗传学和基因表达数据来分析蛋白质数据成为了可能。2006年王明会等11人将Markov链模型应用于蛋白质可溶性的预测，预测精度普遍好于或接近于神经网络、信息论和支持向量机法的结果,而且该模型的运算复杂度低,耗时也更短.2006年张菁晶等12人将隐马尔可夫模型运用于目标基因全基因组的预测，同量高、准确度高并且操作简单,尤其在多结构域蛋白家族的预测上优势明显.2008年刘桂霞等13人提出了一种带偏差单元的递归神经网络模型。该模型根据BP算法得出权系数调整规则，使得收敛速度比一般的BP网络更快，对于预测蛋白质关联图有一定的实用价值。2。运用数学模型的数据分析19

15、97年Carr等14研究了大鼠脊髓的基因活动，通过聚类分析证明具有已知相似功能的基因属于一类。2006年张文彤等15人综合了聚类方法和进化树分析的优点，通过先聚类将数据拆分，然后根据聚类的类别构建进化树,这种方法可以很好地在大样本数据中应用，并以甲型流感病毒的H3A1序列作为实例，构建拼接出了完整的进化树结果。2006年徐丽等16人针对Viterbi算法和Baum-Welch算法在隐马尔可夫模型(Hidden Markov Model）的参数估计中无法找到全局最优解，提出了基于遗传算法的HMM参数估计，这种方法用于多序列对比研究时可以更好的避免局部最优解.2007年周晓彦等17人通过综合模糊数

16、学和核判别方法的优点,提出了一种基于模糊核判别分析的基因表达数据分析方法，并以多发性骨髓瘤的基因表达数据为例证实了这种方法的可行性和精确性.2007年刘万霖等18人介绍了构建基因调控网络的多种算法和方法，比如马尔可夫链可以用于分析时间序列微阵列表达数据;将随机和概率等引入布尔网络模型，可以增强基因网络调控的精确性；贝叶斯网络模型在Friedman和Peer等人做出了开拓性的工作后，在基因表达数据和调控网络方面得到了快速的发展。参考文献1 冯杰等。数学建模原理与案例。科学出版社，2007。2 高隆昌，杨元著。数学建模基础理论。科学出版社,2007.3 戴朝寿，孙世良. 数学建模简明教程. 高等教

17、育出版社,2007.4 陶士珩。生物信息学。科学出版社，2007。5 DAVID W。 MOUNT.生物信息学:中文版. 高等教育出版社，2003.6 Rost B， Sander C。 Proc. Natl. Acad。 Sci。 USA， Biothysics, 1993，90:755875627 闫化军，傅彦,章毅等。神经网络方法预测蛋白质二级结构.计算机科学。2003，30（11)：48528 林卫中，肖绚。基于GM（1，1）模型的蛋白质二级结构类型预测。计算机工程与应用， 2007， 43（34): 41459 邱望仁，肖绚, 林卫中. 基于OETKNN算法的蛋白质二

18、级结构类型预测。计算机工程与应用， 2008， 44（29)： 204-21010 Bader JS，Chaudhuri A,Rothberg JM,et al. Gaining confidence in highthroughput protein interaction network。 Nat Biotechnol,2004,22： 788511 王明会, 李骜，王娴等. Markov链模型在蛋白质可溶性预测中的应用. 生物医学工程学杂志， 2006， 23（5): 1109-111312 张菁晶，冯晶，朱英国。全基因组预测目标基因的新方法及其应用.遗传。2006，28(10)

19、:1299-130513 刘桂霞，于哲舟, 周春光. 基于带偏差递归神经网络蛋白质关联图的预测. 吉林大学学报（理学版）, 2008, 46（2）: 26527014 Carr DB, Somogyi R, Michaels G. Templates for looking at gene expression clustering。 Statistical Computing & Statistical Graphics Newsletter， 1997，8:20-2915 张文彤，姜庆五.聚类技术在大样本序列进化树分析中的应用.中国卫生统计。2006,23（5)：39339616 徐丽,康瑞华。基于遗传算法的HMM参数估计。湖北工业大学学报。 2006，21(4）:687117 周晓彦，郑文明。基于模糊核判别分析的基因表达数据分析方法. 华中科技大学学报(自然科学版)， 2007， 35(I）： 17317618 刘万霖，李栋,朱云平等.基于微阵列数据构建基因调控网络.遗传，2007,29（12）:143414428

展开阅读全文