2019中国人工智能系列白皮书 --智能生物信息处理.pdf

资源描述

世界一流学会建设项目中国人工智能中国人工智能系列系列白皮书白皮书智能智能生物生物信信息息处理处理 2019 中国人工智能学会中国人工智能学会二一九年十月二一九年十月 1 中国人工智能系列白皮书智能生物信息处理 2019 中国人工智能系列白皮书编委会中国人工智能系列白皮书编委会主任：李德毅执行主任：王国胤副主任：杨放春谭铁牛黄河燕焦李成马少平刘宏蒋昌俊任福继杨强委员：陈杰董振江杜军平桂卫华韩力群何清黄心汉贾英民李斌刘民刘成林刘增良鲁华祥马华东马世龙苗夺谦朴松昊乔俊飞任友群孙富春孙长银王轩王飞跃王捍贫王万森王卫宁王小捷王亚杰王志良吴朝晖吴晓蓓夏桂华严新平杨春燕余凯余有成张学工赵春江周志华祝烈煌庄越挺中国人工智能系列白皮书智能生物信息处理 2019 中国人工智能系列白皮书中国人工智能系列白皮书智能生物信息处理编委会智能生物信息处理编委会主任：张学工副主任：高琳沈红斌汪小我汪增福赵兴明秘书长：王颖常务委员：蔡宏民杜朴风高琳古槿蒋庆华姜伟雷秀娟李敏刘治平沈红斌宋晓峰汪小我王颖汪增福魏彦杰鱼亮张法张绍武张世华张学工张治华赵兴明章乐章文邹权本书编写组本书编写组李敏刘琦宋晓峰王颖赵兴明张世华邹权全书统稿：赵兴明中国人工智能系列白皮书智能生物信息处理 2019 1 前言近年来，伴随着生物技术的飞速发展，海量的生物医学大数据快速积累。这些数据包含了极其重要的信息，为研究生命奥秘、生命活动本质以及生命产生和发展规律提供了契机。生物医学研究也逐渐偏离传统的实验科学，开始向数据驱动的生物信息学交叉学科发展。但是，生物医学数据的解读速度远远滞后于数据的产出速度，生物信息的处理急需生物医学与数学和计算机科学等学科交叉。与传统数据相比，生物医学数据具有自己的鲜明特点，如样本少、维度高、数据非结构化、数据种类多、数据量庞大等特点。生物信息处理需要克服数据缺失、小样本高维、异源异构数据等困难，需要统计学、数学和计算机科学等学科的交叉融合。随着信息化技术的发展，各类人工智能技术的出现大大促进了生物信息处理的速度和精度，也推动了生物信息学的发展。目前，人工智能技术进入了新的阶段。经过 60 多年的发展，在大数据、高性能计算、脑科学等新理论新技术驱动下，人工智能呈现出深度学习、跨界融合、人机协同等新特征。大数据驱动的知识学习已经成为人工智能的发展重点，相应的智能算法已经被广泛应用于生物信息处理。人工智能技术已被用于基因组注释、药物设计、结构预测等研究，帮助生物学家筛选处理、解释利用生物学研究中不断收集的庞大数据，提取重要的知识，并从大量的原始生物数据中找出有用的模式，帮助生中国人工智能系列白皮书智能生物信息处理 2019 2 物学家解决未解决的问题，极大程度上推动了生物信息学的发展。随着生物信息学和人工智能技术的飞速发展，精准医学的概念也开始被推广。在精准医学中，通过患者基因组学和临床表型等生物信息的处理，可以形成更加精准的诊断方案，并制定个性化的治疗方案，从而更加有效地预防和治疗疾病。精准医学涉及患者的临床表型、分子组学、医学影像、表观遗传、微生物组学等多种类型和结构的数据，疾病的亚型分类、预后分析，以及药物靶点识别、精准用药指导和药物风险等。人工智能技术通过融合和挖掘多模态大数据，可以加速实现疾病的精准治疗。本白皮书收集了目前国内外人工智能与生物信息处理交叉的最新理论研究成果，并介绍了人工智能技术在生物信息学和精准医学等领域中的应用。编写过程中，参考了国内外从事相关研究工作者的资料，在此一并表示感谢。中国人工智能系列白皮书智能生物信息处理 2019 1 目录前言.1 第一章人工智能与非编码基因 RNA.1 1.1 人工智能与非编码 RNA 概述.1 1.2 人工智能与非编码 RNA 识别.2 1.2.1 miRNA 的计算识别.2 1.2.2 lncRNA 的计算识别.3 1.3 人工智能与非编码 RNA 调控网络建模技术.4 1.3.1 miRNA 调控网络的构建.5 1.3.2 lncRNA 调控网络的构建.6 1.4 人工智能与非编码 RNA 二级结构建模技术.7 1.5 非编码 RNA 与蛋白互作建模技术.9 1.5.1 提取互作模型的序列特征信息.10 1.5.2 构建互作模型的随机森林分类器.10 1.5.3 构建互作模型的卷积神经网络.11 1.5.4 贝叶斯方法识别非编码 RNA 与蛋白的相互作用.11 中国人工智能系列白皮书智能生物信息处理 2019 2 1.6 人工智能在非编码 RNA 中的发展前景.12 第二章人工智能与宏基因组.13 2.1 人工智能与宏基因组概述.13 2.2 智能算法在宏基因组数据中的应用.16 2.2.1 Beta 多样性：宏基因组间的相异度度量.16 2.2.2 Alpha 多样性：宏基因组混合片段数据的拼装.19 2.2.3 Alpha 多样性：宏基因组混合片段的聚类.21 2.2.4 宏基因组内部物种关系网络构建.23 2.2.5 宏基因组的功能分析.24 2.2.6 宏基因组关联性分析.26 2.3 智能算法在宏基因组分析中的应用.27 2.3.1 大型宏基因组项目.27 2.3.2 宏基因组与人体健康.28 2.3.3 宏基因组与环境.30 2.3.4 宏基因组的其他影响.30 2.4 人工智能在宏基因组中的发展前景.31 第三章人工智能与生物网络.32 3.1 人工智能与生物网络概述.32 中国人工智能系列白皮书智能生物信息处理 2019 3 3.2 人工智能在生物网络中的应用.35 3.2.1 加权基因共表达网络.35 3.2.2 网络节点嵌入.36 3.2.3 图神经网络.37 3.2.4 异质性网络的嵌入.39 3.3 人工智能在基因网络中的发展前景.40 第四章人工智能与基因编辑.43 4.1 人工智能与基因编辑概述.43 4.2 CRISPR-Cas 基因编辑系统概述.45 4.2.1 CRISPR-Cas 基因编辑系统的来源与发展.46 4.2.2 CRISPR-Cas 基因编辑系统的主要类型.52 4.2.3 CRISPR-Cas 基因编辑系统的作用机制.58 4.3 常见 CRISPR-Cas 基因编辑系统优化工具.60 4.3.1 CRISPR-SpCas9 基因编辑系统打靶效率优化工具.61 4.3.2 CRISPR-SpCas9 基因编辑系统脱靶优化工具.65 4.4 基于浅层学习的 CRISPR 打靶效率预测.67 4.5 基于深度学习的 CRISPR 打靶效率预测.78 4.5.1 向导 RNA 编码模型.80 中国人工智能系列白皮书智能生物信息处理 2019 4 4.5.2 深度打靶效率预测系统.81 4.6 基于深度学习的 CRISPR 脱靶分布预测.86 4.6.1 数据编码.88 4.6.2 深度全基因组脱靶分布预测系统.89 4.7 人工智能在基因编辑中的发展前景.96 第五章人工智能与疾病智能诊断.98 5.1 人工智能与疾病智能诊断概述.98 5.2 智能诊治的应用实例.100 5.2.1 智能诊治在消化系统疾病中的应用.100 5.2.2 智能诊治在呼吸系统疾病中的应用.103 5.2.3 智能诊治在骨质疏松症中的应用.104 5.3 人工智能在疾病诊治中的发展前景.107 第六章人工智能与药物开发.108 6.1 人工智能与药物开发概述.108 6.2 药物开发智能分析.110 6.2.1 药物靶标识别.110 6.2.2 药物重定位.120 6.2.3 药物靶向的相互作用预测.124 中国人工智能系列白皮书智能生物信息处理 2019 5 6.2.4 药物相互作用与药物组合预测.126 6.3 人工智能在药物开发中的发展前景.128 第七章人工智能与基因组分析.132 7.1 人工智能与基因组分析概述.132 7.1.1 基因组的定义.132 7.1.2 测序技术的发展历史.132 7.1.3 主要研究问题与领域.134 7.1.4 人工智能在基因组中的应用.140 7.2 基因组组装.141 7.2.1 基因组组装概述与挑战.141 7.2.2 基因组组装中的人工智能算法.144 7.2.3 碱基识别的人工智能算法.145 7.3 变异识别.148 7.3.1 变异识别概述.148 7.3.2 变异识别的主要算法.149 7.3.3 变异识别的人工智能算法.150 7.4 甲基化识别.151 7.4.1 基因组甲基化与分析方法.151 中国人工智能系列白皮书智能生物信息处理 2019 6 7.4.2 甲基化位点主要检测算法.153 7.4.3 甲基化识别的人工智能算法.155 7.5 基因功能与可变剪接分析.157 7.5.1 基因功能注释与可变剪接预测.157 7.5.2 基因功能预测的人工智能算法.159 7.5.3 可变剪接预测的人工智能算法.160 7.6 调控基因组学.161 7.6.1 调控基因组概述.161 7.6.2 基序检测的人工智能算法.162 7.6.3 基因调控网络构建的人工智能算法.163 7.7 疾病基因预测.164 7.7.1 基因变异与复杂疾病.164 7.7.2 疾病基因预测的主要方法.165 7.7.3 疾病基因预测的人工智能算法.165 7.8 人工智能在基因组分析中的发展前景.169 参考文献.170 中国人工智能系列白皮书智能生物信息处理 2019 1 第一章人工智能与非编码基因 RNA 1.1 人工智能与非编码 RNA 概述非编码 RNA 是一种由 DNA 转录，但不会翻译成蛋白质的 RNA分子。越来越多的研究发现非编码 RNA 有着重要的生物学功能。非编码 RNA 种类繁多，其中包括 rRNA，tRNA，snRNA，snoRNA 和microRNA 等多种已知功能的 RNA1。随着高通量技术的不断发展，我们对 RNA 分子功能的理解有了新的认识。人工智能技术近年来发展迅速，机器学习与解决问题的能力大大提升。生命科学中通过高通量测序技术产生的大数据，正适合使用人工智能技术进行加工处理。非编码 RNA 的相关研究是目前生命科学重要前沿问题之一，相应的人工智能技术应用于研究非编码 RNA 的实践也愈加重要。非编码 RNA 的计算识别就是利用了人工智能技术来实现的。例如，microRNA(miRNA)最开始被认为是垃圾序列，但其调控功能被证实后，大量研究发现 miRNA 与多种生命活动相关。因此，miRNA 的识别有利于发现一系列生命过程的分子机制，但miRNA 前体具有特殊的发夹结构、结构与功能保守性等特征，传统的计算识别方法存在着 miRNA 识别率低，敏感性差等问题，此外miRNA 识别的实验方法成本高且用时长2。人工智能技术的出现，提供了更好的计算识别方法，其主要思路为：(1)分析 miRNA 相关的物理化学特征并结合其生物意义，提取特征。(2)选择数据集，通过机器学习的方法训练分类器模型。(3)对候选的 miRNA 序列进行特中国人工智能系列白皮书智能生物信息处理 2019 2 征提取，通过分类器模型进行预测，给出潜在的候选序列。可选择的分类器有：支持向量机(SVM)、随机森林、贝叶斯以及决策树3。很多非编码 RNA 通过 RNA 与蛋白质的互作实现它们的调控功能。因此，鉴定非编码 RNA 与蛋白质的相互作用对于理解非编码 RNA 的功能而言是必不可少的一步。然而，目前用于鉴定非编码 RNA 与蛋白质相互作用的生物实验技术花费相当昂贵且耗时，而利用人工智能技术对非编码 RNA 与蛋白质的相互作用进行预测，其结果较为准确且成本相对较低。非编码 RNA 可以通过与蛋白质或者其他分子结合来开启或者关闭基因，进而达到控制基因表达作用的目的。并且，非编码 RNA 与多种疾病的发生有关，而目前对非编码 RNA 的研究了解甚少。随着科学技术的不断进步，将人工智能技术应用于非编码 RNA 具有广阔研究前景。1.2 人工智能与非编码 RNA 识别 1.2.1 miRNA 的计算识别的计算识别 miRNA 通过与靶基因 3UTR 碱基互补配对来发挥调控功能4。虽然 miRNA 序列中部分碱基在进化中可能发生改变，但 miRNA 与靶基因结合的种子序列具有严格的保守性。基于机器学习的方法不依赖于序列的保守性，将已知的 miRNA 作为阳性集，非 miRNA 作为阴性集，选择包含序列和结构的特征，如发夹结构的最小自由能、茎序列、环的长度和序列重复等，训练分类器模型，将模型运用于不同的数据，从而预测新的 miRNA5。然而，基于机器学习的方法的准确度高度依赖于已知 miRNA，因此，阴性集和阳性集的选择至关重要。中国人工智能系列白皮书智能生物信息处理 2019 3 RNAmicro 方法通过整合序列分析和结构预测来识别新的 miRNA。通过RNAz和EvoFold等工具在全基因组上生成的ncRNA的统计结果，预测 pri-miRNA，识别出潜在的发夹结构 pre-miRNA，分析考虑结构和热力学特性的特征，来预测新的 miRNA6。MiRFinder 方法比较了相关物种的序列，利用 18 种不同的特征，例如：最小自由能，成熟miRNA 的碱基配对、二级结构元件的频率等，从候选的 miRNA 集合里识别出发夹结构。由于大量的序列可以形成类似于 miRNA 前体的发夹结构，因此该方法通过随机检验评估预测 miRNA 的统计学显著性，从而降低方法的假阳性率7。ProMiR 方法基于隐马尔可夫模型，通过序列比对来识别 miRNA8。上述方法都能比较准确地识别出miRNA，但当前的研究无法判断选择的阴性集中是否包含 miRNA 行使功能的发夹结构，这在一定程度上限制了这类方法的准确性。1.2.2 lncRNA 的计算识别的计算识别基于机器学习的方法是识别 lncRNA 最常见的手段，这些方法在识别 lncRNA 时都表现出比较高的准确度和灵敏度。CNCI 方法是通过分析序列的内在组成来区分蛋白编码和非编码转录本的分类器。根据两条序列中相邻核酸三联体的不均匀分布，构建 6464 的三联体评分矩阵来评估序列，并使用滑动窗口作为补充以获得更加可靠的结果9。CNCI 旨在区分没有序列注释的编码和长非编码转录本，当序列缺乏注释时，CNCI 能够有效地解决这个问题。LncRNA-ID 方法是基于随机森林识别 lncRNA 的分类模型，使用随机森林来改进分类模型，使其能够处理不平衡的训练数据。LncRNA-ID 具有 11 个特征，这些特征可根据开放阅读框、核糖体和蛋白质的保守性进行分类。中国人工智能系列白皮书智能生物信息处理 2019 4 LncRNApred 在构造分类器之前，采用自组织特征映射聚类来选择更具有代表性的训练数据集，这在一定程度上增强了 LncRNApred 的性能。LncRNApred 选择最长的 ORF 和覆盖范围、GC 含量、k-mer、序列长度等作为特征，然后构建随机森林模型。LncADeep 是一种新颖的 lncRNA 识别和功能注释工具10，将深度学习算法深度置信网络中的集成序列固有特征和同源特征集成构建深度学习模型以识别lncRNA。LncADeep 是第一个考虑转录本全长和部分长度的工具，其构建的模型既针对全长的转录本又考虑部分长度的转录本。此外，该方法还整合 KEGG 和 Reactome 等生物通路数据，为候选的 lncRNA的功能注释提供准确的通路和功能模块，更加准确地预测新的lncRNA。PLIT 方法是一个新的比对工具，它使用 L1 正则化进行特征选择，使用随机森林分类器对序列进行分类11。该方法利用 LASSO优化模块在随机森林中进行迭代，LASSO 优化模块从训练集和验证集特征中选择最优特征集，总共共选择了包括 ORF 长度、ORF 覆盖度、GC 含量和密码子偏性特征等 31 个特征。PLIT 方法基于 RNA-seq数据集的转录序列来准确识别 lncRNA，提供了更优的特征，是一种强大的半监督优化方法12。1.3 人工智能与非编码 RNA 调控网络建模技术非编码 RNA 在生物体内发挥着重要的调控作用。多个不同的非编码 RNA 调控关系对可以形成复杂的调控网络。单个非编码 RNA的失调能导致整个调控网络的功能紊乱。许多疾病，例如癌症，都与非编码 RNA 的失调有着密切关联。非编码 RNA 根据其长度、二级中国人工智能系列白皮书智能生物信息处理 2019 5 结构的差异可以分为不同的类型，不同类型的非编码 RNA 在生物体内的作用机制及其功能具有差异性。随着人工智能技术的发展，高通量的进行非编码 RNA 调控关系的预测以及构建非编码 RNA 调控网络已经成为可能。然而目前的预测方法大多存在一定的假阳性，仍需后续实验对人工智能技术预测的调控关系进行验证。1.3.1 miRNA 调控网络的构建调控网络的构建成熟 miRNA 是一类长度约 22nt 的核苷酸序列，通过靶向调控基因的表达参与到多种生物学过程中。例如，成熟的 miRNA 可以与mRNA 的 3UTR 互补结合，抑制 mRNA 的翻译或者降解 mRNA，从而达到抑制基因表达效果13。传统实验的方法可以检测 miRNA 与靶基因的调控关系，然而实验的方法通量低且花费较高。随着人工智能技术在生命科学领域的应用发展，目前已开发许多 miRNA 调控算法工具以及调控关系数据库，例如常用的 miRNA 靶预测算法targetScan，它通过寻找基因的 3UTR 与 miRNA 种子序列的匹配模式来识别 miRNA 结合位点，预测 miRNA 靶基因。PITA 预测算法根据位置特异的规则和物种之间保守性来评估 miRNA 靶向特征，该方法设计了一个用于 miRNA-靶基因互作的无参数模型，计算从miRNA-靶基因复合物中获得的自由能与解除配对关系所耗费的能量差来评估靶向的可能性14。此外，还有些算法可以利用 CLIP-seq 数据预测 miRNA 靶基因。micro MUMMIE可以针对每个 miRNA和每个可能的靶位点评估已知与 miRNA 诱导的沉默复合物(miRISC)和 miRNA 靶点之间的相互作中国人工智能系列白皮书智能生物信息处理 2019 6 用的特征15。其结合了 miRNA 的进化保守性特点，miRNA 的种子匹配的类型，以及在 CLIP 数据和峰的序列组成，利用多变量马尔可夫模型识别 miRNA 靶点。PARma 算法利用 Ago-PAR-CLIP 实验的完整数据研发的分析软件，能够用来鉴定 microRNA 的靶点以及与这些靶点结合的 microRNA，其将实验的数据特征整合到模型中，将模型和新的匹配模式迭代地应用于数据来估计种子活动概率、聚类置信度得分并分配最可能的 miRNA16。总之，不同的 miRNA 靶点预测方法基于不同的假设和模型，而预测 miRNA-mRNA 相互作用的工具旨在获得准确的结果。然而，目前 miRNA 靶预测算法仍具有高假阳性率，miRNA 靶点的相互作用的准确预测研究仍然具有挑战性。为此，必须权衡每个预测工具使用的生物学方面的特征，通过获取 miRNA 与基因的靶关系，构建在不同状态下的 miRNA 调控网络。1.3.2 lncRNA 调控网络的构建调控网络的构建 lncRNA 是一类长度大于 200nt 的长链非编码 RNA，虽然不具备蛋白编码能力，但是在细胞内发挥重要调控作用。lncRNA 可以与mRNA 共享 MRE（miRNA 响应元件），作为 miRNA sponge 间接调控基因的表达。starbase 数据库利用人工智能技术，收集了 lncRNA作为 ceRNA(competing endogenous RNA)的调控关系17。此外，lncRNA 还可以作为转录因子 scaffold 参与转录调控的过程中，调控基因的转录过程，从而调控基因的表达。人工智能技术可以挖掘 lncRNA 作为 scaffold 的调控关系。中国人工智能系列白皮书智能生物信息处理 2019 7 LncReg数据库收集了lncRNA与基因的调控关系，该数据库收集1081个经验证的 lncRNA 相关调控关系，包括 258 个非冗余 lncRNA 和 571个非冗余基因18，提供 lncRNA 调控网络和生物信息学研究的综合数据，这对理解 lncRNA 的功能具有十分重要的作用。目前有许多数据库可以调控 lncRNA，例如 lncRNA2target 收集了敲除或过表达lncRNA 的表达谱数据，将 lncRNA 的靶基因视为差异表达的基因，并开发了一个名为 LncRNA2Target 的数据库来收集、存储实验验证的 lncRNA-mRNA 靶点之间的关联关系。这个数据库不仅有助于计算研究人员对公开的 lncRNA 靶点进行综合性的分析，而且还能让实验科学家们能在其他相关公共数据的背景下分析自己的数据，大大加快lncRNA 的靶基因的研究进程。目前大部分关于 lncRNA 与基因调控网络的研究均基于 ceRNA假说，然而 lncRNA 许多其他的调控功能正在进一步的挖掘、研究，lncRNA 的功能多样性同时也使得调控网络变的复杂，lncRNA 作为调控元件参与到多个生物学过程的研究还有待深入探索。1.4 人工智能与非编码 RNA 二级结构建模技术 RNA 的二级结构是核苷酸链弯曲、折叠自身互补配对形成的，RNA 通过特定的二级结构发挥生物学功能。非编码 RNA 的二级结构通常比序列本身保守性更好，可用于研究 lncRNA 在不同物种之间的进化特征。此外，RNA 二级结构中的一些模体(motif)，例如发夹结构，可以在某些生物学调控过程中发挥重要作用。我们常见的 tRNA即转运 RNA，它拥有三叶草结构，在蛋白质翻译过程中发挥重要的中国人工智能系列白皮书智能生物信息处理 2019 8 作用。常见的 RNA 二级结构类型有：茎环结构(stem-loop)、假结(pseudoknots)、发卡(hairpin-loop)等。准确的二级结构预测方法对于理解 RNA 功能起着重要作用。目前大部分二级结构预测方法工具主要根据进化保守性进行同源模建，然而由于非编码 RNA 的序列保守性较差，结果往往并不理想。随着人工智能技术的发展，我们可以利用人工智能进行非编码 RNA 二级结构预测。常用的非编码 RNA 二级结构预测方法是 RNAfold，该方法基于动态规划算法进行建模，能够快速并高效的预测 RNA 的二级结构，并计算预测二级结构下的最小自由能19。RNA 在折叠自身互补配对形成复杂二级结构的过程中，往往会匹配更多的核酸达到一个稳定的状态，还可以通过最小自由能，根据序列特征预测 RNA 二级结构。计算方法一下两种，一是通过包括伪假结的结构对的预测。二是通过找到一组同源序列共有的二级结构来改进结构预测准确性。此外，集成学习的方法可以用来预测非编码RNA 的二级结构，集成机器学习方法比使用单个的学习方法得到的结果更加准确。除此之外，随着人工智能技术的发展，深度学习技术愈加成熟，同样可以应用于非编码 RNA 的二级结构预测。预测 RNA 的二级结构对于研究其功能至关重要，但确定 RNA 二级结构具有一定难度，特别是对有假结的 RNA 的二级结构进行预测。DMfold 是一种基于深度学习的预测方法，可以在已知结构中学习相似的 RNA 来预测 RNA的二级结构。该方法在多序列中使用相似的 RNA 序列而不是高度同中国人工智能系列白皮书智能生物信息处理 2019 9 源的序列，因此减少对辅助序列的需求。在 DMfold 中，只需要输入目标序列就可以预测二级结构，其折叠参数通过深度学习自动完全提取，可以避免单序列方法中缺少折叠参数的问题，也缩小了用户自定义参数导致的差异19。HotKnots 同样是一个启发式的算法预测非编码 RNA 二级结构，包括预测二级结构中的假结，它使用了动态规划算法组装假结的结构，使用自由能最小化算法用于假结的二级结构来识别候选茎环结构，对计算结果中的最低自由能进行排序，这样可以预测几个潜在的二级结构并进行深入筛选，更为准确的刻画 RNA 二级结构的潜在特征20。总而言之，利用人工智能技术预测非编码 RNA 二级结构的方法众多，大多数是基于最小自由能和基于序列同源的方法。这些人工智能技术的方法可以从头预测非编码 RNA 的二级结构，研究分析对已知序列的非编码 RNA 的二级结构，为生物学家研究非编码 RNA 的分子功能提供参考。从头预测甚至突变后的非编码 RNA 的结构，研究突变对非编码 RNA 的结构的影响，使得科学家可以预测突变前后的 RNA 结构变化，进一步研究突变对 RNA 功能的影响，这对研究非编码 RNA 的功能有着十分重要的作用。1.5 非编码 RNA 与蛋白互作建模技术很多非编码 RNA 通过与蛋白质的互作来实现它们的调控功能。因此，识别非编码 RNA 与蛋白的相互作用对于理解非编码 RNA 的功能具有重要作用。然而，目前用于鉴定非编码 RNA 与蛋白质相互作用的生物实验技术花费相当昂贵且耗时。因此，建立一个准确的计中国人工智能系列白皮书智能生物信息处理 2019 10 算预测模型已经成为识别非编码 RNA 与蛋白相互作用不可或缺的方法21。近年来人工智能技术在生命科学研究中应用广泛，使得很多生物学问题有了更好的解决方案或得以解决。近年来，虽然监督学习和非监督学习两种方法在 RNA 与蛋白相互作用的研究上都取得了很好的效果，但是它们仍然有缺点以及可以改进的空间。大量研究发现，非编码 RNA 与蛋白质相互作用具有序列特异性22，这一研究表明该序列携带足够有用的信息用于预测非编码 RNA 与蛋白的相互作用。1.5.1 提取互作模型的序列特征信息提取互作模型的序列特征信息目前用于研究预测非编码 RNA 与蛋白相互作用的第一步往往是分别对非编码 RNA 序列与蛋白序列进行特征提取，一般用奇异值分解(SVD)将非编码 RNA 序列从 k-mer 稀疏矩阵转化为特征向量。为了进一步提取隐藏的高级特征信息，可以使用深度学习中 SAE(Stacked Auto-Encoder)算法23。SAE 算法是一种无监督特征学习方法，它与大多数深度学习一样逐层学习原始数据的各种表达式，基于前一层的表达特征，每一层再提取出更抽象、更合适的复杂特征，以完成一些分类任务。SAE 能够从原始数据中自动学习高级特征，形成降维表示，已有科学家应用SAE与随机森林分类器完成非编码RNA与蛋白质相互作用的预测24。1.5.2 构建互作模型的随机森林分类器构建互作模型的随机森林分类器提取所需的特征后，先选择合适的分类器，对特征进行分类。目前常用且高效的分类器有支持向量机，神经网络，朴素贝叶斯以及随中国人工智能系列白皮书智能生物信息处理 2019 11 机森林等。预测非编码 RNA 与蛋白的相互作用时，将对各种分类器进行选择，旨在选择最准确、性能最好的分类器。随机森林分类器是用多个决策树训练和预测数据集，很多用于预测非编码 RNA 与蛋白质的相互作用所用的分类器正是随机森林。IPMiner，一种计算方法，是利用SAE从蛋白和非编码RNA的序列组成特征中挖掘出隐藏序列的交互模式，再将学习过的隐藏特征输入随机森林分类器，得到 RNA和蛋白的互作模型25。1.5.3 构建互作模型的卷积神经网络构建互作模型的卷积神经网络近几年来，深度学习在很多领域（如：语言识别、翻译、图像识别等）取得了巨大的成功，也在生命科学研究领域应用广泛。卷积神经网络是一种用来处理网格结构数据的特殊网络结构，该网络通过一系列的办法，将识别庞大数据量的问题进行降维，达到使其能够被训练的目的。卷积神经网络避免了显式的特征取样，采用隐式的方式从训练数据中学习。深度学习的研究方法在生物信息学领域也应用广泛。DeepBind 利用深度卷积神经网络训练相关序列，可以用来预测RNA 与蛋白质结合序列的特异性26。基于深度学习的方法在解决各种生物学问题上有着不错的表现，实际生活中人们常常采用特定的深度学习方法实现非编码 RNA 与蛋白质的相互作用的预测。1.5.4 贝叶斯方法识别非编码贝叶斯方法识别非编码 RNA 与蛋白的相互作用与蛋白的相互作用贝叶斯算法在统计学中是一种非常重要的分类方法，它是在已知对象先验概率的情况下利用贝叶斯公式计算它的后验概率。根据得到的后验概率选择其中最大概率的类作为该对象的类27。目前已经有两中国人工智能系列白皮书智能生物信息处理 2019 12 种识别蛋白质与 RNA 相互作用的贝叶斯分类方法，分别是朴素贝叶斯(NB)分类方法与扩展朴素贝叶斯(ENB)分类方法。这两种分类方法均只需输入蛋白质与 RNA 的初级序列，不需要任何其它信息。朴素贝叶斯分类模型是一个能够快速、准确预测蛋白质与 RNA 相互作用的分类器，并且特征之间是独立的，这符合朴素贝叶斯分类器的假设28。而扩展朴素贝叶斯分类器考虑到了特征之间的相关性，这样能够提供具有相关特征的准确预测。朴素贝叶斯模型特征独立性的假设，极大地降低了分类器的复杂程度，提高了估计参数的可靠性，特别是当输入数据集维数和可用的数据集的大小相比较更高时，估计参数的可靠性增加29,30。然而在实际情况当中特征之间存在着一定的相关性，而扩展朴素贝叶斯能够处理这种特征之间有着相关性的数据集，这种预测蛋白质与 RNA 的相互作用的扩展朴素贝叶斯分类器，已经通过了生物学实验的验证。1.6 人工智能在非编码 RNA 中的发展前景非编码 RNA 与蛋白之间的相互作用在很多生物过程中起着重要的作用，并且与多种疾病的发生息息相关。为此，识别非编码 RNA与蛋白的相互作用对于进一步研究非编码 RNA 功能具有重要的意义。随着科技的发展，人工智能技术应用于计算预测非编码 RNA 与蛋白的相互作用变得方便快捷，逐渐取代了技术花费昂贵的生物实验的主导地位。选择最合适的人工智能技术预测非编码 RNA 与蛋白的相互作用非常重要，这需要人们不断努力探索，找到最佳的预测非编码 RNA 与蛋白质相互作用的方法，发挥人工智能技术在生物信息学这一领域应用的优势。中国人工智能系列白皮书智能生物信息处理 2019 13 第二章人工智能与宏基因组 2.1 人工智能与宏基因组概述宏基因组(Metagenomics)，也称环境微生物基因组或元基因组，是指特定环境群落中全部微小生物 DNA 的总和。对于微生物而言，传统的研究方法是在实验室中对微生物进行繁殖和生长，但 99%以上的微生物无法在现有实验室条件下进行培养。因此宏基因组技术为观察微生物世界提供了一个强大的视角，高通量测序技术(High throughput sequencing technology)提供精细到碱基层面的分辨率，为人类对微生物世界的认知带来重要变革。技术的创新使得微生物群落的研究对象从最初的土壤迅速拓展到人体（肠道、口腔、皮肤等）、水体、大气、废水以及动植物体内的微生物。高通量测序技术将碱基序列随机打断后扩增，并行对几十万到几百万条 DNA 分子进行序列测定，得到几百万条读段(read)，每条读段的来源以及之间的相互关系尚未可知。因此，若将单个基因组序列视为一本书，高通量测序则是将该书撕成碎片后得到的数据集合。而宏基因组测序则是将许多不同种类且不同数量的基因组书籍混合撕碎后得到的混合数据碎片，测定无法获取碎片的源头书籍信息和碎片之间的相互关系。微生物群落的高通量测序有两种对象：早期出现的是以 16S rRNA 为代表的扩增子测序。16S rRNA 是微生物中核糖体 RNA 的一个亚基，由于其普遍存在于一切原核生物细胞内，生理功能重要且稳中国人工智能系列白皮书智能生物信息处理 2019 14 定，因此可以用于研究群落的物种组成、物种间的进化关系以及群落的多样性，但分析精度常常无法达到种(species)的水平。但其测序成本低，且有较为成熟的基因标记(gene marker)数据库，在微生物群落的研究和分析中仍然占有重要的地位，类似的还有 18S rRNA 和 ITS 测序。真正的宏基因组测序数据是对环境样品中全部微生物的总DNA 进行高通量测序，是目前获取微生物群落数据最主要的技术。该技术除了获取物种组分、关系、多样性外，还可以进行基因和功能层面的深入研究，达到种甚至株(strain)水平的分析精度。因此，本主题主要介绍智能领域的方法在宏基因组测序分析中的应用。宏基因组测序数据可以视为从混合概率分布（例如，混合泊松分布）中抽取的观测值的集合，单个测序数据的大小在 100-101GB 之间。因此对微生物群落的多样性、物种组分、相互关系、功能及与宿主或者环境性状的关联性进行估计、预测与判断，是典型的大数据挖掘问题。科学家们广泛应用基于统计推断、机器学习、模式识别和深度学习等人工智能领域的技术和方法进行该方面问题的研究。基于微生物群落的宏基因组高通量测序数据的研究内容如图 2-1所示。其主要分析包括：(1)Beta 多样性分析，即多个微生物群落间的差异性度量和比较，可以理解为前文提到的不同堆的混合书籍碎片之间的差异性。(2)Alpha 多样性分析，即单个微生物群落内部物种的丰富度和组成成分，可以理解为前文提到的一堆混合书籍碎片数据中有多少种书、分别是什么书和数量有多少。(3)根据微生物群落内部物种的组分估计不同微生物之间的相互作用关系。(4)根据微生物群中国人工智能系列白皮书智能生物信息处理 2019 15 落内测序数据拼装出的长序列进行基因预测，从而进行群落内部的功能分析。(5)将微生物群落的组分、功能及序列信息与群落的某些表型特性相关联，进行宏基因组关联性分析，基于基因、物种和序列信息，识别不同组别的微生物群落间的组别特异标记物，例如特异基因、特异物种或者特异序列等。图图 2-1 宏基因组高通量测序数据研究内容宏基因组高通量测序数据研究内容以上提到的五个研究内容，本质都是建模为字符串的分类、聚类、预测或者优化问题，可通过统计模型、模式分类、智能优化和深度学习等方法进行研究和解决。但是在生物信息中，高通量测序数据文件大、样本数量相对少，因此不能直接套用自然语言处理、图像处理等领域现有的模型、方法和流程，需要针对具体的问题和数据，提出针对性的研究方案。中国人工智能系列白皮书智能生物信息处理 2019 16 2.2 智能算法在宏基因组数据中的应用 2.2.1 Beta 多样性：宏基因组间的相异度度量多样性：宏基因组间的相异度度量 Beta 多样性分析，又称生境间的多样性(between-habitat diversity)，是指生境群落之间物种组成沿环境梯度不同的相异性或物种沿环境梯度的更替速率，可以通过计算多个微生物群落间的差异性进行度量，其本质是基于高通量测序得到的百万短序列(reads)，度量不同测序数据之间的差异性。2.2.1.1 基于序列配准的相异度度量传统的序列比较主要基于序列配准，例如 SmithWaterman 算法36和 BLAST37等，虽然相对精确，但是存在以下限制38,39：(1)依赖于参考基因组或者基因序列数据库。由于微生物中大量物种的基因组都未知或者不完整，会影响分析结果的准确性和完整性。现有研究表明，海水、人体肠道还有含有藻类的水域中的微生物群落，分别有1942%40、1020%41和高达 50%42的测序读段无法配准到参考数据库。(2)高通量测序数据得到的是短读段，需要拼装得到较长的序列(contigs)，由于微生物之间序列的重复或者接近，直接进行序列配准很难像完整基因组比对那样得到较精确的比对结果。(3)多序列比对是 NP 难问题，同时要耗费大量的时间成本和计算资源，因此科学家们开始探索免于配准的宏基因组间相异度度量方法。2.2.1.2 基于

展开阅读全文