概述化学信息学相关概念省公共课一等奖全国赛课获奖课件.pptx

资源描述

化学信息和化学信息学化学信息和化学信息学自从化学学科出现以来，信息记载、组织与交流对化学学科发展起了主要作用，同时也成为化学学科一个主要组成部分。这是因为化学试验统计资料含有久远时间意义。在化学学科中，化学家依据百年以前统计资料从事科学研究例子并不罕见。另外，化学物质结构统计与检索需要建立独特统计系统。伴随计算机技术发展，化学家必须建立自己信息表示、统计与管理系统，以适应时代要求。第1页化学信息化学信息化学信息可分为两大组成部分：化学物质化学信息化学物质化学信息：利用科学原理和方法经过测量得到化学成份相关信息，如物质物理、化学性质，物质中各成份定性、定量以及结构信息，分子间相互作用信息，化学反应信息等。媒体形式化学信息媒体形式化学信息：化学信息统计形式，如图书、期刊、专刊、专利、数据库以及音像资料等，经过化学信息传输使化学家们共享测量原理、方法及测量结果。化学信息学是近年来发展起来新学科，它产生与发展是基于化学信息量指数般增加，尤其是组合化学及高通量筛选快速发展。化学信息学产生与发展是与药品研究与开发息息相关，但它应用却覆盖化学学科各个领域，如农业化学、分析化学、合成化学、物理化学等。近年来，国际上已出版与化学信息学相关杂志，出现众多化学信息学企业，许多大学纷纷开设化学信息学课程，培养化学信息学人才。第2页1.1 化学信息学起源及历史化学信息学起源及历史1.1.1 信息学起源信息学起源上世纪40年代，以申农（CEShannon）通讯数学理论、维纳（NWeiner）控制论动物和机器中通讯与控制问题问世为标志，信息论诞生了，它是科学发展史上里程碑，其伟大贡献和深远影响是前所未有。1959年，美国宾夕法尼亚大学莫尔电子工程学院首先应用了“信息科学”概念，这一概念既包含了信息理论又包含了信息技术。出现了：以计算机为代表“计算机信息科学”；以文件处理自动化为代表“图书馆信息科学”和以申农通讯信号计量理论为关键“全信息信息科学”。三者共同特征是：仅研究特定领域中一些信息，对其它领域中信息不予充分关注与考虑。上世纪60年代初，以申农信息论为基础信息科学得到了一定发展，新概念和新理论不停涌现。第3页20世纪80年代以来，在申农原有信息论基础上分别在含糊信息、概率与非概率信息、语法信息、语义信息、语用信息等方面做了大量工作。在此基础上，人们提出了广义信息论。1982年美国普林斯顿大学马克卢普（FMchlup）在美国聚集了当初不一样信息研究领域众多学者发起了一个信息多学科交叉研究运动，信息理论研究开始向其它科学领域渗透和扩展，诞生了40各种部门信息学，并发表了继申农、维纳之后又一本经典著作信息研究：学科之间通讯。1994年，德国一批学者又发起了一个新交叉信息科学研究运动，开拓了部门信息学一些新领域。即使，研究范围愈加广泛，不过，并没有做出实质性评论与创新性理论。90年代后期，部门信息学得到了蓬勃发展，除了增加了新组员，而且，关涉到了自然科学和社会科学众多前沿问题。其中较有影响部门学科是：生物信息学，物理信息学，还有经济信息学，人类信息学等等。据统计当前大约已经有50余种部门信息学。第4页1.1.2 化学信息学起源与历史化学信息学起源与历史 20世纪60年代以来，计算机与化学结合形成了计算机化学。经过近40年发展，计算机化学几乎在化学每一分支领域都取得了丰硕结果，计算机已成为化学研究主要工具之一。20世纪80年代以来，Internet飞速发展，逐步成为各种信息资源传递主要载体，包含基于化学信息网站、化学信息数据库、远程化学教学等内容化学信息网络化趋势也日趋形成。化学与internet成为一个非常活跃、进展惊人新兴交叉领域。伴随计算机化学不停发展和化学信息网络化不停普及，一个崭新化学分支学科“化学信息学(Chemoinfiormatics)”应运而生。“化学信息学”首次出现于1987年诺贝尔化学奖取得者J.M.Lehn教授获奖汇报中。JMLehn在研究复杂分子反应过程中发觉分子含有自组织、自识别化学智能反应现象，识别概念包含着信息展示、传递、判别和响应等过程，这就是化学信息学研究开始。第5页化学界教授学者们正试图以新方式和方法建立化学信息周期表。国外一些大学开设了化学信息学课程并确定为硕士研究方向，从事研究、管理和开发化学信息团体、机构和企业也相继出现。美国化学会化学信息分会和图书馆协会在Indiana大学成立了化学信息教学资料交换中心（The Clearinghouse for Chemical Information Instructional Materials(CCIIM)），负责搜集、公布和分发化学信息源。美国化学会还设置了化学信息教育委员会（American Chemical Society Division of Chemical Information Education Committee）。美国、欧洲、澳大利亚很多大学开设了化学信息学类课程。在国内，化学教学指导委员会已将化学信息学列入化学教学基本内容，北京大学化学学院已设置课程并编写了讲义，南京大学、复旦大学及我校等高校也相继开设了该课程。第6页1.2 化学信息学概念及研究内容化学信息学概念及研究内容1.2.1 化学信息学概念化学信息学概念 1987年J.M.Lehn教授首次提出化学信息学概念以后并没有深入深入研究这一概念本质，但我们能够看出，当初化学信息内在含义应为分子间相互作用或相互识别相关信息，而化学信息学应为研究分子间相互作用实质或识别机理一个学科，主要目标是为解释超分子形成过程提供依据。当前化学信息学内容愈加强调了化学文件、化学信息数据库、尤其是Internet中化学资源等内容。第7页化学信息学还没有统一被广泛接收定义及英文名称。当前最通用为 Chemoinformatics及 Chemical informatics。也有用Cheminformatics，Chemi informatics。也有些人把Chemical information Science及Molecular Informatics称为化学信息学。与化学信息学相关术语有 chemi-informatics，chemometrics，computational chemistry，chemical informatics，chemical information management/science，和cheminformatics等等。美国印第安那大学(Indiana University)在国际上最早在化学图书馆科学基础上开设化学信息课程及培养化学信息学硕士，他们把化学信息学定义为：化学信息学包含从利用传统图书馆科学方法组织化学信息到利用当代计算机技术产生、存放、检索及可视化化学信息。第8页定定义义1：Frank Brown于1998年把化学信息学定义为：应用信息技术和信息处理方法已成为药品发觉过程中一个很主要部分，化学信息学实际上是一个信息源混合体。把各种化学数据转化为信息，把信息提升为知识，其主要目标是在药品先导化合物发觉及组织过程变得更有效。这个定义太偏重于药品化学，实际上，化学信息学在其它领域如农业化学也有广泛应用。(“The use of information technology and management has become a critical part of the drug discovery process.Chemoinformatics is the mixing of those information resources to transform data into information and information into knowledge for the intended purpose of making better decisions faster in the area of drug lead identification and organization”F.Brown,Annual Reports in Medicinal Chemistry,33,375-384(1998)第9页定定义义2：M.Hann 和R.Green 认为化学信息学是处理化学老问题一个新名称（“Chemoinformatics-a new name for an old problem”，Current Opinion in Chemical Biology,3,379-383(1999)）。定定义义3：Greg Paris在1999年8月ACS会议上提出了一个更普通性定义，他认为：化学信息学是个普通术语，它包含化学信息设计、建立、组织、管理、检索、分析、判别、可视化及使用。(“Chem(o)informatics is a generic term that encompasses the design,creation,organization,management,retrieval,analysis,dissemination,visualization and use of chemical information”G.Paris(August 1999 ACS meeting)。第10页定定义义4：将计算机技术应用到化学中一门组合技术，利用统计模型、计算和分析科学来了解化学数据主要性（“Chemoinformatics is the application of computer technology to chemistry;a combination of techniques and models in statistical,computational,and analytical sciences to understand the significance of chemical data.”）。定定义义5：“化学信息学是近几年发展起来一个新化学分支，它利用计算机和计算机网络技术，对化学信息进行表示、管理、分析、模拟和传输，以实现化学信息提取、转化与共享，揭示化学信息内在实质与内在联络，促进化学学科知识创新。”化学信息学是化学学科分支学科，其研究对象和研究目标均属于化学学科领域。它研究伎俩为计算机技术和计算机网络技术，研究内容则包含怎样利用计算机和计算机网络技术对化学信息进行表示、管理、分析、模拟和传输等。同时，化学信息学目标是为了实现化学信息提取、转化以及化学家之间资源共享，从而为促进化学学科发展与知识创新做出贡献。第11页1.2.2 化学信息学研究内容化学信息学研究内容(1)化学信息组织、管理、检索和使用化学信息组织、管理、检索和使用：化学信息可分为与传媒相关信息(如文件、图书资料、网络信息等)及与物质相关信息(各种试验数据，包含化学反应相关数据，谱学数据，射线晶体学数据，化学与物理性质数据，毒性及生物活性数据，与环境相关数据等)。化学信息形式包含：文字、符号、数字、形貌、图形及表格等。这些化学信息最主要组织、管理形式是形成数据库数据库。最早化学数据库是各种谱学数据库及剑桥晶体结构数据库。当前最完善化学信息系统是MDL系统、Beilstein系统及CA系统。据统计当前化学信息中58%已经组织为各种数据库系统，但其中只有12%能够相互转换，而化学信息经常是需要结合使用，要完成一项化学研究工作需要调用各种相关数据库。第12页化学信息学主要内容之一是怎样实现化学信息间关联及转化。化学信息管理、检索及使用包含化学信息快速有效检索及推理、判断。主要包括人工智能方法，最主要是化化学学教教授授系系统统。一个教授系统包含化学知识信息处理，化学知识利用系统、知识推理能力及咨询解释能力。20世纪60年代开发化学教授系统DENDRAL系统是最早教授系统。当前已经有各种化学教授系统用于不一样目标，如图谱解析教授系统、反应路线设计教授系统等。(2)分分子子结结构构编编码码、描描述述、三三维维结结构构构构建建：巨大数目分子结构编码及三维结构模型构建及各种形式结构表示，并能快速连接到合成路线，谱学数据，纯化技术等是化学信息学基础工作。第13页(3)化化学学信信息息加加工工、处处理理及及深深化化：化学信息加工处理包含数据预处理，回归分析，主成份分析，偏最小二乘，信号分析，模式识别，神经网络，遗传算法，含糊及随机算法等。它们能够帮助化学家正确分析、评价、利用现有化学信息并从中获取最大量有用结果，实现从数据到信息，从信息到知识转换。计算机模拟技术包含量子化学、分子动力学、蒙特卡罗方法及各种优化技术，近年来已取得重大进展，在药品开发，功效材料研制及生命科学领域都取得许多突破性结果。化学体系包括分子、超分子、超分子聚集体及聚集态等。在不一样尺度及层次化学体系会表现出不一样性质，称尺度效应。过去化学家主要着眼于微观体系，化学工程学家主要关注宏观体系，对于联络宏观与微观介观体系没有受到应有重视，所以相关介观体系信息及多尺度研究也应是化学信息学关注主要问题。第14页(4)计算组合化学计算组合化学：组合化学是当前化学家关注热门领域。它特点是以比较短时间及较少经费为快速合成大量化合物提供大量化学信息。但它面临组合数目过大，所谓组合爆炸，如此巨大数目标组合化学合成仍需要消耗大量人力与物力，万一失败就造成巨大浪费，所以需要经过计算组合化学方法建立虚拟组合化学库，然后在计算机上进行筛选，选择较少数目化合物进行组合化学合成。虚拟库构建要考虑分子相同性及差异性。虚拟库筛选包含基于靶酶结构利用分子对接方法进行筛选，或利用神经网络方法把已成药化合物作为训练集，把虚拟组合化学库作为预测集，把化合物区分为类药分子(Drug Like)及非成药分子(Non Drug compounds)。一个组合化学计算机系统应包含组合合成库设计，高维化学空间差异性质计算及影射，化学反应数据库系统和知识库系统，综合性化学多样性信息及生物试验数据管理系统，分子对接及构效关系研究等。第15页（5）化学体系中信息交换及传递化学体系中信息交换及传递：诺贝尔奖金取得者Lehn在1987年诺贝尔获奖演说中提出信息化学(Semiochemistry)概念。他认为化学信息寓于分子中，在分子间相互作用时读出化学信息，这些化学信息对于化学反应及性能起着调控作用。这方面研究包括分子识别、超分子建筑、分子结构学、晶体工程、分子器件等方面内容。但当前在国外文件中较少有些人把这方面内容纳入化学信息学范围。第16页(6)分分子子物物理理化化学学性性质质预预测测：当前已合成化合物数目已超出5107个，而虚拟组合化学库化合物数目可达亿万个。如此巨大数目标化合物无法全部完成它们物理化学性质试验测定，所以依据化合物结构预测化合物性质有主要意义和价值。利用量子化学及分子力学方法可预测许多主要分子性质，如：键长、键角、二面角、三维结构、药效构象、反应中间体、过渡态、电子性质、电荷分布、偶极矩、离子化势、电子亲和性、质子亲和性、极化、静电势、分子间相互作用、Wood World Hoffman规则、结合能、大分子间结合位点、pKa、分子能量、生成热、焓、活化能、势能面、反应路径、溶剂化能、光谱性质、振动频率、红外及拉曼强度、ESR常数、激活能、消光系数、传输性质、亲脂性、分子体积、分子表面积等等。第17页1.3 化学信息学惯用方法化学信息学惯用方法最早化学信息学方法和应用都是发表在美国Journal of Chemical Information&Computer Science(Journal of Chemical Information and modeling)杂志上。化学信息学研究最早内容之一是象结构描述符一类化学结构计算机表示。1.3.1 描述符和化学结构数据库获取描述符和化学结构数据库获取 20世纪80年代以前，计算机速度较慢，对化合物结构和子结构搜寻是一个极难问题，因为它们计算量都很大。为了找到在较慢计算机上能够进行化合物结构和子结构搜索非常切实可行方法，化学家们尝试了许多方法方便能够找到一个简练结构表示方法，如结构线性表示等。这种方法将化合物结构图转化成计算机很轻易识别和搜索字符串。数据搜索方法能够过滤掉许多不符合条件化合物，然后在小范围里再依据逐一原子搜索方法就会将搜寻化合物缩小到一定范围。第18页1.3.1.1 线性符号线性符号结构线性符号在一系列规则下将化学结构连接表转化为含有一定序列字符串。最早线性符号是Wiswesser 线性符号(WLN)。在上世纪60年代中期到80年代，WLN被认为是最好表示化学结构工具。即使WLN很有效压缩了化学结构数据，而且非常适合低性能计算机存放和搜索，不过，它编码让非专业人员极难看懂。以后Weininger又提出了一个新线性符号编码系统SMILES。因为SMILES和自然语言很靠近，所以有机化学家广泛应用该方法建立化学结构数据库。要想成功地表示化学结构，线性符号必须含有唯一性，即线性符号和化学结构之间必须是一一对应关系，WLN和SMILES就含有这么特点。第19页1.3.1.2 规范化规范化 WLN和SMILES都能够经过字符串匹配方法处理结构搜索问题。一个分子2D结构图能够经过数学算法规范化地变成一个实数，这些实数就被称为分子拓扑指数。不过两个不一样分子可能含有相同拓扑指数，所以，拓扑指数只能用于对分子筛选。拓扑指数概念最早是在QSAR和QSPR研究中提出。Wiener在1947年第一个报导了分子拓扑指数。假如分子和拓扑指数之间是一一对应关系，那么结构搜索就能够经过数据比较来完成。不过，子结构搜索依然要经过一个一个原子匹配算法来进行，这么就非常耗时。为了增强化学数据库搜索功效，必须要找到很好结构筛选技术。第20页1.3.1.3 筛选与搜索筛选与搜索为了防止使用逐一原子匹配，当前大都使用筛选方法。这种方法思绪是先定义一组子结构（官能团），用来过滤掉一些不可能结构。这些预先定义结构叫做搜索关键词。当前这些关键词都被MDL结构数据库系统搜集采取，在MDL结构数据库系统中，有166个搜索关键词和960个扩展搜索关键词。开始这166个搜索关键词是用166个字符串来表示，以后发觉使用166个二进制位比使用166个字符串更有效，因为计算机处理逻辑位操作要比处理字符串快多。第21页1.3.1.4 指纹指纹这种方法思想是用一些二进制位来表示指定子结构，假如有这种子结构该位置二进制数据为1，它表示对应子结构在此位置，0代表此位置没有指定子结构。这种二进制映射被称指纹。有许多类型分子指纹，其类型依靠使用是一套什么样子结构，比如：Daylight 使用指纹表示是由Daylight Fingerprint 软件包产生出来子结构，而MDL指纹表示是MACCS搜索关键词定义出来子结构。指纹方法大大地提升了化学结构数据库搜索性能。从线性符号字符串到指纹转变是化学信息学含有主要意义发展，有了指纹技术之后，我们能够计算两个不一样大小分子结构相同性。尽管两个分子可能含有不一样原子数和键数，它们有可能有相同数目标指纹，占用相同存放空间。第22页1.3.1.5 结构描述符及化合物结构库结构描述符及化合物结构库制药企业在上世纪90年带开始采取高通量筛选技术。快速结构出包含数千个化合物结构数据库已经成为一个主要课题，结构这么数据库目标是为了处理以下问题：(1)一个数据库里有多少种各类化合物？(2)在数据库中化合物和市场化合物相比有多少相同性？(3)应该怎样选择出一个子库，使其在结构上能表示整个库？(4)外来数据库能否作为该库在结构上补充？早期化学信息学使用了化学数据库概念，比如MACCS基于指纹搜索关键词和Daylight指纹，这些工具都能进行化学结构差异性分析。当前，子结构二进制映射不但能够表示结构描述符，也能够表示任何结构性质：如拓扑性质和3D性质各种分子指数、分子量和H-给体数等，现在有许多计算各种各样结构描述符无偿和商业工具。结构描述符是概括化学结构数据库最基本工具，而差异性则是当代化学信息学主要内容。第23页1.3.2 降降维维和和描描述述符符选选择择（Dimension reduction and descriptor selection）从数学角度而言，一个数据库若有n个化合物，而每个化合物用m(m 3)个描述符来表示，那么该库就是一个nm矩阵。即使我们都喜欢从各种各样图上来分析数据，但我们没有方法用图形来表示它们。为了处理这个问题，我们必须使用降维技术将数据转化为2D或3D。当前有许多降维方法，下面作一个介绍。1.3.2.1 多维规范化处理多维规范化处理（MDS）多维规范化处理(MDS)或人工神经网络(ANN)方法都是传统用于绛维方法。MDS是一个非线性映射方法。它不是一个准确方法，实际上是将研究对象移到一个指定维数定义空间上，然后检验对象之间在新空间中表示距离能否和原空间次序一致。换句话说，MDS使用函数最小化算法计算含有最大拟合目标不一样空间中数据。第24页1.3.2.2 自组织映射自组织映射(SOM)自组织映射(SOM)是人工神经网络一个。它是一个有效向量定量化算法，在高维输入空间中建立参考向量，并用一个规则方式在影射空间中用该参考向量近似输入模式。定义参考向量间局部次序关系使得它们之间相互依赖，这么它们近邻值好象都落在一个假设“弹性面”上。SOM 经过保留输入数据局部本质特征能够将复杂高维空间数据压缩或影射到二维空间上。第25页1.3.2.3 主成份分析与因子分析主成份分析与因子分析（PCA，FA）主成份分析(PCA)与因子分析(FA)在定量分析中通惯用于过滤多出描述符、排除包含信息量极少描述符。PCA能将大量含有潜在相关性变量（描述符）转变成一些相对独立变量，而且能够依据这些变量所包含信息量多少进行排列。经过变换变量包含了全部变量绝大部分信息，所以被称为主成份。第一个主成份包含信息最多，接下来每一个主成份都包含有一定信息，后面成份所包含信息往往极少，能够舍掉而不会失去多少信息。因子分析（FA）是经过对一数据矩阵进行特征分析、旋转变换等操作，以取得相关信息数学方法。所取得因子是原始变量线性组合，其数目总是比原始变量数目少。假如在PCA中主成份数和FA中因子数少于4，那么多维数据就能够在2D或3D空间中用图形表示了。即使PCA和FA都能够用于数据降维，但这种降维方法并不是适合用于任何情况，所以我们需要一个方法能将数据点和化学结构之间对应起来，这就是所谓化学结构相关数据可视化。第26页1.3.2.4 可视化化学结构可视化化学结构化学结构图是化学家们自然语言。因为将数据库里每一个化合物影射二维平面中一个点，所以很有必要找到一个轻易方法来识别每一个点所对应化合物结构。这种方法已经被一些软件如Spotfire 处理。1.3.2.5 描述符选择描述符选择（Descriptor selection）成功数据挖掘往往是建立在选择良好能反应分子结构和性质特征描述符基础之上。假如用一些不适当描述符来表示分子，就不可能得到一个合理可靠预测结果。要想正确选择描述符，必须要求对所要处理问题中一些计算关系有足够了解，通常相关性分析（Correlation analysis）及相关分析方法能够帮助我们对问题了解。选择描述符时应遵照以下标准：第27页（1）所选择描述符应该与生物活性相关（通常要进行相关性分析）；（2）所选择描述符应该覆盖面较广（即数据集有各种各样分布）；（3）所选择描述符相互之间应该是相对独立（假如有两个描述符之间含有很好相关性，建立模型所预测性质就会出现偏差）（4）所选择描述符应该是比较轻易取得，且易于化学家解释，不会发生改变或不相关转换，对噪音不太敏感，同时该描述符还应该在不一样种类模式（模型）中起不一样作用。一些研究表明，2D描述符有时比3D描述符在建模时更有效。数据挖掘目标就是建立与活性或性质相关模式。在分析数据时候，我们会把化合物库里化合物分成几组，在同一组里化合物应含有共同特征。这就要求分类，而模式识别算法就是用于分类。第28页1.3.3 分分类类和和模模式式识识别别（Classifications and pattern recognition）数据挖掘关键技术是模式识别。在化学信息学中，回归分析和分类是最惯用模式识别技术。回归分析通惯用于含有连续数据变量中，不过多数结构描述符都是离散或是布尔（Boolean）变量，所以就不得不采取分类方法来处理，如有指导和无指导学习算法。下面我们先来了解什么是模式（patterns）。1.3.3.1 模式模式研究人员要想从众多数据挖掘工具中找出适当模式，必须先对所研究问题有足够了解，即研究者应该事先知道他们研究问题模式类型。第29页第30页1.3.3.2 相同或距离矩阵相同或距离矩阵（Similarity or Distance metrics）许多模式识别技术需要距离或相同性度量方法来定量地衡量两个研究对象（象化学中经常研究分子）相同性。普通而言，Euclidean 距离，Mahalanobis 距离和相关系数是最惯用距离度量方法，Tanimoto系数惯用于计算布尔逻辑型(Boolean logic)数据之间相同性，它们计算方法以下：(1.1)(1.2)(1.3)(1.4)第31页1.3.3.3 聚类聚类（Clustering）聚类分析(CA)是由Tryon在1939第一个使用，实际上CA 包含了大量分类算法。一个最普通是怎样使用分类学将试验数据分成有意义不一样类别。CA方法就是为了处理这个问题。当前，已经有许多CA算法，总能够分成两类：即分级聚类和不分级聚类。分级聚类将研究对象按树状结构进行重新安排。Javis-Patrick是最早使用CA对化学结构进行聚类。正确聚类分析要依靠下面三点：(1)选取适当结构表示；(2)选取适当数据标准化方法；(3)选择适当聚类分析算法和适当参数设置。当大量试验数据试验条件和量刚不一样时，数据标准化是这些数据能够进行比较基础。第32页线性标准化：百分比标准化：Z-score标准化：普通地，线性标准化使用较多，Z-score标准化必须要求xi 符合Gaussian 分布。聚类分析一个缺点是在进行聚类分析之前必须先确定数据应该分成几类，而且不允许出现奇异数据。第33页1.3.3.4 分割聚类分割聚类（Partition clustering）分割算法也有许各种，如二杈树，非参数法等。因为极难使用回归或参数分类法对奇异数据类型进行分类，过多描述符也使得聚类分析无法进行，普通就用二杈树方法处理这类问题。当前最惯用二杈树算法是递归分割（recursive partitioning，RP）。有文章报道使用递归分割算法在一个小时内能将超出100,000 化合物和2,000,000 描述符进行分类。递归分割算法也可用于建立多元回归模型。一个最大优点就是分割算法和和聚类分析算法一样能够处理许多分类问题。第34页1.4 化学信息学软件开发及惯用软件化学信息学软件开发及惯用软件计算机与化学结合在上世纪60年代就开始为人们所重视，80年代以来得到快速发展。近二十多年来，因为计算机及网络技术不停发展，计算机技术与化学之间相互渗透已成为化学和计算机科学工作者研究热点，从而形成了一门新兴分支学科化学信息学。利用Internet这种全球化工具，化学工作者在自己办公室或家中就能够快速地获取过去难于取得或者需要经过许多方法和渠道才能取得信息，也能够经过Internet网快速地发表自己观点、研究结果等。计算机技术在化学中应用对化学工作者传统工作方法及思维模式产生了很大冲击，改变了化学工作者研究伎俩及工作环境，使得原来难以处理问题变得愈加轻易，如结构化学中许多计算。如今计算机技术在化学中已得到广泛应用，各种应用软件大量出现使得化学工作者愈来愈依靠这种技术来处理化学中问题。总来分，当前化学信息学应用软件主要包含为以下两个方面：第35页计算机开始用于处理化学中复杂计算计算机开始用于处理化学中复杂计算将计算机技术与化学仪器相结合从而到分析测试自动化、将计算机技术与化学仪器相结合从而到分析测试自动化、智能化是当前新仪器、新设备设计与制造主要发展趋势智能化是当前新仪器、新设备设计与制造主要发展趋势。伴随计算机技术不停发展与功效完善，计算机不再是一个简单计算工具，它正向智能化、网络化方向发展，这使得应用计算机技术能处理化学问题也愈来愈多。因为计算机主要是用数学方法经过计算来处理问题，其特点是能快速地进行大量复杂、繁琐数学计算，而化学是对化学物质进行认识、分析、合成及利用。所以，要想将计算机技术应用到化学中就必须处理化学与计算机结合问题。这方面研究包含两方面内容，即计算机与化学仪器接口、化学类应用软件程序包开发。第36页（1）计算机与化学仪器接口。其任务是研制计算机与化学仪器相接时软硬件运行环境，它包含试验数据采集与处理两方面内容。其方法是使用A/D或D/A转化技术将化学测量中模拟信号转化为计算机可识别数字信号或将计算机发出数字信号转化为化学仪器可识别模拟信号，进而实现对测试及工艺过程控制。测试仪器接口系统今后向模块式、智能化测试系统方向发展将是一个必定趋势。第37页（2）对采集数据处理，是经过不一样目标化学类应用软件程序包系统实现。化学信息学类应用软件程序包，主要是设计含有工具性应用软件程序包和处理化学问题数学程序。这方面国外有很多，如 Chemoffice、ChemWindow、ChemSketch、Scivision、Chemdraw、ISIS Draw系列化学办公软件、HyperChem系列程序、Tripos企业Sybyl系列程序、Caussian系列程序、Mopac系列程序、DENDRAL、CHEMICS、CASE、EXSPEC、PARIS等。由加拿大Advanced Chemistry Development Inc.企业制作Chem Sketch软件，其1.0版已作为无偿软件向大众推出，该软件能够从Internet上无偿下载：http:/WWW 我国在这方面起步较晚，唐敖庆等编制结构化学软件是我国较早自己设计化学类工具软件。清华大学CAI中心试验室开发写作系统THCAI，能够用它开发包含化学类CAI课件；安登魁等设计计算药品分析程序包，它包含35个惯用方法，可用于各种类型化学统计分析、分光光度分析、最优化、因子分析、聚类分析及模式识别计算。当前，在量子化学研究中用得最广泛计算程序是由1998年Noble化学奖取得者之一Pople设计Gaussian系列程序.。第39页1.5 化学信息学应用化学信息学应用 1.5.1 化学信息学在化学应用化学信息学在化学应用就其研究内容看来，化学信息学在化学研究中应用普通可分为四个方面，即，计算机与计算化学、计算机与应用化学、计算机与化学工程、化学数据库与教授系统。1.5.2 药品设计中应用（药品设计中应用（Applications in drug discovery）化合物选择（Compound selection），虚拟库建立（Virtual library generation），虚拟筛选（Virtual screening）。第40页1.6 化学信息学现实状况及未来化学信息学现实状况及未来化学信息学是用计算机研究化学反应和物质改变规律，实现化学知识创新科学。以计算机及其网络系统为工具，建立由化学化工信息发觉新知识和实现知识传输理论和方法；认识物质、改造物质、创造新物质和认识反应、控制反应过程和创造新反应、新过程是化学信息学研究主体。化学数据挖掘和知识发觉、计算机辅助结构解析、分子设计和合成路线设计等是当前化学信息学主要研究方向。1.6.1 计算机和信息技术大量用于计算机和信息技术大量用于药品筛选药品筛选传统药品筛选过程是先对动物进行各种指标试验，再进入人体临床试验，过程长，组合种类少，效率低。现在计算机技术甚至大型计算机应用于药品筛选，分子设计和建立基因图谱库等，大大提升了效率。上海药品所采取神威2号超大型计算机用于药品筛选，原来需要几年计算量，现在仅用几周时间。大量基因药品用计算机与基因图谱做对比，便于分析、基因修复和分子设计。所以，信息技术伎俩广泛采取将是医药产业未来发展重点。第41页1.6.2 生物学为化学信息学生物学为化学信息学带来新机遇带来新机遇生物基因工程尤其是人类基因组计划完成为化学信息学带来新机遇。许多化学信息学企业，已经开始了药品开发信息学平台研究，不过极难得到生物信息学方面合作搭档。当前这个领域竞争非常激烈，真正胜出者将是那些能够快速消除生物信息学和化学信息学鸿沟企业。1.7 化学信息学发展方向化学信息学发展方向1.7.1 并行优化并行优化技术技术在过去十年中，化学信息学在化学差异性分析方面已经取得了许多成就，如结构活性关系，虚拟药品筛选等。面临新挑战将是含有潜在和选择性并行优化以及经过建立预测模型对ADMET性质预测等问题。当前，依然没有一个综合并行优化处理系统。In silico ADMET 模型还不能被广泛接收和应用，因为该模型还不是十分地成熟，而且也没能完全覆盖医学化学家们考虑化合物范围。当前含有良好性能模型还只是集中在药品类似物、溶解性以及疏水性参数(logP)等方面。第42页1.7.2 化合物多样性和预测性之间矛盾大多数ADMET(Adsorption,Distribution,Metabolism,Elimination,and Toxicity 吸收、分布、代谢、排泄和毒性)、QSAR/QSPR模型都是建立在少量化合物数据集基础之上（化合物从几十到几百个）。这些模型经常被一些潜在使用者不太经意引用。所建立模型数据量如此之小一个很重要原因是在制药公司工作员工往往不愿将他们内部实验数据提供给大家让大家共享使用，而反过来他们往往又是这些模型潜在用户，这样就产生了一个矛盾。然而，结构活性关系（SAR）研究中一个更一般问题导致了一个更大矛盾，即模型预测性和化合物多样性之间矛盾。矛盾主要在于我们研究化合物种类和数量在不停地增加，而建立SAR模型所能包含化合物机会却越来越少。其次，当研究化合物种类和数量在不停地增加时，我们建立SAR模型中所包含信息内容应该随着增加。第43页1.7.3 从从数数据据挖挖掘掘到到知知识识发发觉觉（From data mining to knowledge discovery）高通量筛选技术（High Throughput Screening HTS），组合化学（CC）和其它一些新技术出现在化学领域产生了十分庞大数据，而且这些数据总量还在不停地以幂级数形式增加。当前药品设计就是在在这么庞大数据中寻找目标。因而，我们最主要目标就是能够从这些未经加工整理数据取得有用知识或信息。知识发觉（Knowledge discovery）定义为：经过非试验方法从大量数据中提取出化合物本身固有、未知以及潜在有用信息。在高通量筛选数据研究中就能够发觉如与早晨活性相关结构模式。知识发觉过程就是经过数据挖掘即使取得未被加工处理试验结果，然后将其转换成有用且轻易了解信息。然而，许多信息使用标准技术和方法是极难取得。知识搜索普通应该包含下面几个阶段：第44页数数据据分分析析探探索索，这个阶段目标是从分子中提取有用特征信息（描述符），尤其是挑选出相关特征信息(如生物活性相关描述符)，而且能够系统地识别这些特征之间关系。模模式式搜搜索索，这个阶段主要是用各种各样化学信息学技术和方法如多变量分类技术、一元或多元线性或非线性回归技术、教授系统方法以及各种网络模型来对各个化学信息之间建立一个适当模式，该模式应该能够尽可能准确地表示各原因之间关系。第45页模模式式解解释释，所建立任何模式都应该让化学家或生物学家能够解释。一些数据挖掘结果甚至能够直接提供给化学家使用，象拓扑结构参数一些模式。然而象一些统计学方法和神经网络方法结果极难让化学家解释和明白，所以许多模式，如去卷积技术和数据可视化技术等这些抽象模式必须得到深入解释，从而使化学家能更加好使用它。新新技技术术，化学信息学新技术发觉和使用，如支

展开阅读全文