支持向量回归用于氨基酸描述符.docx

资源描述

支持向量回归用于氨基酸描述符在肽QSAR建模中的性能评价（黑体三号、居中）应用化学 2008级学号2008123 张明康（宋体小四号、居中）任课教师印家健副教授（宋体小四号、居中）摘要：（宋体小四号、加粗、顶格）采用支持向量回归方法用3个数据集来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择，采用留一法交叉检验的结果显示径向基核函数要好于多项式核函数和线性核函数；在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符，且在同一描述符的情况下SVR的预测效果要好于其它线性方法，说明SVR在肽QSAR模型构建中是一个可行的方法。（中文用楷体小四号、英文用Times New Roman小四号、两端对齐）关键词：（宋体小四号、加粗、顶格）肽，定量构效关系，核函数，支持向量回归，性能评价（楷体小四号、两端对齐）（关键词间，用逗号隔开）多肽具有高活性、高选择性及副作用小的特点,是维持生命过程中必不可少的物质,目前已成为药物研究的热点之一。在多肽类似物的研究和开发中,定量构效关系(Quantitative structure-activity relationships，QSAR)是一个重要的理论计算方法和常用手段。所谓多肽QSAR,就是用数学模式来表达多肽类似物的化学结构信息与特定的生物活性强度间的相互关系[1,2]。多肽的化学结构描述符普遍采用氨基酸的结构描述参数去定量描述多肽的化学结构和性质，其基本思路是以多肽的最基本的结构信息——氨基酸序列为基础,对一系列多肽类似物中变化的氨基酸残基进行定量描述,并把氨基酸序列转换成结构描述符矩阵的一个向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有：基于实验的z-scales[1]、基于理论计算的ｔ-scales[3]、ISA(isotropic surface area)－ECI(electronic charge index)[4]、MS-WHIM scores[5]、PRIN[6]、c-scales[7]以及基于分子拓扑学的MHDV(molecular holographic distance vector)及其衍变的拓扑描述符[8-10]。在多肽QSAR数学模型方面，文献中常用的有多元线性回归（multiple linear regression, MLR）[10]、主成分回归（principal component regression, PCR）[8]、偏最小二乘（partial least squares，PLS）[1,4,5]和遗传算法与偏最小二乘法相结合（genetic algorithm-partial least squares，G/PLS）等方法[7]，但这些方法都是线性方法，且对高维、非线性、小样本问题的解析能力有限。目前，支持向量机[12]（support vector machine, SVM）已广泛的用于各学科领域[13-15],故我们尝试采用支持向量回归（support vector regression, SVR）[16]方法研究多肽QSAR数学建模，分别用48个苦味二肽、58个ACE(angiotensin converting enzyme)抑制剂二肽和30个缓激肽增效剂五肽等作为数据集，采用留一法交叉检验来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择，结果显示径向基核函数要好于多项式核函数和线性核函数；在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符，且在同一描述符的情况下SVR的预测效果要好于G/PLS和PLS等方法，说明SVR在肽QSAR模型构建中是一种可行的方法。（中文用宋体小四号、英文用Times New Roman小四号、段前缩进2个汉字，两端对齐） 1 支持向量回归算法[12,15,17]及其实现（中文用宋体四号、英文用Times New Roman四号、加粗，顶格、两端对齐，序号后空1格，不用标点符号）近年来，有限样本情况下的机器学习理论研究逐渐成熟，形成了一个较完善的理论体系—--统计学习理论[17]。支持向量机是Vapnik等人根据统计学习理论提出的一种新的模式识别方法，它是建立在统计学理论VC维（Vapnik-Chervonenks dimension）理论和结构风险最小原理（structural risk minimization inductive principle）基础上的，能较好地解决小样本、非线性、高维数等实际问题，并成功地解决了过拟合的控制问题，提高了算法的预报能力，并成功的应用于分类、函数逼近和时间序列预测等方面。而肽生物活性值的预测问题也可以看作是一种对活性值与其影响因子之间复杂的非线性函数关系的逼近问题，因此我们尝试将支持向量回归应用于肽活性值的预测建模并利用SVR方法来评价各氨基酸描述符在肽QSAR模型中的建模能力，以及分析多肽中各氨基酸性质对其活性值的影响。利用MATLAB语言及所带的优化工具箱可以很容易的实现上述算法。 2　数据来源及处理 2.1　5个重要的氨基酸描述符（中文用宋体小四号、英文用Times New Roman小四号、加粗，顶格、两端对齐，序号间用圆点隔开，最后空1格，不再用标点符号）利用SVR模型对氨基酸描述符作肽QSAR预测性能的评价，选用的5个氨基酸描述符见表1，其中code为20个天然氨基酸的单字母符。（表格采用三线表）（表题：中文用宋体五号、英文用Times New Roman五号、加粗，居中，表序后空1格，不用标点符号）（英文表题： Times New Roman五号、加粗，居中，表序后空2格，不用标点符号）表1　5个氨基酸描述符的数值 Table1 numerical value of five amino acid descriptors CODE z-scales c-scales ISA-ECI MS-WHIM PRIN Z1 Z2 Z3 C1 C2 C3 1 2 1 2 3 1 2 3 A 0.07 -1.73 0.09 -10.86 -4.42 -0.92 62.93 0.05 -0.73 0.2 -0.62 -1.02 -7.99 0.77 R 2.88 2.52 -3.44 12.33 9.68 -7.55 52.98 1.69 -0.22 0.27 1.00 -8.43 10.18 0.78 N 3.22 1.45 0.84 -2.49 6.57 2.43 17.87 1.31 0.14 0.2 -0.66 -8.00 0.33 -2.46 D 3.64 1.13 2.36 -3.18 8.31 5.46 18.46 1.25 0.11 -1.00 -0.96 -10.27 -0.38 -2.71 C 0.71 -0.97 4.13 -7.06 1.25 2.63 78.51 0.15 -0.66 0.26 -0.27 5.73 -3.30 -8.14 Q 2.18 0.53 -1.14 1.84 6.98 0.35 19.53 1.36 0.3 1.00 -0.3 -7.40 2.52 -0.92 E 3.08 0.39 -0.07 0.92 8.88 4.44 30.19 1.31 0.24 -0.39 -0.04 -8.82 1.43 -1.35 G 2.23 -5.36 0.3 -14.99 -2.54 1.97 19.93 0.02 -0.31 -0.28 -0.75 -4.64 -10.72 1.75 H 2.41 1.74 1.11 4.98 -4.48 4.2 87.38 0.56 0.84 0.67 -0.78 -0.93 3.33 -2.24 I -4.44 -1.68 -1.03 0.32 -4.02 -6.38 149.77 0.09 -0.91 0.83 -0.25 11.12 -1.95 1.82 L -4.19 -1.03 -0.98 0.41 -4.54 -6.56 154.35 0.1 -0.74 0.72 -0.16 9.40 -1.56 1.89 K 2.84 1.41 -3.14 5.14 4.11 -6.12 102.78 0.53 -0.51 0.08 0.6 -8.50 7.27 3.87 M -2.49 -0.27 -0.41 1.56 0.45 -3.22 132.22 0.34 -0.7 1.00 -0.32 7.88 0.31 -2.56 F -4.92 1.3 0.45 6.62 -6.97 2.68 189.42 0.14 0.76 0.85 -0.34 11.51 2.66 -0.48 P -1.22 0.88 2.23 -5.04 -4.65 -1.52 122.35 0.16 -0.43 0.73 -0.6 -1.36 -3.44 9.00 S 1.96 -1.63 0.57 -8.47 1.64 2.35 19.75 0.56 -0.8 0.61 -1.00 -6.60 -5.25 -1.13 T 0.92 -2.09 -1.4 -5.2 -0.82 -0.1 59.44 0.65 -0.58 0.85 -0.89 -4.09 -3.39 0.17 W -4.75 3.65 0.85 16.56 -8.23 6.03 179.16 1.08 1.00 0.98 -0.47 11.92 7.92 1.25 Y -1.39 2.32 0.01 10.36 -2.08 4.51 132.16 0.72 0.97 0.66 -0.16 4.80 6.33 0.05 V -2.69 -2.53 -1.29 -3.73 -5.14 -4.72 120.91 0.07 -1.00 0.79 -0.58 7.70 -4.27 0.63 …………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………. 3　结果与讨论在SVR模型中，通过依次去掉肽链中的每个氨基酸的z-scales中的一个值，根据模型LOO-CV法的PRESS值的大小可以判断每个氨基酸对此类肽类似物生物活性的影响。为此，以每去掉一个z-scales的模型（5个参数）的PRESS与原模型（6个参数）的PRESS的差值为纵坐标，以依次去掉z-scales中的一个值的顺序为横坐标作图（图2、图4、图6）。由于z1主要和氨基酸的亲水性有关、z2同氨基酸的立体大小有关和z3主要氨基酸的电性参数有关[5]。所以，由图2可知，PRESS在依次分别去掉第一、二位氨基酸的z1时升高很多，说明苦味二肽的活性主要与两个位置的疏水性性质有关，这与文献相一致[4]；PRESS在依次分别去掉第一、二位氨基酸的z2时略有升高，苦味二肽的活性主要与两个位置的立体大小性质弱相关；去掉z3时几乎没有变化，表明与其电性性质无关。图2　48个苦味二肽PRESS差值与去掉氨基酸性质位置 Figure 1 Plot of △PRESS and removed amino acid property position of a set 48 bitter tasting dipeptides with z-scales （图题：中文用宋体五号、英文用Times New Roman五号、加粗，居中，序序后空1格，不用标点符号）（英文图题： Times New Roman五号、加粗，居中，图序后空2格，不用标点符号）（图注：中文用宋体五号、英文用Times New Roman五号，居中） ……………………………………………………………… ………………………………………….. ……………………………………. ………………………………………. 参考文献（中文用宋体四号加粗，顶格、左端对齐，不用序号） [1]（Times New Roman五号、后空1格，不用标点符号） Hellberg S，Sjostroem M，Skagerberg B，et al. Peptide quantitative structure-activity re lationships,a multivariate approach [J].J.Med Chem，1987,30：1126－1135. [2] 丁俊杰，丁晓琴，赵立峰，等.多肽定量构效关系与分子设计[J].化学进展，2005，17：130－136. [3] Cocchi M，Johansson E.Amino acids characterization by GRID and multivariate data analysis [J]. Quant Struct-Act.Relat.，1993,12：1－8. [4] Collantes E R，Dunn W J III. Amino acids side chain descriptors for quantitative struc ture-activity relationship studies of peptide analogues [J].J.Med.Chem.，1995,3：2705-2713. [5] Zaliani A，Gancia E. MS-WHIM scores for amino ac ids： a new 3D-descriptor for peptide QSAR and QSPR studies[J]，J.Chem.Inf.Comput.Sci，1999,39：525－533. [6] Spyridon V，Boojala V B R，and Yiannis K.Prediction of distant residue contacts with the use of evolutionary information[J].Proteins：structure，function，and bioinformatics，2005，58：935－949. [7] 丁俊杰，丁晓琴，赵立峰，等.新型三维氨基酸结构描述符的研究及其在多肽QSAR中的应用[J].药学学报，2005，40(4)：340－346. [8] Shushen Liu，Chunsheng Yin，Shaoxi，et al，A Novel MHDV Descriptor for Dipeptide QSAR Studies[J].Journal of the Chinese Chemical Society，2001，48：253－260. [9] Shengshi Zhiliang Li，Bianhong Fua，Yuanqiang Wang，et al.On Structural Parameterization and Molecular Modeling of Peptide Analogues by Molecular Electronegativity edge Vector (VMEE)：Estimation and Prediction for Biological Activity of Dipeptides[J],Journal of the Chinese Chemical Society，2001，48：937－944. [10] Liu Shu-Shen，Yin Chun-sheng，Wang Lian-Sheng.Combined MEDV-GA-MLR Method for QSAR of Three Panels of Steroid,Dipeptides,and COX-2 Inhibitors[J].J.chem.Ipu.sci，2002，42：749－756. [11] Lin Zhihua，Wu Yuzhang，Quan Xuejun，et al.Use of a novel electrotopological descriptor for the prediction of biological activity of peptide analogues[J]. Letters in Peptide Science， 2002，9：273－281. [12] Nello Cristianini，John Shawe-Taylor著.李国正，王猛，曾华军译.支持向量机导论[M].北京：电子工业出版社，2004，98－106. [13] MANOJ BHASIN，G P S RAGHAVA.Analysis and prediction of affinity of TAP binding peptides using cascade SVM[J].Protein Science，2004，13：596–607. [14] 祁正兴，印家健，李梦龙，等.多环芳烃及其衍生物致癌性的支持向量机预测模型[J].四川大学学报（自然科学版），2005，42（6）：1213－1218. [15] 印家健，姜　微，李梦龙，等.降水pH值的支持向量回归预测模型构建[J].环境化学，2006，（2）：211－214. [16] Alex J S，Bernhrd S.A tutorial on support vector regression[J]. Statistics and Computing，2004，（14）：199－222. [17] Vladimir N.V 著.许建华，张学工译.统计学习理论[M].北京：电子工业出版社，2004. [18] Lau K W，Wu Q H.Online training of support vector classifier[J].Pattern Recognition，2003，36(8)：1913－1920. [19] Amendolia S R，Cossu G，Ganadu M L，et al. A comparative study of K-nearest neighbour, support vector machine and multi-layer perceptron for thalassemia screening[J]. Chemometrics and Intelligent Laboratory Systems，2003，69(1)：13－20. [20] Lachenbruch P A，Mickey M R.Estimation of error rates in discriminant analysis[J].Technometrics，1968，10：1－11.

展开阅读全文