1、生物信息学中不确定性和分类问题生物信息学中不确定性和分类问题邹 权(博士、副教授)厦门大学数据挖掘试验室http:/ M V.Human genetics:Dr Watsons base pairsJ.Nature,452(7189):819-820.HapMap计划/1000 Genome计划大数据第3页生物信息学中我国计算机学者算法阶段(1990-)朱大铭、姜涛、卜东波标注阶段(-)王晓龙、朱小燕等系统分析阶段(-)李衍达、张学工等大规模数据处理阶段(-now)华大基因第4页一些生物信息学中分类问题microRNA识别识别蛋白质功效预测基因表示数据分析全基因组关联分析第5页microRNA
2、识别诺贝尔奖-RNA干扰机制CCCCUCUAUUCACAAUUGUUUGGAACUCAGUUUUGUGAUUAUUCUAUCAUUGCCAGGGAGUUUGUGUGGUUGCAUCAGGGG第6页第7页第8页microRNA分类相关论文Chenghai Xue,Fei Li,Tao He,Guo-Ping Liu,Yanda Li,Xuegong Zhang.Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machin
3、e.BMC Bioinformatics.6:310(谷歌 scholar引用271次,截至.8.2)Peng Jiang,Haonan Wu,Wenkai Wang,Wei Ma,Xiao Sun,Zuhong Lu.MiPred:classification of real and pseudo microRNA precursors using random forest prediction model with combined features.Nucleic Acids Research.,35:W339-W344(谷歌 scholar引用239次,截至.8.2)Leyi Wei
4、,Minghong Liao,Yue Gao,Rongrong Ji,Zengyou He,Quan Zou.Improved and promising identification of human microRNAs by incorporating a high-quality negative Set.IEEE/ACM Transactions on Computational Biology and Bioinformatics.,11(1):192-201第9页microRNA与疾病关系图挖掘相同度度量、不确定性参考文件Jiang Q,Hao Y,Wang G,et al.Pri
5、oritization of disease microRNAs through a human phenome-microRNAome networkJ.BMC Systems Biology,4(Suppl 1):S2.Xuan P,Han K,Guo M,et al.Prediction of microRNAs associated with human diseases based on weighted k most similar neighborsJ.PloS one,8(8):e70204.第10页一些生物信息学中分类问题microRNA识别蛋白质功效预测蛋白质功效预测基因表
6、示数据分析全基因组关联分析第11页蛋白质功效预测问题输入:蛋白质序列,进行聚类、分类特殊蛋白识别-不平衡分类亚细胞定位-多类分类酶和多功效酶-多类,少许多标识功效预测-多示例、多标识二级结构、结构域-标注、HMM难点特征提取分类器第12页一些生物信息学中分类问题microRNA识别蛋白质功效预测基因表示数据分析基因表示数据分析全基因组关联分析第13页基因表示数据分析14/57第14页一些生物信息学中分类问题microRNA识别蛋白质功效预测基因表示数据分析全基因组关联分析全基因组关联分析第15页全基因组关联分析(GWAS)第16页GWAS难点高维小样本SNP-SNP相互作用结果可解释性前景疾病遗传机理遗传育种(作物、养殖)第17页总结机器学习在寻找生物信息学应用-分类、聚类、降维、不确定性结果解释和验证生物试验验证文件验证生物信息学在寻找机器学习数据量在增大统计学无法满足精度需要第18页邹权,Email:http:/第19页