收藏 分销(赏)

潜在语意索引在生医文件分类之应用.ppt

上传人:精*** 文档编号:12698873 上传时间:2025-11-27 格式:PPT 页数:28 大小:488KB 下载积分:10 金币
下载 相关 举报
潜在语意索引在生医文件分类之应用.ppt_第1页
第1页 / 共28页
潜在语意索引在生医文件分类之应用.ppt_第2页
第2页 / 共28页


点击查看更多>>
资源描述
,按一下以編輯母片標題樣式,按一下以編輯母片本文樣式,第二階層,第三階層,第四階層,第五階層,*,潜在语意索引在生医文件分类之应用,報告大綱,緒論,文獻回顧,研究架構與方法,實驗結果與分析,結論與未來展望,研究動機,2000年人類基因圖譜定序後,更加速基因體學、蛋白質體學的研究熱潮,巨量、多樣性的生物醫學文件不斷的出現在各種電子期刊上,美國,國家醫學圖書館(,National Library of Medicine,NLM,),國家生物技術資訊中心(,National Center for Biotechnology Information,NCBI,)是生醫專家搜尋生物醫學文獻的最佳管道,所有科學研究由文獻探討開始,2003年,12,000,000,2006年,16,000,000,研究目的,PubMed文獻資料庫,自動挑出蛋白質與蛋白質交互影響(Protein-Protein Interaction,PPI)的文獻標題及摘要,實驗重點,比較支援向量機(SVM)和貝式分類器(NB)在分類演算法對採掘生醫文獻的效果,探討使用潛在語意索引(LSI)特徵表示法及使用資訊獲利量(IG)關鍵字對PPI相關文件分類的影響,蛋白質與蛋白質的交互作用,所謂蛋白質與蛋白質的交互作用(Protein-Protein Interactions,PPI)係指細胞內的兩條蛋白質之間的交互作用,這種蛋白質與蛋白質間的交互作用,環環相扣形成一個巨大的網狀關係(如圖2.1),深刻地影響整個細胞生理作用的調節,圖2.1 蛋白質與蛋白質的交互關係圖,PPI文獻的相關研究,Marcotte et al,.,(2001),從MedLine中選出有PPI相關的260篇文獻,從這些文獻中選出80個特異字,利用貝氏機率理論,Craven and Kumlien(1999),將已審查和分類完成的文獻大約分成五類,利用類神經和貝氏機率,文字探勘,文字探勘(Text Mining),從,非(半)結構化,文件中,擷取隱晦有用的片段、模型或規則及未被發掘、有潛在價值的資訊或知識,技術:資訊檢索、資訊萃取、計算語言學、自然 語言處理、資料探勘技術、知識表示,應用:資訊搜尋、訊息過濾、知識萃取、知識管 理、決策輔助,文件分類的二個步驟,特徵的選取和文件的描述,利用適當的分類器進行自動化分類,潛在語意索引,潛在語意索引(Latent Semantic Index,LSI,),從文件字詞中發現隱藏語意的方法,克服一詞多義(Polysemy)和一義多詞(Synonymy)問題,主要理論基礎,線性代數中的奇異矩陣分解(Singular Value Decomposition,SVD)法,使用關鍵字的組合來描述文件集中潛在的槪念,SVD使用特徵縮減的方法,從原始的大量特徵中萃取出小量但顯著的特徵組合以降低資料雜訊,Examples of LSI,假設各分量所代表的關鍵字分別是,(數學,物理,化學,國文,英文,國畫,鋼琴,舞蹈),索引1:LSI,1,(1,1,1,0,0,0,0,0)潛在語意=科學,索引2:LSI,2,(0,0,0,1,1,0,0,0),潛在語意=語文,索引3:LSI,3,(0,0,0,0,0,1,1,1),潛在語意=藝術,有時潛在語意很難解釋,例如,索引4:LSI,4,(-1,-1,-1,0,0,1,1,1),LSI相關研究,Hull(1994),結合類神經網路與潛在語意索引應用在資訊檢索,Dasigi et al.(2001),結合LSI與類神經網路進行文件分類的研究,使用Reuters-22173文件資料集,國內部份,利用隱在語意索引進行文件分段之研究,應用在中文資訊檢索,自動化文件分類,資訊獲利量,資訊獲利量(Information Gain,IG)由 Quinlan 於1979 年提出,使用於 ID3決策樹演算法,資訊獲利量,測試前,的資訊量,測試後,的資訊量,資訊獲利量在文件分類中常被拿來,衡量詞彙,好不好的指標,關鍵字,資訊獲利量,cdc,cultur,promot,upstream,genom,bind,fusion,approach,0.01167,0.01157,0.00967,0.00709,0.00606,0.00595,0.00579,0.00576,支持向量機,支持向量機(Support Vector Machine,SVM,)1995年由貝爾實驗室的Vapnik 提出,以,統計學習理論,為基礎,運用於樣式分類的機器學習演算法,應用成功的領域,手寫識別、語音識別、人臉偵測、文件分類、光學辨識系,統、財務時間序列分析及垃圾郵件等,在高維度的空間中找出一個最佳化的分隔超平面(Optimal Separating Hyperplane,OSH,)來區分資料,使其與區分的兩類別資料間有,最大的邊界,使用Soft Margins解決資料的雜訊,支持向量機(續),貝式分類器,貝式分類器(Nave Bayes,NB,),以,機率理論,為基礎,用於分類預測的機器學習演算法,主要是以貝式定理(Bayesian Theorem)為基礎,用以判斷未知類別的資料應該最接近哪一個類別,PubMed,PreBIND,Yeast_POINT_170504.txt,Human_ POINT_170504.txt,Human_ POINT_300405.txt,PubMed,Searcher,Non_PPI Document,PPI Document,Extract Title and Abstract of Species,Stemming/Stop List,Vector Space(Term/Binary/TFIDF),Predict and Assess Performance,Machine Learning(SVM/NB),Feature Selection(IG/LSI),使用(PIScore0?PPI,:人工,判讀)對文件分類,實驗流程圖,實驗設計,實驗一,實驗二,實驗三,實驗物種,Yeast(2004),Human(2004),Human(2005),資料集,PPI=600篇,Non PPI=400篇,訓練&測試,Train=800篇,Test =200篇,特徵值選取,特徵表示,LSI、IG100,200,300,400,500個關鍵字向量模式=Term,Binary,Tfidf,驗證方式,k-次交叉驗證,,本實驗以,5-fold,來作,我們將測試資料集分成5等份,每等份具有相同筆數(,200筆,)的輸入資料,且,不重複,實驗環境,硬體:Pentium4,CPU3.2G,768Ram,軟體:文字前處理使用Rainbow、Proter字根處理 SVM使用libsvm,NB使用Weka、LSI部份使用Fortran Compiler8.1及IMSL Fortran library5.0,評估方法,準確度、精確、召回率及調和平均數評估公式,Accuracy,Precision,Recall,FM,Observed,PPI,Non-PPI,Predicted,PPI,TP,FP,Non-PPI,FN,TN,混亂矩陣,ROC曲線,靈敏度,(Sensitivity=),即是正類別的召回率,作為縱座標,明確性,(Specificity=),即是負類別的召回率,,1-Specificity,是橫座標,實驗結果,yeast物種使用潛在語意索引特徵表示法 SVM 和 NB 之比較,Method,LSI_SVM,LSI_NB,FR,FS,A%,P%,R%,FM%,A%,P%,R%,FM%,Term,100,97.3,96.84,98.64,97.73,70.60,63.33,83.70,72.10,200,99.5,99.17,100,99.58,70.30,64.00,82.58,72.11,300,99.8,99.67,100,99.83,72.00,64.67,85.09,73.49,400,99.9,99.83,100,99.91,72.10,64.67,85.27,73.55,500,100,100,100,100,72.20,65.00,85.15,73.72,TFIDF,100,95.6,96.01,96.65,96.33,72.00,59.83,90.20,71.94,200,99.7,99.83,99.67,99.75,73.00,76.83,77.87,77.35,300,100,100,100,100,72.00,76.67,76.67,76.67,400,100,100,100,100,73.30,75.50,79.06,77.24,500,100,100,100,100,74.10,74.67,80.72,77.58,FR(Feature Representation):係”特徵表示”,代表各種向量模式的選擇。,FS(Feature Selection):代表”特徵選擇”,表示不同個數的關鍵字。,LSI_SVM:代表LSI編碼搭配SVM,LSI_NB:代表LSI編碼搭配NB,實驗結果(續),yeast物種使用資訊獲利量特徵表示法SVM 和 NB之比較,Method,IG_SVM,IG_NB,FR,FS,A%,P%,R%,FM%,A%,P%,R%,FM%,Term,100,68.93,79.03,71.97,75.33,75.50,91.56,73.93,81.81,200,65.83,99.67,63.79,77.79,75.10,90.83,73.75,81.40,300,77.22,85.69,78.39,81.88,72.30,89.00,71.68,79.41,400,77.92,87.52,78.27,82.64,73.80,89.33,73.02,80.36,500,77.82,89.35,77.27,82.87,72.80,88.67,72.28,79.64,TFIDF,100,72.73,98.34,69.20,81.24,73.58,77.11,78.55,77.82,200,67.73,99.33,65.17,78.70,75.00,84.33,76.44,80.19,300,65.33,100,63.40,77.60,74.10,84.33,75.41,79.62,400,63.84,99.83,62.43,76.82,76.70,87.17,77.03,81.79,500,62.64,99.83,61.66,76.23,74.10,85.33,74.96,79.81,IG_SVM:,代表IG編碼搭配SVM,IG_NB:代表IG編碼搭配NB,ROC-Term,1=LSI_SVM,2=IG_SVM,3=LSI_NB,4=IG_NB,5=參考線,1.LSI _SVM,2.IG _SVM,FS,Y軸,X軸,Y軸,X軸,100,0.9864,0.0462,0.7197,0.3695,200,1,0.0123,0.6379,0.0323,300,1,0.0050,0.7839,0.2500,400,1,0.0025,0.7827,0.2280,500,1,0,0.7727,0.2092,3.LSI_NB,4.IG _NB,FS,Y軸,X軸,Y軸,X軸,100,0.8370,0.4029,0.7393,0.1992,200,0.8258,0.4037,0.7375,0.2107,300,0.8509,0.3897,0.7168,0.2588,400,0.8527,0.3890,0.7302,0.2406,500,0.8515,0.3875,0.7228,0.2576,1=LSI_SVM,2=IG_SVM,3=LSI_NB,4=IG_NB,5=參考線,1.LSI-SVM,2.IG _SVM,FS,Y軸,X軸,Y軸,X軸,100,0.9665,0.0594,0.6920,0.0680,200,0.9967,0.0025,0.6517,0.0471,300,1,0,0.6340,0,400,1,0,0.6243,0.0250,500,1,0,0.6166,0.0357,3.LSI _NB,4.IG _NB,FS,Y軸,X軸,Y軸,X軸,100,0.9020,0.4003,0.7855,0.3358,200,0.7787,0.3407,0.7644,0.2781,300,0.7667,0.3500,0.7541,0.2857,400,0.7906,0.3443,0.7703,0.2399,500,0.8072,0.3416,0.7496,0.2776,ROC-Tfidf,Term的準確度分佈圖,TFIDF的準確度分佈圖,結論,實驗證明SVM的分類預測優於NB,LSI優於IG,LSI編碼搭配SVM,得到的準確率高達95%以上,此部份與Zeliknovitz et al.(2001)結合LSI和Noisy-Or演算法的研究中,測試物理學論文集的兩類別分類問題,得到高於90%的正確率是一致的,本研究之實驗流程與步驟,可應用到其他目標的生物醫學文件分類,例如:在其他生物醫學文獻中擷取生物物件之間互動或相關性資料的目標資訊、或者應用到DNA和蛋白質互動關係的探討或細胞信號傳導及基因與基因的互動關係,謝謝您的聆聽!請委員指導!,1,、病毒性肝炎:,由病毒造成的肝炎按照其病毒系列不同分为甲、乙、丙、丁、戊和庚共六种类型病毒性肝炎。能引起肝脏细胞肿胀,是世界上流传广泛,危害很大的,传染病,之一。,1908,年,才发现病毒也是肝炎的致病因素之一。,1947,年,将原来的传染性肝炎(,infectious hepatitis,)称为甲型肝炎(,Hepatitis A,HA,);血清性肝炎(,serum hepatitis,)称为,乙型肝炎,(,Hepatitis B,HB,)。,1965,年人类首次检测到乙型肝炎的表面抗原。我国经济和科学技术日益发展,学术文化领域百家争鸣,(,df,高血压,958,心脏病,983u6,糖尿病,87fr,)特别是思想家的革新精神,为中医学理论的创新和突破性进展,提供了有利的文化背景。宋代陈无择著,三因极一病证方论,一书,(,45,传染病,q566,丙肝,964jo,乙肝,28jgsx,甲肝,gh,)提出三因学说;并产生了最具盛名四大学派,刘完素倡导火热论;张从正力倡“攻邪论”;李杲提出“内伤脾胃,百病由生”的理论;朱震亨创造性地阐明了相火的演变规律。,编辑本段明清时期(,df,肺,25s,血液,f369,血小板,t5172,红血球,gdf55m,白血球,fd2,),是中医学理论综合汇编、深化发展,临床各科辨证体系丰富、提高阶段。如明代楼英的,医学纲目,和王肯堂的,证治准绳,,清代吴谦等编著的,医宗金鉴,和陈梦雷主编的,古今图书集成,医部全录,等。王清任著,医林改错,,注重实证研究,(,df,高血压,958,心脏病,983u6,糖尿病,87fr,)纠正了古医籍中关于解剖知识的某些错误,肯定了“脑主思维”,发展了瘀血理论。温病学说的形成和发展,标志着中医理论的创新与突破,吴有性著,温疫论,,叶天士著,温热病篇,,吴鞠通著,温病条辨,等,在药物学研究方面,(,45,传染病,q566,丙肝,964jo,乙肝,28jgsx,甲肝,gh,)李时珍著的,本草纲目,,总结了,16,世纪以前我国药物学研究的成就。医的诊察疾病能参考现代医学的微观分析,将辨证与辨病相结合,实现宏观与微观的统一,使中医诊断客观化,即把分析与综合相结合的方法引入中医理、法、方、药的研究,使二者有机结合,互相借鉴、补充,避免各自的片面性、局限性,这将有利于中西医学的优势互补,“和而不同”,多元发展。近年来,中医药在防治非典、禽流感和艾滋病方面发挥的独特作用也证实了二者的有机结合,具有肯定的临床疗效。,编辑本段东西方医学交融,不管是中医学还是西医学,从二者现有的思维方式的发展趋势来看,均是走向现代系统论思维,中医药学理论与现代科学体系之间具有系统同型性,属于本质相同而描述表达方式不同的两种科学形式。可望在现代系统论思维上实现交融或统一,成为中西医在新的发展水平上实现交融或统一的支撑点,希冀籍此能给中医学以至生命科学带来良好的发展机遇,进而对医学理论带来新的革命。,编辑本段现代中医史,上个世纪末,本世纪初,,1996,年,清华学界对中医气本质,经络实质,阴阳,五行,藏象,中医哲学观等都有了新的全面整体创造性的认识和解说。如,邓宇等发现的,:,气是流动着的信息能量物质的混合统一体;分形分维的经络解剖结构;数理阴阳;中医分形集:分形阴阳集阴阳集的分形分维数,五行分形集五行集的分维数;分形藏象五系统暨心系统、肝系统、脾系统、肺系统、肾系统;中医三个哲学观新提出的第三哲学观:相似观分形论等。还包括近代针灸经络的发展史,近代中医气的进展简史,中西医结合史,中医中药史等,.,六种类型的病毒性肝炎遗传因子不同,除乙型肝炎遗传因子是,DNA,外,其余几型肝炎遗传因子均为,RNA,。其中,甲型肝炎,的传播途径是粪口传播,乙型肝炎的传播途径是血液传播、性传播和母婴传播。疫苗。,2,、酒精性肝炎:,酒精性,肝炎,早期可无明显症状,但,肝脏,已有病理改变,发病前往往有短期内大量饮酒史,有明显体重减轻,,食欲不振,,,恶心,,,呕吐,,全身倦怠乏力,,发热,,,腹痛,及,腹泻,,上,消化道出血,及精神症状。体征有,黄疸,,肝肿大和压痛,同时有脾肿大,面色发灰,腹水浮肿及,蜘蛛痣,,,食管静脉曲张,。从实验室检查看,有,贫血,和中性,白细胞,增多,,红细胞,容积测定(,MCV,)大于,95FL,血清,胆红素,增高,可达,17.1moL/L,或以上,,转氨酶,中度升高,常大于,2.0,,测定线粒体,AST,(,mAST,)及其与总,AST,(,tAST,)的比值,其升高可达,12.5+5.2%,。并有,-GT,,谷氨酸脱氢酶和,碱性磷酸酶,活力增高,凝血酶原时间延长。,此外,病毒性肝炎还有丙型肝炎、丁型肝炎、戊型肝炎和庚型肝炎。过去被定为己型肝炎病毒的病毒现在被确定为,乙型肝炎病毒,的一个属型,因此己型肝炎不存在。,在病毒肝炎的疫苗,,A,型、,B,型、,D,型的疫苗已研发成功;,C,型、,E,型、,F,型的目前无编辑本段宋金元时期,精品课件文档,欢迎下载,下载后可以复制编辑。,更多精品文档,欢迎浏览。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服