收藏 分销(赏)

信息检索与搜索引擎技术实验向量空间模型.doc

上传人:天**** 文档编号:4374046 上传时间:2024-09-14 格式:DOC 页数:11 大小:597KB
下载 相关 举报
信息检索与搜索引擎技术实验向量空间模型.doc_第1页
第1页 / 共11页
信息检索与搜索引擎技术实验向量空间模型.doc_第2页
第2页 / 共11页
信息检索与搜索引擎技术实验向量空间模型.doc_第3页
第3页 / 共11页
信息检索与搜索引擎技术实验向量空间模型.doc_第4页
第4页 / 共11页
信息检索与搜索引擎技术实验向量空间模型.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、昆明理工大学信息工程与自动化学院学生实验报告( 401学年第 1学期)课程名称:信息检索与搜索引擎技术 开课实验室:信自楼445 201年12月 3日年级、专业、班计科11学号2姓名成绩实验项目名称向量空间模型指导教师李卫疆教师评语该同学就是否了解实验原理:。了解B。基本了解.不了解该同学得实验能力:A、强 B、中等 .差 该同学得实验就是否达到要求:A、达到B.基本达到C、未达到实验报告就是否规范:A。规范B、基本规范C、不规范实验过程就是否详细记录:A。详细B、一般 。没有 教师签名: 年 月 日一、 上机目得及内容:给定文档语料: 1:北京安立文高新技术公司2: 新一代得网络访问技术3:

2、 北京卫星网络有限公司d4: 就是最先进得总线技术。5: 北京升平卫星技术有限公司得新技术有。设计一个针对这些文档得信息检索系统。具体要求就是:1) 给出系统得有效词汇集合(说明取舍原因)。2) 写出d1与d2在VSM中得表示(使用tfid,写出各项得数字表达式,具体数值不必实际计算出来)、3) 画出系统得倒排文件示意图。4) 按照向量夹角得余弦计算公式,给出针对查询“技术得公司”得前3个反馈结果、二、 实验原理给定文档语料: 1: 北京安立文高新技术公司 d2: 新一代得网络访问技术d3:北京卫星网络有限公司 d4: 就是最先进得总线技术、。d5:北京升平卫星技术有限公司得新技术有。设计一个

3、针对这些文档得信息检索系统。具体要求就是:1) 给出系统得有效词汇集合(说明取舍原因)、北京、安、立、文、高新、技术、公司、新、网络、访问、卫星、有限、先进、总线、升、平得、就是、最、有,这些词作为停用词不能加入系统得有效集合一、代,去除后并不影响原来句子语义得表达也不能算作系统得有效集合。2) 写出d1与d2在VSM中得表示(使用t*if,写出各项得数字表达式,具体数值不必实际计算出来)、得到得矩阵:md12d3d4d5erm出现次数北京10101安000立10001文100001高新10001技术11003公司10113新01002网络011002访问010001卫星001012有限001

4、01先进00101总线0011升000011平0011说明:TF:表示词项在该文档或者查询词中出现得频度。即该词项出现次数除以该文档得长度(所有词得个数):表示词项k在Di中得出现次数。:表示该文档得长度(所有词得个数)F:表示词项在文档集合中得重要程度。一个词项出现得文档数越多,说明该词项得区分度越差,其在文档集合中得重要性就越低。:表示集合中得文档数;:表示出现词项k得文档数。d1中各词项得数字表达式“北京得“安”得“立”得“文”得“高新”得“技术”得“公司”得2中各词项得数字表达式:“新得“网络”得“访问得“技术得3) 画出系统得倒排文件示意图。 4) 按照向量夹角得余弦计算公式,给出针

5、对查询“技术得公司得前3个反馈结果。该部分由代码实现。三、 实验方法、步骤1 建立Jav项目,2 建立DoumentStrt.java类文件并编辑3 建立Tetector.jav类文件并编辑,如图4,图42所示图4图44 建立TF、a类文件并编辑,如图图4-7所示图445 建立IDF。java类文件并编辑,如图图45所示图4-56 建立CaculteSi。a类文件并编辑,如图6所示图467 建立MaApp、ja类文件并编辑,图4-7所示图78 完成后得项目文件夹如图-8所示图-89 运行结果如图49所示1. DcmeStrct。java代码:pakagec.mdel;ublic cassDoc

6、umentStructpulicDocumenSrt()his。docmetID ;this。documntSValue=0;this、doumentContet =”Noe”;ths.documentName =Nne;publicDocmettruct(intI, dobl si, Srin nm, Stringcnt)hi、oumentID = ID;this.documentSiValu =s;this。docuntame= name;tis。documentntent = cntet;pubic Strg gocumennet() reurndoumntCntent;publc vo

7、id stDocumentContent(SringdocumentContent) thi.docuentContnt = umentCtet;pulicting etDocenNam() eturndouentNa;publi oid setocuntNae(Srng docuntame)h。dcmntNam= otName;plc doule getocumntSimalue() eturndocumenSiVlue;pulicvoidsetDocumentSimValue(doble oumetVale) ts、documetSiVale =documetimVae;publcitge

8、tDocment() returnocumntID;publcoid seDcmentI(itocumentI) hs。cumentI ocum;puliDocumentStrt srtDocBim(DocumntStruct docLs)Docmetru mp;or(int=; idocList、length1;i+)for(it ; jdocLt。length1; +)if(ocList、gDocumntilu() oisj。etocumntSiValue() )tep= doListi;docLis = doLisj;docList temp;retundcList;rie Sing o

9、cumentName;riaeStrn docuentCnet;iate oubeocunSimVlue;priveitcumentID;2. Textector。ja代码:ackam、modl;publi class extVectr pubicTVct(i imeon, intemunt,itocenTermCoun, ndocumtCunt, intdocuentConainerCount)vetorWeigh ew dbledimen;or(iti=; idimension;i+)vctoreigti =caculaeig(termunti, cumnTCoun, docmenCoun

10、,doumentonanTemConi);publicdouble cacuateWight(nttrCu,ntdoumentTermCout, inocmentCont, intdomntContainermCout)TF temTF ew TF(termCout, documenermCount);IDF ermID = ne DF(docuntC, docmnContainTermCont);erTF、caculateT();trmF.cculaeF();retun(trmTF。gtT()ermIDF。getdf();bic double geVeoWeght() retuvetorig

11、ht;uic vid etVetorWeight(doubl vctorWeigh) this.torWeiht vectrht;pritedouble vectoreiht;3. TF、java代码packageacm、model;pulic clss F publi TF()f 0.0;termount = 0;termIDcuentCout = 0;ubic TF(intmCun, indocuetTermont)hi、t= 、0;ths、temCount = ermout;his.ermIDcmentCount= doumenTerCout;public voidaulteTF()if

12、(terInDuntCot =)Sytm.out。println(”请先设置文档总数!”);return;thi。t =(double)mCoun (doubl)terIumtCunt;public ubl getTf()returntf;publciteermont() etuntemCun;pulic oid seTrmount(ittrmCont) tis。erCout = termCount;blcigetTrmInometCut() retunermnDocentCut;pubic oi setTemInDocumetCoun(intemIDcumenoun) is、termInoc

13、uentCount termnDcmenCount;private oble tf;prvaeinttermont;rivatinttermInDocumentount;4. ID.jv代码pacageacm、modl;pulclass IF ublicIDF()i = 0.0;docmenConaiTrmCou = 0;docuentCout 0;pui DF(intdocumentCoun, nocumntCotaiTermCount)idf =、0;this.ocmetCnt dcumntCout;this、douetCntTrCut =docuentCntaiTermCunt;puli

14、cngetDocumentCount() retrnonCount;publi oi setDouetCoun(ntdocumentCun) this。dumenoun= cumentCunt;pulntgtDocuenntaiTermon() returndouentContinTerCnt;public oidsetDomnConainermCoun(tdocumtCotinTerCot) i.docmenContiTmCoun= doumConainTermont;public dblegeIf() returnidf;pulc voidccultIDF()f(dcumentCnainT

15、erCoun= 0)System、out、println(请设置文档得长度(所有词得个数)!);return;this、id Mth、log10(oub)thi.dcumentoun / (ouble)this。ocumeCoanTemCou);pivatedoule if;privatitdocumentCoun;pivateintdocentCntinTrmCount;5. aculateSim.java代码packagam、modl;plc clas CaulateSimpublicCacuateSm(Tetector vecto1, extVecr vector)doubliDvide

16、nd0。0, simiider=0、0;doub tepVecto=0。0, tmVtor2=。;fr(nti=0; ietor1。getVecoWih()、legt; i+)simDividend+=vetor1.getVtorWeight()i * cto2.etVectorWeigh()i;for(in=0; vcor1、etVetoWegt()。eng; +)temVector1 + Mat、ow(vcor、VctorWght(), 2.);tmpVector2+= Mth。o(vctr2。etectorWeiht()i,。);simDivide = Math。rt(emectorem

17、peco2);th.sm =mDivide sDivie;ubl doule getm() returnsi;privat doulsim;6. MainApp。java代码pacageacm。modl;pbic class MainAppbic sti voman(Strin ars) nTermCunt = 1,1,1,1,1,1,0,0,0,0,0,0,0, 0,0,0,0,1,1,1,0,0,0,0,0, 1,0,0,1,0,1,0,0,0, 0,0,0,0,0,0,0,0,1,0, 1,0,0,0,1,1,0,0,1,1,0,0,1, 0,0,0,1,1,0,0,0,0,0,0,0;

18、ntocmentTemCont 7, ,5, 1, 3;intocumnContaiermunt = ,1,1,1,1,4,4,2,1,2,1,1,1;Docunttut docst = new Documenttruct;Strin docuenConent ”北京安立文高新技术公司,”新一代得网络访问技术,北京卫星网络有限公司”,”就是最先进得总线技术、。、,北京升平卫星技术有限公司得新技术有。、,”技术得公司;TextVectorqueyVect ew TextVecor(1,TermCoun5, douentTerCount5, 6, documentCtaineCnt);for(in

19、t=0; i5;i+) TextVectortpeor = new TextVctor(1,rmCouni,documntCounti, 6, docutCoainTerCont);CaculateSimtempSim=new aulateSi(tempVector, querVector);DumetStucttmDocnew outtrut(i+1,tepi.getim(), 文档(i1),dcumetCotent);docii =mpDoc;ocList = oci1、srtDocBySim(cLis);ysm、u。priln(以技术得公司为查询关键字得到得前3个结果为:”);fr(inti=; i; i+)Ssem、ou。println(+) + 。+ocLti、eDcumentNe()+:+docisti、geDocumntConen();四、 实验结果、分析与结论本次实验我学会了针对文档进行信息检索系统,向量空间模型就是信息检索得一个重要方面,向量空间模型得建立能让您对信息有更好得把握,所以向量空间模型对我们以后信息检索至关重要,在编程方面我来遇到了很多得问题,这些都就是在老师得帮助下完成得,在这次实验中我学到了很多。

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服