ImageVerifierCode 换一换
格式:DOC , 页数:11 ,大小:597KB ,
资源ID:4374046      下载积分:8 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4374046.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(信息检索与搜索引擎技术实验向量空间模型.doc)为本站上传会员【天****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

信息检索与搜索引擎技术实验向量空间模型.doc

1、昆明理工大学信息工程与自动化学院学生实验报告( 401学年第 1学期)课程名称:信息检索与搜索引擎技术 开课实验室:信自楼445 201年12月 3日年级、专业、班计科11学号2姓名成绩实验项目名称向量空间模型指导教师李卫疆教师评语该同学就是否了解实验原理:。了解B。基本了解.不了解该同学得实验能力:A、强 B、中等 .差 该同学得实验就是否达到要求:A、达到B.基本达到C、未达到实验报告就是否规范:A。规范B、基本规范C、不规范实验过程就是否详细记录:A。详细B、一般 。没有 教师签名: 年 月 日一、 上机目得及内容:给定文档语料: 1:北京安立文高新技术公司2: 新一代得网络访问技术3:

2、 北京卫星网络有限公司d4: 就是最先进得总线技术。5: 北京升平卫星技术有限公司得新技术有。设计一个针对这些文档得信息检索系统。具体要求就是:1) 给出系统得有效词汇集合(说明取舍原因)。2) 写出d1与d2在VSM中得表示(使用tfid,写出各项得数字表达式,具体数值不必实际计算出来)、3) 画出系统得倒排文件示意图。4) 按照向量夹角得余弦计算公式,给出针对查询“技术得公司”得前3个反馈结果、二、 实验原理给定文档语料: 1: 北京安立文高新技术公司 d2: 新一代得网络访问技术d3:北京卫星网络有限公司 d4: 就是最先进得总线技术、。d5:北京升平卫星技术有限公司得新技术有。设计一个

3、针对这些文档得信息检索系统。具体要求就是:1) 给出系统得有效词汇集合(说明取舍原因)、北京、安、立、文、高新、技术、公司、新、网络、访问、卫星、有限、先进、总线、升、平得、就是、最、有,这些词作为停用词不能加入系统得有效集合一、代,去除后并不影响原来句子语义得表达也不能算作系统得有效集合。2) 写出d1与d2在VSM中得表示(使用t*if,写出各项得数字表达式,具体数值不必实际计算出来)、得到得矩阵:md12d3d4d5erm出现次数北京10101安000立10001文100001高新10001技术11003公司10113新01002网络011002访问010001卫星001012有限001

4、01先进00101总线0011升000011平0011说明:TF:表示词项在该文档或者查询词中出现得频度。即该词项出现次数除以该文档得长度(所有词得个数):表示词项k在Di中得出现次数。:表示该文档得长度(所有词得个数)F:表示词项在文档集合中得重要程度。一个词项出现得文档数越多,说明该词项得区分度越差,其在文档集合中得重要性就越低。:表示集合中得文档数;:表示出现词项k得文档数。d1中各词项得数字表达式“北京得“安”得“立”得“文”得“高新”得“技术”得“公司”得2中各词项得数字表达式:“新得“网络”得“访问得“技术得3) 画出系统得倒排文件示意图。 4) 按照向量夹角得余弦计算公式,给出针

5、对查询“技术得公司得前3个反馈结果。该部分由代码实现。三、 实验方法、步骤1 建立Jav项目,2 建立DoumentStrt.java类文件并编辑3 建立Tetector.jav类文件并编辑,如图4,图42所示图4图44 建立TF、a类文件并编辑,如图图4-7所示图445 建立IDF。java类文件并编辑,如图图45所示图4-56 建立CaculteSi。a类文件并编辑,如图6所示图467 建立MaApp、ja类文件并编辑,图4-7所示图78 完成后得项目文件夹如图-8所示图-89 运行结果如图49所示1. DcmeStrct。java代码:pakagec.mdel;ublic cassDoc

6、umentStructpulicDocumenSrt()his。docmetID ;this。documntSValue=0;this、doumentContet =”Noe”;ths.documentName =Nne;publicDocmettruct(intI, dobl si, Srin nm, Stringcnt)hi、oumentID = ID;this.documentSiValu =s;this。docuntame= name;tis。documentntent = cntet;pubic Strg gocumennet() reurndoumntCntent;publc vo

7、id stDocumentContent(SringdocumentContent) thi.docuentContnt = umentCtet;pulicting etDocenNam() eturndouentNa;publi oid setocuntNae(Srng docuntame)h。dcmntNam= otName;plc doule getocumntSimalue() eturndocumenSiVlue;pulicvoidsetDocumentSimValue(doble oumetVale) ts、documetSiVale =documetimVae;publcitge

8、tDocment() returnocumntID;publcoid seDcmentI(itocumentI) hs。cumentI ocum;puliDocumentStrt srtDocBim(DocumntStruct docLs)Docmetru mp;or(int=; idocList、length1;i+)for(it ; jdocLt。length1; +)if(ocList、gDocumntilu() oisj。etocumntSiValue() )tep= doListi;docLis = doLisj;docList temp;retundcList;rie Sing o

9、cumentName;riaeStrn docuentCnet;iate oubeocunSimVlue;priveitcumentID;2. Textector。ja代码:ackam、modl;publi class extVectr pubicTVct(i imeon, intemunt,itocenTermCoun, ndocumtCunt, intdocuentConainerCount)vetorWeigh ew dbledimen;or(iti=; idimension;i+)vctoreigti =caculaeig(termunti, cumnTCoun, docmenCoun

10、,doumentonanTemConi);publicdouble cacuateWight(nttrCu,ntdoumentTermCout, inocmentCont, intdomntContainermCout)TF temTF ew TF(termCout, documenermCount);IDF ermID = ne DF(docuntC, docmnContainTermCont);erTF、caculateT();trmF.cculaeF();retun(trmTF。gtT()ermIDF。getdf();bic double geVeoWeght() retuvetorig

11、ht;uic vid etVetorWeight(doubl vctorWeigh) this.torWeiht vectrht;pritedouble vectoreiht;3. TF、java代码packageacm、model;pulic clss F publi TF()f 0.0;termount = 0;termIDcuentCout = 0;ubic TF(intmCun, indocuetTermont)hi、t= 、0;ths、temCount = ermout;his.ermIDcmentCount= doumenTerCout;public voidaulteTF()if

12、(terInDuntCot =)Sytm.out。println(”请先设置文档总数!”);return;thi。t =(double)mCoun (doubl)terIumtCunt;public ubl getTf()returntf;publciteermont() etuntemCun;pulic oid seTrmount(ittrmCont) tis。erCout = termCount;blcigetTrmInometCut() retunermnDocentCut;pubic oi setTemInDocumetCoun(intemIDcumenoun) is、termInoc

13、uentCount termnDcmenCount;private oble tf;prvaeinttermont;rivatinttermInDocumentount;4. ID.jv代码pacageacm、modl;pulclass IF ublicIDF()i = 0.0;docmenConaiTrmCou = 0;docuentCout 0;pui DF(intdocumentCoun, nocumntCotaiTermCount)idf =、0;this.ocmetCnt dcumntCout;this、douetCntTrCut =docuentCntaiTermCunt;puli

14、cngetDocumentCount() retrnonCount;publi oi setDouetCoun(ntdocumentCun) this。dumenoun= cumentCunt;pulntgtDocuenntaiTermon() returndouentContinTerCnt;public oidsetDomnConainermCoun(tdocumtCotinTerCot) i.docmenContiTmCoun= doumConainTermont;public dblegeIf() returnidf;pulc voidccultIDF()f(dcumentCnainT

15、erCoun= 0)System、out、println(请设置文档得长度(所有词得个数)!);return;this、id Mth、log10(oub)thi.dcumentoun / (ouble)this。ocumeCoanTemCou);pivatedoule if;privatitdocumentCoun;pivateintdocentCntinTrmCount;5. aculateSim.java代码packagam、modl;plc clas CaulateSimpublicCacuateSm(Tetector vecto1, extVecr vector)doubliDvide

16、nd0。0, simiider=0、0;doub tepVecto=0。0, tmVtor2=。;fr(nti=0; ietor1。getVecoWih()、legt; i+)simDividend+=vetor1.getVtorWeight()i * cto2.etVectorWeigh()i;for(in=0; vcor1、etVetoWegt()。eng; +)temVector1 + Mat、ow(vcor、VctorWght(), 2.);tmpVector2+= Mth。o(vctr2。etectorWeiht()i,。);simDivide = Math。rt(emectorem

17、peco2);th.sm =mDivide sDivie;ubl doule getm() returnsi;privat doulsim;6. MainApp。java代码pacageacm。modl;pbic class MainAppbic sti voman(Strin ars) nTermCunt = 1,1,1,1,1,1,0,0,0,0,0,0,0, 0,0,0,0,1,1,1,0,0,0,0,0, 1,0,0,1,0,1,0,0,0, 0,0,0,0,0,0,0,0,1,0, 1,0,0,0,1,1,0,0,1,1,0,0,1, 0,0,0,1,1,0,0,0,0,0,0,0;

18、ntocmentTemCont 7, ,5, 1, 3;intocumnContaiermunt = ,1,1,1,1,4,4,2,1,2,1,1,1;Docunttut docst = new Documenttruct;Strin docuenConent ”北京安立文高新技术公司,”新一代得网络访问技术,北京卫星网络有限公司”,”就是最先进得总线技术、。、,北京升平卫星技术有限公司得新技术有。、,”技术得公司;TextVectorqueyVect ew TextVecor(1,TermCoun5, douentTerCount5, 6, documentCtaineCnt);for(in

19、t=0; i5;i+) TextVectortpeor = new TextVctor(1,rmCouni,documntCounti, 6, docutCoainTerCont);CaculateSimtempSim=new aulateSi(tempVector, querVector);DumetStucttmDocnew outtrut(i+1,tepi.getim(), 文档(i1),dcumetCotent);docii =mpDoc;ocList = oci1、srtDocBySim(cLis);ysm、u。priln(以技术得公司为查询关键字得到得前3个结果为:”);fr(inti=; i; i+)Ssem、ou。println(+) + 。+ocLti、eDcumentNe()+:+docisti、geDocumntConen();四、 实验结果、分析与结论本次实验我学会了针对文档进行信息检索系统,向量空间模型就是信息检索得一个重要方面,向量空间模型得建立能让您对信息有更好得把握,所以向量空间模型对我们以后信息检索至关重要,在编程方面我来遇到了很多得问题,这些都就是在老师得帮助下完成得,在这次实验中我学到了很多。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服