收藏 分销(赏)

利用SOLR搭建企业搜索平台之十一(中文分词之IK).doc

上传人:仙人****88 文档编号:11959203 上传时间:2025-08-22 格式:DOC 页数:3 大小:39.29KB 下载积分:10 金币
下载 相关 举报
利用SOLR搭建企业搜索平台之十一(中文分词之IK).doc_第1页
第1页 / 共3页
利用SOLR搭建企业搜索平台之十一(中文分词之IK).doc_第2页
第2页 / 共3页


点击查看更多>>
资源描述
利用SOLR搭建企业搜索平台 之十一(中文分词之IK) 在经过使用了庖丁以后,这里说说怎么将目前很火很流行的IK集成进SOLR,其实方法真的很简单,比paoding方便不少。这里很感谢IK的作者,蓝山咖啡,很感谢你为中文分词做出的贡献。 作者博客:   入正题:   1》请先去作者博客参看IK下载地址,主要就是一个IKAnalyzer3.1.1Stable.jar。我这里用的是最新版!   Java代码 package com.yeedoo.slor.tokenizer;    import java.io.Reader;    import org.apache.lucene.analysis.TokenStream;  import org.apache.solr.analysis.BaseTokenizerFactory;  import org.wltea.analyzer.lucene.IKAnalyzer;    public class ChineseTokenizerFactory extends BaseTokenizerFactory {     @Override   public TokenStream create(Reader reader) {   return new IKAnalyzer().tokenStream("text", reader);   }    }   从代码就可以看得出来真的很方便!将它打包放入solr.war中同时还有IK的jar包。如果你不想打包,请去附件下载已经打好的包。   2》配置文件   Xml代码 <fieldType name="text" class="solr.TextField" positionIncrementGap="100">    <analyzer type="index">    <tokenizer class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory" />    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />     <filter class="solr.WordDelimiterFilterFactory"  generateWordParts="1" generateNumberParts="1" catenateWords="1"  catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />    <filter class="solr.LowerCaseFilterFactory" />    <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />    <filter class="solr.RemoveDuplicatesTokenFilterFactory" />    </analyzer>    <analyzer type="query">    <tokenizer class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory" />    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />     <filter class="solr.WordDelimiterFilterFactory"  generateWordParts="1" generateNumberParts="1" catenateWords="0"  catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />    <filter class="solr.LowerCaseFilterFactory" />    <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />    <filter class="solr.RemoveDuplicatesTokenFilterFactory" />    </analyzer>   </fieldType>   关于这里的配置文件,如果你更详细的了解意思,请参见我的另一篇博客,博客地址:http://lianj-   3》如果在启动tomcat没有报错的情况下,可以去solr的admin那里尝试看看该分词器的效果,效果如下图:   图片看不清楚?请点击这里查看原图(大图)。 
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服