资源描述
1. 系统功能方案
根据企业智能搜索系统功能需求,结合我们的项目经验,我们进行一一对应的分析。
1.1. 信息采集
信息采集加工平台是整个系统的基础平台,它是整个平台系统对外提供内容服务的源泉,主要从各种数据源(包括文件系统、数据库、内部其他系统以及独立信息源)采集信息。
根据项目需求,针对不同的数据格式,采用不同的手段与方式,真正将各数据孤岛的信息采集过来,用于资源平台的整合与使用。如下图所示:
系统采用惠普提供的多种连接器,分别针对多种异构的数据源,例如互联网系统采用互联网连接器来采集数据,数据库连接器负责采集数据库的数据,此外还有文件系统连接器等。
HP连接器具有如下优点:
ü 自动采集,配置好之后自动运行,同时监控数据源变化,同步更新数据;
ü 能够处理基本常见的所有文件格式,能够采集基本常见的所有数据源;
ü 设计成熟,通过各数据源厂商接口认证,兼容性极强;
ü 对采集的数据格式要求极低,能够自动分析并处理、格式化各种数据;
ü 集成安全权限,能够从不同的数据源继承原有的安全权限设置;
相应的采集方式主要包括以下详细内容:
1.1.1 文件采集
HP的文件系统连接器(File System Connector)将所有常用的电子文档文件一网打尽,它支持1000多种文件格式,包括txt 、html 、rtf 、office 文档、 pdf 、MP3 、 MPEG 、SWF 、AVI 、VOD 、DAT 、tiff 、书生 sep 电 子文件等各种格式文档的自动扫描、自动数据采集和入库,甚至包括各种压缩文件以及压缩嵌套文件,如zip,rar,tar等,对于命名错误或者后缀错误的文档,它还能够自动的识别编码和语言类型,文档格式。
其主要功能还包括:
l 按照目录形式或者列表形式对文档进行分类组织,分类层次可以任意定制;
l 对目录下文档进行自动扫描,并将目录作为文档分类标引项自动提取;
l 对于一些标准格式文档,可以自动提取一些特征值,如标题、作者、单位、摘要等作为元数据标引项;
l 支持抓取文档里的内嵌对象,例如Word文件中嵌入的visio图;
l 支持 Excel 、XML 、Txt 等多种数据源的导入,导入后可自动解析数据源中的知识条目;
l 实现对于文档正文内容的自动采集,转换编码,并与元数据合并形成标准的中间内容格式,索引到内容处理引擎IDOL Server中;
l 支持文件去重 : 可以根据文件内容或属性字段进行自动排重;
其操作流程为:
文档目录
文档列表
分类、特征标引项的自动提取
文档内容的自动抓取
文档特征标引项入库、内容索引完成
配置流程为:
如下为嵌套的压缩文件抓取:
抓取后的结果:
同时也支持抓取文档里面的内嵌文档抓取(如word文件里面嵌入visio的图片文件,word的图文框等;)
如下为内嵌visio以及xls的内容:
如下为抓取的效果:
同时HP还支持对国内特殊文件格式的抓取,如CEB格式文件的内容抓取:
抓取出来的效果如下:
HP文件采集器支持文件自动探测采集,如无后缀名文件采集,后缀错误文件采集,不规范文件采集,单个不限容量文件采集等。不规范命名文件等文件格式的抓取示例如下:
1.1.2 网络信息采集
HttpConnector是HP针对网站信息的采集工具,它依据采集配置主动抓取网站上的页面内容,然后将内容转换成为标准格式传输到IDOL Server进行索引。它能按照用户设定的信息采集条件,自动采集多种类型网站和内容,包括:
l 多源头采集(新闻,论坛,博客等);
l 多语种采集(中文,英文,德文,法文,俄文,日文等);
l 多类型采集(网页,文档,音视频等);
l 帐号登录采集(需要用户名密码登录的站点);
l 定向内容采集(按照某内容主题采集);
HttpConnector在采集过程中,它将自动分析这个页面中的相关链接,然后继续抓取相关的页面。这些链接页面的判断是基于抓取器中相关配置,把需要的内容抓取过来,无用的信息排除掉。同时它还可以实现采集的预处理,包括排重处理,分类标引等,与IDOL Indextask组件结合起来进行多任务处理,如下所示:
HttpConnector的主要功能如下:
功能
功能描述
定向站点范围采集
支持采集指定URL站点的网页内容及对应的URL和附件
多种格式网页采集
支持多种网页格式(HTML、ASP、JSP、PHP等等)网站采集
多种类型站点采集
支持采集各种新闻、论坛、博客、贴吧、微博。
附件类型采集
支持多种文档附件(ZIP、Doc、Xls、Pdf、RAR)采集
支持自动采集网页的附件文件并按文件采集的要求进行分析
更新采集
可自动判断网页变化,更新采集网页,可以定义分钟、小时、天等循环频率
支持记录采集历史,对已采集过的网页不会进行重复采集和分析
断点续传
采集系统关闭或意外中断,重启后可以在断点处开始采集,不需要全部重新采集,并已经采集的内容不会丢失
认证采集
支持session 设置采集,支持用户密码认证采集
灵活参数定义
.可以按照域名采集,可以按照站点采集,按照层次采集,
.支持采集url定义规则,支持定义屏蔽多种文件(avi,mp3)格式采集规则
.可以定义采集线程数和层次深度
.可以定义采集线程时间间隔(防止目标站点屏蔽)
.可以定义采集网页总数和网页文件大小
.可以配置采集器按照url进行数据排重
网页内容提取
可通过配置模板有效地提取网页中的信息:
.网页标题,链接标题
.网页正文
.网页时间
.新闻来源(如果有)
.网站中文名称
针对统计数据发布网站(表格样式):
.可以保留统计发布网页格式,从而保证对应显示关系
网页内容过滤
可以有效地过滤网页中的信息:
.网页头、尾信息
.广告信息
.索引页面(新闻列表和博客索引页)
.其他无用信息
网页快照
当原始网页删除后,系统可以通过平台网页快照浏览原文
数据索引
支持将采集到的信息永久性存成本地文件或存入索引库,形成本地资料库,不受原网站删除内容的影响。
数据索引后可以根据网页标题和正文内容生成自动摘要和分类
多语言信息采集
支持中文简体、中文繁体、英采集,自动判断对方网站的语言。支持常见的 GB2312,GBK,GB18030,BIG5,UTF8 ASCII字符集的站点.
采集输出形式
.文本文件
.搜索引擎系统
.数据库系统
网络隔离应用
针对一些内外网隔离的环境,采集系统支持人工导入外网采集数据到内网目录后,系统自动入库处理。
应用界面
.图形化用户管理界面
.同步查看采集统计数据
.同步查看采集线程的状态
.及时查看采集日志
1.1.3 数据库采集
很多业务系统都是基于一些关系数据库来处理的,如Oracle,SQL Server,Sybase等等。数据资源的采集,也需要将这些业务系统的资源有机的整合起来,将所有的业务数据融入整个内容资源中去。
需要注意的是,对于已经建立的业务系统,在不能改变源数据库的数据结构、数据内容和工作方式的情况下,对数据库中的资源进行关联,采集平台可以自动将源数据库中数据进行转换,抓取,形成相关资源库,自动对元数据的更新进行同步,然后在统一的浏览平台下进行查询、预览、应用。
HP提供了ODBC Connector,来对各种关系数据库如SQL server、Sybase、DB2、GreenPlum、主流国产数据库等数据库进行自动数据采集和加载入库。同时也提供了Oracle Connector专门针对Oracle做高性能的采集处理。
ODBC Connector采用ODBC方式连接,是成熟的数据接口,适用于大部分的数据库环境,支持多种字段类型,具备通用性、广泛性;
Oracle Connector采用Oracle OLE DB与Oracle直接相连,更具效率,同时支持ORACLE的一些特性,对ORACLE 9i/10g/11g等都完整的满足;
如下为采集流程:
如下为处理模式:
以下以Oracle数据库为例子,介绍具体采集功能:
l 增量采集,第一次完全信息采集之后, OracleConnector即不再对所有数据进行采集,Connector会根据采集日志状态,来对新增、删除或者修改的数据库信息进行增量同步。Connector支持用户自定义采集策略和规则,如表字段、视图内容、多表联合、循环间隔、采集时间等对数据库进行信息采集。
l 自动采集,OracleConnector可以作为系统进程或者后台服务运行,按照用户设定好的规则,自动完成采集任务。Connector支持SQL语句的调用,可使用Select、Where、Like等语句对采集范围进行限制。
l OracleConnector采用Oracle方式工作,使采集工作更有效率。
l 支持大字段格式,OracleConnector均支持数据库中的大字段内容,支持对数据库中存放的各类文档(如PDF、Office、Html等)的内容抽取和处理。
l 支持多表联合,可以从多个关联表中整合数据条目并进行数据采集。
l 支持并发采集,用户可自定义多个采集任务同时进行,提高采集效率。
l 支持分布式采集,用户可根据数据库分布情况,部署分布式的OracleConnector模块,Connector完成采集后的数据通过网络接口索引至中心引擎。
1.1.4 FileNet系统采集
FileNET 是文档管理市场的传统领导者,它的网站内容管理套件包括Panagon 内容服务(PCS)、Panagon 网络发布者(PWP)、Panagon 网络服务(PWS)和Panagon 电子流程。FileNET的内容管理套件定位在内容管理的全部解决方案,它贯穿了整个内容的生命周期,从创造到审批、发布和分配等等。
惠普提供了FileNet P8 Connector,来抓取Panagon FileNet库的原始格式内容,同时也包括FileNet library的相关元数据信息,然后将其转化为惠普独特的IDX文件结构,索引到核心内容处理引擎IDOL Server中。
FileNet P8 Connector可以采集本地的或者远程的多个数据集合,还可以进行分布式的处理,根据用户的需求配置索引结构。如下所示:
分布式的处理结构:
1.1.5 实体抽取
实体抽取(Eduction)是一个专业的数据抽取工具,基于模式匹配的语法规则和字典,能够从多种数据实体中抽出相关的信息内容出来,如人名、地名、机构名称、电话号码、电子邮件等。
实际使用过程中,Eduction后台可以使用“字典”和“语法”,两者也可以结合起来,通过相关定义,来流水线作业,对需要的实体进行捕捉,提取,转换以及存储,主要包括:
l 基于词典的内容抽取:
如抓取某个产品的产地信息,事先预定义一个词典,Eduction自动发现含有相同产地标签的词汇,从而提取出来;
l 基于表达式的内容抽取:
通过正则表达式,定义需要抓取的文本字符串或者数字字符串,将相关内容提取出来,如抓取手机,座机联系号码等;
l 基于概念匹配的内容抽取
定义一定的语言环境,系统基于概念匹配的智能理解,抓取相关概念的内容,如抓取地址信息等;
Eduction可以作为一个独立的服务运行,通过批处理的方式批量的处理IDX索引文件,但Eduction通常一般作为indextasks的任务来处理,在文档通过indextasks流程处理时,将相关的文档内容按照Eduction配置的规则,进行元数据项的特征提取。接着后续indextasks任务将文档内容以及元数据项集成索引到IDOL Server中去,提供给前台的应用搜索和分析服务。流程如下所示:
1.2. 信息搜索
1.2.1 关键字搜索
系统支持多种关键词检索方式,通过指定字段搜索或全文搜索的方式,查找系统平台中的多个数据源的数据,实现跨库检索。通过系统接口,可直接搜索企业现有应用系统中的数据。
在关键词搜索的基础之上,系统支持自然语言检索,用户可以输入一句话、一段文字甚至是一整篇文章,系统会分析用户检索条件的内容概念,然后从概念的相关度上来找出用户关心的结果。
支持的搜索功能包括:
功能
功能描述
中文分词
支持准确的中文分词,支持中文简体、中文繁体和简繁互换,支持智能分词技术,根据语料统计和分析,建立歧义排除规则,如检索“中国家庭”时,不会把含“国家”的词条检索出来。
多语言支持
支持英、日、韩、德、法等主流语种
支持跨库检索
支持全部数据检索,支持指定数据源库检索
支持逻辑检索
对关键词进行与、或、非等逻辑关系检索,包括AND, OR, NOT, XOR, NEAR, DNEAR, WNEAR, YNEAR, RANGE, BEFORE, AFTER等十几种操作符
支持长表达式检索
支持超长表达式查询一次解析返回结果
支持通配符
支持通配符*和?匹配
支持范围运算
支持日期和数字的范围区间运算和比较大小运算
支持临位运算
支持同句同段查询,支持关键字相邻位数查询,临位运算支持前后方向运算和无方向运算,包括,NEAR,DNEAR, RANGE等等
支持精确匹配
支持全关键词的精确匹配
支持模糊查询
支持模糊搜索,系统除了返回相应的搜索结果外,还返回与输入字符串相近的其他词汇,从而让用户发现相关的其他结果。
支持自然语言检索
支持自然语言检索和扩展检索,即概念检索功能,通过一句话、一段文字甚至是一整篇文章,系统会分析用户检索条件的内容概念,然后从概念的相关度上来找出用户关心的结果。
支持标签限定搜索
支持标签搜索功能,通过建立索引文本的标签字段,用户可以有针对性地选择标签组合,从而返回相应的限定结果; 支持多个标签字段组合的逻辑“与或非”限定搜索,数量不限
支持参数条件限定
支持通过设置参数统计结果的条件筛选搜索结果
支持排序
支持按照日期、相关度以及其他字段组合的排序功能。排序支持的方式有:相关度、数据库编号、日期、文档id、英文字母升序/降序、数字升序/降序、日期反序、随机、无序
支持二次检索
支持再次搜索功能,在当前搜索结果中,实现以上搜索功能进行结果再次搜索。
支持关键词扩展
可以根据输入关键词查询出来的结果的内容进行相关词推荐,可进行二次查询
支持关键词权重设置
提供搜索关键词的权重,多个元数据字段的权重组合搜索等。
检索结果排重
可以按照数据唯一标识(主键)或自定义字段进行结果显示时的排重
高亮标红显示
在检索结果的自动摘要和标题中,自动标红高亮显示命中关键词,标亮的样式支持定制
支持同义词定义
支持广义同义词检索,能够大大提高检索系统的查全率,比如检索“电脑”会把包含“计算机”、“Computer”的内容全部检索出来。
1.2.2 参数搜索
很多的搜索对象都有相关的元数据属性字段,通过HP提供的参数统计功能,可以实现各元数据的统计和分析,并可以输出成为多种图形形式,如柱状图,饼图,线图等,从而使用户实时了解搜索对象的数量特征,更深入的得到内容信息。IDOL系统的参数统计功能支持的字段数目不限。
效果如下图所示:
1.2.3 搜索导航
搜索导航(AQG)是提供给用户的一种智能搜索功能,它根据用户输入的关键词内容,实时自动生成相关搜索建议,并以树状结构来展现,从而帮助用户找到更相关的搜索结果。
例如以下示例,搜索“Madonna”,通过传统搜索引擎google,只是得到一大堆结果,然后分成很多页面,用户必须一页一页翻页,而且人工筛选查看,找到符合自己需求的结果内容。一般用户也只看到前几页的内容,没有耐心将所有页面全部看完。
在HP 系统中,搜索“Madonna”,系统会自动的将搜索结果聚类分组,因为“Madonna”既是一个歌星的名字,也有可能是文艺复兴的相关内容,系统返回了一个结果的树状结构,这样用户就很方便的根据树的节点,选择自己关心的内容。
1.2.4 自动摘要
系统能够基于文章内容中的主要概念,自动对每篇文章生成摘要。而且,它还能够根据用户浏览内容或者检索条件,产生变化的动态摘要,使用户能够通过摘要来判断是否打开进行察看,并且能够动态摘要了解信息条目之间的关系。
当用户查看具体内容的时候,也能够自动对文章内容自动生成摘要:
1.2.5 自动关联
自动关联功能是HP系统针对多种信息格式,自动分析内容概念,并自动在系统中找出与其相关的其他数据内容。当用户查看具体每篇文档信息时,在原文下方会显示与上述文档内容相关的其他文档信息:
通过自动关联,用户可以方便的将当前的文档关联到其他的系统信息,扩大了内容研究范围,提高了工作效率。
1.2.6 基于兴趣点的排序
IDOL系统在进行关键字搜索时支持根据用户和场景变化而变化。用户可以对搜索结果集中的内容进行挑选定义,系统自动对用户搜索偏好和结果拟合度的选择进行学习,以此深化对用户搜索内容的理解,从而帮助调整搜索结果,找到更准确的结果。
1.2.7 结果展示方式
系统可以根据查询的条件返回相应的结果。返回结果显示的内容可以显示系统默认的属性信息,也可以由用户自定义显示字段,包括数据条数,所用时间,信息标题、摘要、关键字、内容、时间等信息。
除了数据本身的属性字段外,用户还可以定义当前搜索结果的返回条目数以及命中搜索条件的全部数据条目数,用于做分页显示。系统还可以显示当前检索的用时,支持对检索结果的分类统计和浏览,显示检索结果的分布情况和命中数量。
显示结果还可以根据文挡数据类型的不同显示不同的数据类型图片,是用户可以一目了然当前检索结果的数据类型。同时也支持多种排序方式,如按时间、文档作者等并支持自定义排序规则。
结果展示的示例页面如下所示:
1.3. 数据分析
1.3.1 信息分类
手工对文档和大量的数据进行分类和标记已经无法适应当今信息爆炸时代的要求。系统能够自动对信息进行分类,而且不需要任何手工输入,可以精确地根据非结构化文本中的概念进行分类。
分类管理
通过发现内容里的概念,使用户得到准确的分类类别,确保所有的数据最大限度的精确归类和正确的理解。系统分类支持创建多种类型的、多层结构、无数量限制的信息分类体系。
如下图,定义好分类的名称,指定的数据源,语言类型后,就可以针对分类进行初始训练,可以输入关键词,或者句子,文章等,定义逻辑表达式,进行分类的初始训练:
通过初始训练,系统会返回符合训练要求的文档,这样就可以再次进行文档训练和词汇权重的调节,以此来精化分类的标准,深化分类的准确性。系统支持小的数量样本文档的训练,从而简化分类训练难度,方便用户使用。
自动归类
根据不同的分类主题,建立了分类节点,前台的用户以及管理员就可以点击相关的分类树节点,查看相关分类的结果:
分类推荐
建立了分类体系之后,系统中的用户就可以进行分类查看;但是,如果分类树过于庞大,或者用户没有时间逐级点击分类节点,那么系统还提供了分类推荐功能,它根据每个用户的隐含个性需求,来推送给用户需要查看的分类节点。
系统分析用户的行为是基于用户的多种内容行为操作,包括搜索行为,查看文档,发布消息等,从而积累用户的主题特征。
1.3.2 信息聚类
基本聚类
系统能够智能的分析给定一批数据的热点主题、最新主题以及主题直接的相关程度。能够以图形化方式展现热点聚类地图,并能够查看各主题下的数据信息。
系统提供的自动聚类功能,它能够自动地分析采集过来的所有信息内容,根据内容概念来把相似的文档聚类到一起(相关性算法),同时完全自动化的生成类别的标题,并提供自动的热点生成和自动的热点趋势分析。
具体功能包括:
· 可自定义聚类类别,根据聚类生成的条件进行聚类分析
· 可自定义聚类范围,对某些主题或某时间段数据进行聚类分析
· 可自定义聚类主体,能根据用户主体配置进行文本聚类
· 提供聚类规则的管理维护功能
· 提供多种聚类结果展示,如文本、主体、图形等
· 可进行聚类趋势分析
二维地图聚类
二维地图聚类为文本聚类结果的图像展示方式之一,又称为信息岛图,或者信息截面图,它表示某个时刻的信息聚类结果,能区分聚类热点的受关注程度以及聚类主体之间的关联性。每个亮点都是系统自动聚类出的新闻热点,颜色越亮代表信息量越大越热,点与点的距离越近,表明两个聚类主体之间的关联性越高;
通过二维地图的应用,企业的员工可以清楚的了解自己部门,或者相应范围内的知识热点,并可以将热点转化为自己的知识主题,从而获得知识内容,发挥知识利用的价值。
聚类热点信息和爆炸信息
聚类热点信息和爆炸信息主要提供文本的聚类展现方式,使人员从时间和相关性角度考察内容:
l HotNews(热点新闻):
“热点新闻”显示的只是某一类主题最相关的信息,而并不局限于最新的信息。
l BreakingNews(爆炸新闻):
“爆炸新闻”显示的是最近的最新新闻。与“热点新闻”不同的是。它会对两个不同时间点的聚类结果做一个比较,只有存在最近的聚类中而其他聚类没有的内容才会显示出来。
如下图为对热点新闻和爆炸新闻的聚类文本展示:
聚类趋势图
聚类信息趋势图又称为信息走势图,表示聚类信息在一定时间内的走势情况,横线越长表明新闻主题一直在延续,颜色越红越粗表明某天信息量越多越热,有分支表明某个新闻主题有了新的报道方向。
通过信息趋势图的应用,企业员工可以直观的了解相关的行业,相关项目的进展状态,并根据不同时期的知识主题演变,判断事件的发展趋势,从而轻松的掌握知识的来龙去脉。
1.3.3 个性化服务
个性化订阅
个性订阅功能是用户能够自主设定自己的内容范围与条件,系统根据用户设定的主题提供内容服务,一旦发现有新的符合用户要求的信息,能够自动把符合用户要求的检索结果信息发送给用户。
个性订阅能够自动根据数据源变化实时更新文档,省去用户大量时间,每次使用个性化订阅都能够看到最新的跟自己工作密切相关或者对自己有用的信息。
隐性个性推送
HP系统提供动态的个性化跟踪服务,除了用户自己显性维护的内容主题之外,系统还提供了隐性个性推送,即在后台自动监控用户的行为与浏览的文档,从文本内容上分析用户的兴趣与目的,用户的需求变化(例如工作内容的转变),同时自动产生个性化的隐性内容档案,实现动态的智能内容信息推送服务。
如下所示:
社区和协作
HP系统可以自动保存对组织员工个性化信息的准确、多面理解,自动建立一个组织协作网络系统,将那些具有共同关注点的员工、有相似个性化特征的员工,或工作流程中按特定项目划分的用户匹配在一起,形成组织的内容社区。
下图为自动推送与员工的内容主题相关的其他内容主题,以及其所属的其他部门员工:
专家推荐
专家推荐提供了按照特定主题,搜索相关专家人员的功能。系统通过多种机制,采集了内部多种人员的个性内容特征,因此,可以利用搜索的功能,将相关主题的人员展现出来,查看其内容,或者直接与其联系沟通等,促进知识的应用与分享。
如下所示:
1.4. 二次开发支持
IDOL系统提供符合规范、标准的API等应用程序二次开发接口,支持SOA和Web2.0开发接口,支持Unix、Linux、Windows环境的各种应用(32bit和64bit),支持C++、java 和 .net等编程开发接口API。从而可以通过Web Services的方式使企业能够无缝地集成在Intranet、Extranet、Internet和移动应用上的其他系统。
IDOL系统提供上述界面各控件的接口,供个性化界面开发使用。系统支持所有功能的指令化操作,并提供相关参数用于控制各功能的内容生成和展示结果,有利于第三方应用程序的快速开发和集成。
系统自带相关功能的使用方式说明手册并支持按照功能指令的方式查询所有命令和参数说明。
IDOL的基础结构是基于设计建模及全球分发的,允许选择使用最新的web服务标准,包括单一对象访问协议SOAP,Web服务描述语言WSDL。
HP提供的ACI API开发接口能够灵活而丰富的完成各种功能。它能够很容易的使客户应用程序通过HTTP命令从ACI服务器获得数据内容,同时也能操作返回的结果。服务器间的通信使用XML的http来完成。系统提供详细的帮助文档和完备的技术支持,保障第三方应用开发的快速集成。
1.5. 系统管理及监控
IDOL系统提供B/S结构的IDOL Admin管理控制界面供系统管理员进行后台监控和维护操作,其功能包括:
Ø 查看系统状态:总体状态、索引队列状态、语言配置状态、权限配置状态、授权信息状态
Ø 系统监控:监控索引状态、监控日志状态、监控系统性能、内存使用情况、磁盘使用情况、线程运行状态、查询速度分析、实时监控图
Ø 系统操作控制管理:指令操作、用户操作、角色操作、查看操作
Ø 可对系统各项参数、采集模板、采集数据库内容等进行管理
总体状态:
内存使用情况:
监控引擎索引状态
监控日志
系统统计信息
查询速度分析
实时监控图
1.6. 其他功能
1.6.1 分布式
考虑到客户对大数据量、高并发、高性能、高可用等方面的海量级应用需求,HP提供的分布式控制系统专门用来保证系统的容灾备份和负载均衡。
其主要组成模块包括:
· DAH(分布式请求服务器)使用加权算法将请求转发至不同的IDOL Server上,实现容灾备份和负载均衡。
· DIH(分布式索引服务器)将文档分别索引至不同的IDOL Server中,实现故障切换和负载均衡。
DAH
HP 分布式请求服务器可以将ACI操作命令发送到不同的 IDOL服务器中。这样就可以以线性的方式扩展系统,加快了操作执行速度,节省了处理时间。分布式请求服务器将操作分布到IDOL服务器的多个拷贝中,当有IDOL服务器发生故障时,这些拷贝可保证业务的不间断。
IDOL服务器可独立于分布式请求服务器进行安装,二者在结构上不具有依赖性。
你可以以下方式运行分布式请求服务器:
镜像
分布式请求服务器将ACI操作分布到各个相同的IDOL服务器中(所有IDOL服务器都是一样的拷贝,都以同样的方法配置且含有相同的数据)。
非镜像
分布式请求服务器将ACI操作分布到不同的IDOL服务器中(每个IDOL服务器配置不同且含有不同数据)。如果你以非镜像方式运行分布式请求服务器,需要创建以下类型的虚拟数据库:
Combinator
该虚拟数据库向它所包含的所有数据库传送一个操作命令。在返回这些结果之前对它们进行比较和分类。
Distributor
该虚拟数据库向它所包含的某一数据库传送一个操作命令。这些数据库必须相互一致(所有这些数据库都是相同的拷贝且含有相同数据)。它传递操作的方式取决于分布方式。
虚拟数据库可以是IDOL服务器中的数据库或者是为分布式请求服务器中设置的其他虚拟数据库中。
DIH
HP分布式索引服务器可以向不同的IDOL Server 索引数据,能够以线性的方式扩展IDOL系统,从而加快索引速度,节省了处理时间。如果某个IDOL发生故障,多个IDOL(分布式索引服务器负责向他们索引数据)的拷贝可保证不间断服务。
IDOL的安装独立于分布式索引服务器,二者之间没有依赖性。
分布式索引服务器可将非结构化、半结构化或结构化数据索引至与之相连的IDOL中。HP连接器可以从任何类型的数据源中抽取数据,并转化为IDX文件格式或者XML格式,然后提交给分布式索引服务器进行索引。
分布式索引服务器还可管理与之相连的IDOL。它可以:
· 执行IDOL配置修改
· 按路径从IDOL中删除文档
· 建立新的IDOL数据库
· 删除一个数据库及其文档
· 删除一个数据库中的所有文档
· 终止索引指令
· 压缩IDOL
· 修改IDOL中文档的某些字段值
· 备份IDOL
· 初始化IDOL
1.6.2 权限控制
IDOL系统具备应用级的安全访问控制,可以继承原有系统的应用访问控制来控制检索结果,从而实现多权限系统的统一权限整合。
由于业务系统的复杂性,文档的权限管理也异常复杂。HP通过众多采集器从对应的应用系统中将文档内容连同其权限信息自动抓取并索引到IDOL系统中,只需要进行非常简单的配置就可以实现。另外最为重要的,HP提供了标注的权限信息模板,用来实现自定义的权限信息整合,这在数据库应用系统中广泛使用。通常来说,无论多么复杂的应用系统,针对于某一篇文档来说,都只能归结到这篇文档哪些用户可以访问、哪些组可以访问、哪些用户不能访问、哪些组不能访问。HP的标准安全信息就是依此形成的,包含:检查类型、能访问的用户列、能访问的组列、拒绝访问的用户列、拒绝访问的组列。IDOL系统会将每篇文档的安全信息加密后保存到专有的字段中,作为文档的权限信息比对参考,供IDOL查询时使用。
IDOL系统存储用户及其在各权限系统中的对应关系。当一个用户登录到系统中时,IDOL会获取到这个用户在所有权限系统中的用户名和对应的组信息,生成一个加密的用户权限信息加密串。当用户做查询或其它操作时,系统会比对文档中的权限信息字段,即可判断出这篇文档能否被该用户访问,从而实现带权限统一查询。
1.6.3 应用环境
可运行于多种操作系统平台也是IDOL企业级特性之一。
IDOL的核心引擎是采用C语言来进行开发的,所以无论是Windows平台还是Unix平台,IDOL都能够完美的运行。IDOL系统的二次开发应用不受限于编程语言的限制,支持Weblogic、WebSphere、Tomcat等中间件的调用。目前IDOL支持的平台有:
l Windows95/98/2000/XP/NT
l SUN Solaris5,6,7,8,9
l HP Unix10.2,11,11i
l IBM AIX4.3
l Compaq TRU64, SUSE
l Other POSIX UNIX on request
l RedHat Linux
l FreeBSD
l 其他Linux,包括红旗Linux,中软Linux,中标麒麟 Linux等等
l Windows .Net
l Win64(Intel Itanium)
同时IDOL支持分布式的部署,这就意味着您可以分布式的部署IDOL的各个模块在不同的平台之上,您可以部署核心引擎在Linux/Unix上来提高性能,也可以部署网站连接器在Windows平台上来增加可操作性,也可以部署前端的Portal界面在IBM的服务器上以提高服务质量等等,各个模块之间可以非常紧密地工作在一起。
当然,这样带来的最大好处可以使您能够最大限度的利用起现有的硬件资源和网络环境,节约购买硬件的费用。
1.6.4 多语言
HP系统不受语言语种的限制,可以操作和处理所有的语言文字。HP技术的核心概念匹配不依赖任何语言的语法结构,IDOL 将字看成是意义的抽象符号,它通过字出现时的上下文环境而不是通过严格的语法定义来形成对该字的理解,俚语和其他变化均不会影响系统结果。
基于两种数学模型(概率论和信息论),HP可以处理世界上所有的有字符表现形式的语言文字,同时HP可以自动识别语言语种,可以同时处理多种语言文字,支持多种语言的混合搜索。
HP目前支持全球106种语言,各种语言都可以被优化处理,以下是被优化过的语言列表(其他语言如果有需要也可以做最优化处理):
中文繁体 法语 波兰语
中文简体 德语 葡萄牙语
阿富汉语 希腊语 俄语
阿尔巴尼亚语 犹太语 斯洛伐克语
阿拉伯语 马尼亚 语 斯洛文尼亚语
保加利亚语 匈牙利语 西班牙语
克罗地亚语 冰岛语 斯瓦希里语
捷克语 意大利语 瑞典语
丹麦语 日语 泰语
荷兰语 韩语 土耳其语
英语 马来语 乌克兰语
芬兰语 挪威语
展开阅读全文