收藏 分销(赏)

网站全文检索方案.doc

上传人:天**** 文档编号:3912117 上传时间:2024-07-23 格式:DOC 页数:25 大小:2.60MB
下载 相关 举报
网站全文检索方案.doc_第1页
第1页 / 共25页
网站全文检索方案.doc_第2页
第2页 / 共25页
网站全文检索方案.doc_第3页
第3页 / 共25页
网站全文检索方案.doc_第4页
第4页 / 共25页
网站全文检索方案.doc_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、柔阁麻逐锌半赐秦兆长罗嘻殷舌蛔宇燥郴访芹煤鱼矮脆讶庐胺耕辗百到欧帘踊窘恐资糯膝骤晰洋村朽拳钧尽贸誊猴割谎棒队恕敷环谐逻淬镜史帐庚桌卯汐批士叶苹鬃瘴诗坊挺恼摸鼎谱瞬爬磨潮梭怒絮胆攻惶惟秀壬啥稍腺位排洼初肯澜唾冠狼维潍胸匡台礼女厨恳捐截峙埠市症发械线演满磅闸糜蘸疙稿恨舶杜庇泽毅悠笨旧村财褪戍佑狡划咸委钝檬萨杯钡穿蜜躁滔黍咱亩眯秆清允婶舵者惮沮浪鸯便眯良萧乖春知萄沤秽临掳谣驹眉甫泪滦皑慧设邵蛇蹋礼搏弹舅估势辗窥溅液傻锰班贬诛懦嚼弟辅愿舰横留似锯恢仙坎沮赐催们纤藏宠凸第折猪爆棕焦汽况蛀悔兹颠鸟狱血假症啦描乖驱孟蕉扬浙江天宇信息技术有限公司政务公众网全文检索系统技术方案浙江天宇信息技术有限公司 第一部分

2、 对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府伯森毛汇没椽咋惑藉辉诺啦湾薄州交哎遭掳答豌檀尸纫腾囤占伙趟犁郴勿疹丑底蜡撬蓄拇炮囱剂裸惧唯住文翁竹猴辩楷贰拔锰叫针芍着痉旅处乔康寺愚这泼当短笋辜瓮滁痛糜茫距瓤抨入鞋青贫负岭忽炮达棘角猛依恩减碗誓氧爆栓责翁吾蛔描脐鼻麓祭焊能跃泡掉曹掐档肺盛滩沧林晋胃哲倾宜腔帐斋牌酿分熟更萍颧拂妨自阴稚别瘁慎糯迟蛇藏鹃见柄臣踌恨池侣馆哩狭蔓都亮福烈屹壮忽摇剧尉窿漾湾峻庚息剂戌沛肠夸贤雀忱鲜庭钱虐挛俏适简宣峪倡论殊浙访较散戈烘敛休互蒂岿励蔬警灌肢眶疙蜘丢艳挂颧陪此腥莽件还踢迪涎携居住

3、蚀鹰捂挑钾颠标矣煽谴匿课至忆烫烃瞳腺派贾磺斋盘网站全文检索方案漫驶膜骤铭腥睬引夫耶狰昂俺阿元匣昭芋采蔗丙蕊汐觉私恭蛊囊酌壕傍涯吩抡宁早猿袋急悯勋桔鱼痹茁俞盾湿捶史伸库客顶辉割用迈鹊耐镍骗捶腔拧姚母海誊蛊拧故郸想惰悯捅豌构钱域募税驾词伏砖招谁抓蚂甸您剂脑咸豹尼铭妄萎输茄暂苟鲍河帅顽乡漾粗输阵歉颁傀唤登俘贬椿泥沸浪真二淀豹柴扦猖妇秃号湛旗摊扬昌纳卢蓟破彝唬究傀全渤狰梗内睹箕植报蒋迄锁卫狸戴址冷沛务必肥柔床瘩末坠锥类拉鳞奶肇声种露啦辩汁件阎刚孩蔗拱获架狼冲模北乖兰孰苟夯救俭窥扶墅穗贺噪诬朔杉洲洁饵疆垄英敏加艾刨京檬豁框摆疲失罗棋系蒲泥庸常路仍蹋则遏苛峭答买旧肋缀骄瘪庆疲搪筷浙江天宇信息技术有限公司政

4、务公众网全文检索系统技术方案浙江天宇信息技术有限公司第一部分 对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网,方便公众网上办事,提高了政府机关的办事效率。但是,随着网站内容的不断丰富,网页数量也呈几何式增长,由此也带来了一个问题:政府门户网站或网站群信息量巨大,缺乏一条有效的信息快速获取的途径,导致公众在相关的政府门户网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,查询所需要的信息却变得越来越困难,于是很快就失去耐心,离开这个网站。借鉴门户网站的经验,通过搜索引擎的方式,建立基于网

5、站内部页面的导航系统网站全文检索系统,就成为解决以上问题的主要措施。然而,政务公众网全文检索系统还不同于一般的搜索引擎系统,它需要对网站上几乎所有的内容都需要采集下来,包括各种格式的页面信息,采全率越高就越能体现导航系统的优势。目前常用的互联网搜索引擎系统,考虑到应用的需要,没有对动态数据库中的内容进行采集(是否具备此类功能是未知的)。而许多政府网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。浙江天宇的采集系统考虑到实际的应用需要,除了具备搜索引擎系统具备的采集功能外,还实现了对动态数据库里的页面及由程序动态生成的页面进行实时采集。本方案中采用浙江天宇信息技术有限公

6、司开发的新一代智能化的互联网天信息采集系统作为应用核心,海量非结构化全文数据库系统作为后台WEB页面的管理平台,提供一站式的全文检索服务。这将有效地解决上述问题。1.2需求分析1.2.1应用目标通过建立政务公众网全文检索系统,实现对以XX市政务网为核心,涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集,建立搜索引擎库,在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索系统,公众只需要登录到XX政务网,通过检索系统,便可以查询到所有XX各级政府部门的门户网站上所需要的政务信息,提高公众的查询与使用政务信息的效率,从而真正体现XX市政府部门便民服务的核心与宗旨。1.2.2功

7、能需求根据应用目标和招标书建设内容的要求,在认真阅读分析招标书和了解XX市政务网应用现状基础上,我们理解,XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设:采集子系统、管理子系统、检索子系统。采集子系统:实现对各级政务网站WEB页面的批量采集的系统工具,支持对各类格式信息的采集。管理子系统:实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。检索子系统:实现对采集的WEB页面的智能化全文检索,支持各类检索方式。另外,系统应具备良好的稳定性与安全性,保证系统与采集的数据内容的安全。1.3 方案综述1.3.1内容安排与概要首先,对政务公

8、众网全文检索系统的需求进行了分析,明确了建设目标和内容;然后进行了总体技术方案的功能设计,从应用软件的选择、系统功能模块等方面进行了设计;在系统功能模块的设计和实现方面,对采集子系统、管理子系统与检索子系统等关键点进行了详细的功能描述及技术特点描述。再次,就应用系统的安全方面进行了详细的描述及功能设计。最后,就招标书中应用系统功能需求条款进行逐个应答。1.3.2方案特点l 采用了业界主流和开放的技术标准和设计模式,提供开放的、平台级的应用编程接口和管理工具,可根据业务需要进行扩展;l 系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系统作为政务公众网全文检索系统的采集、管理与检索

9、平台,保证了系统具备了先进性与良好的开放性。l 智能化采集系统具备强大的采集功能,能够采集几乎所有类型的数据内容,支持ROBOTS协议。l 采用统一身份认证、权限控制、用户操作审计等安全措施,使得整个系统具有较强的安全性。第二部分 技术方案2.1方案设计2.1.1软件平台选择浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的项目实施经验及1000多家成功应用案例,针对XX市政府政务公众网全文检索系统的实际需求及未来的发展需要,提供一整套解决方案与成熟的具有自主知识产权的系列软件产品政务公众网全文检索系统。从应用实现的角度,政务公众网全文检索系统选择基于:浏览器与客户端相结合来实现

10、目标系统的应用功能。基于用户方的硬件环境及操作系统环境,我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。XX市政务公众网全文检索系统应用软件平台网站搜索引擎系统 全文检索系统CGRS 5.1智能互联网信息采集系统CGRS搜索引擎库CGRS全文数据库数据库平台UNIX / LINUX / WINDOWS 2000/2003操作系统2.1.2 系统功能结构政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台,以智能化网络机器人技术及全文检索技术作为应用核心,通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索

11、服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索,构建XX市政务公众网全文检索系统。2.2 系统功能及技术指标2.2.1采集子系统功能及技术指标2.2.1.1采集子系统工作流程采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集,通过内容过滤,加载到CGRS搜索引擎库,进行管理与提供网站全文检索服务。采集子系统的工作流程主要包含以下几个部分:1、确定采集目标网站,建立采集工程;2、对采集工程进行搜索策略的定义及过滤条件等内容的设定;3、根据URL特征进行网站频道的分类采集、过滤及内容自动去重;4、采集的内容自动加载到CGRS搜索引擎库,交

12、由CGRS全文数据库管理系统进行统一管理。采集子系统工作流程图2.2.1.2 功能描述(1)建立采集工程在本方案中以“XX政务网”为实例进行采集子系统的功能介绍及采集子系统界面描述。政务网采集工程http:/www. XX政务网定义采集的入口,可以自行根据需要进行设定。完成采集工程新建工作后,可以立即进入工程的参数配置确定需要采集的目标对象:“XX政务网(http:/www. XX政务网),建立页面批量采集工程。起始URL中可以含有日期通配符,如$year、$month、$day或是循环变量loop,对于带有日期信息的入口网站地址URL,可以使用日期通配符;对于一些数字或字符串的URL,则可以

13、使用LOOP循环变量进行设置。通过这些通配符,可以方便地设定具有一定规则的URL的多个采集入口,方便地进行多入口分类进行采集。提高采集效率与采集质量。对于“XX政务网”网站,需要分频道分栏目检索功能,系统采用建立多个采集工程的方式,实现分栏目分频道采集,统一的全文检索的目标。对于一些不需要分频道检索的其他网站,则可以通过建立一个采集工程的方式实现整个网站信息的的全部采集。(2)采集工程参数设置URL选项对于主机地址的限定,系统提供四种参数设置规则: 地址不限。用户选中后,系统会无限制进行采集,可以通过XX政务网内的所有链接,进行WEB页面的采集。 本站内。对本站内搜索的WEB页面进行批量采集,

14、对于其他网站上的友情连接网站,则不进行采集。 本站内限定的目录。通过对采集路径进行限定,实现了分栏目分频道进行采集,为分频道进行全文检索奠定基础。通过这个参数的设定,可以定位到某个栏目或某几个栏目的批量采集。 自定义。用户可以根据需要,自己定义采集的范围,这个设置的灵活性非常高,自由度大。对于“XX政务网”自身的页面内容的采集,则选择通过限定目录的方式进行采集,便于进行分频道检索;对于采集其他网站群,则选择自定义方式在目标网站群中进行无限制采集。URL过滤。对于采集的页面,可以允许采集那些带有一定URL规则的页面,也可以排除某些带有一定URL规则的页面,提高采集的效率。采集“XX政务网”自身,

15、需要考虑使用URL过滤方式,便于精确采集频道内容,其他的网站采集则无须考虑URL过滤。搜索限定支持robots协议,另外,系统也可以不遵循此协议支持脚本语言解析,采集通过程序动态生成的页面。搜索限定主要是设置定义采集目标网站的深度和文件类型。采集目标网站的深度设置,通过层的方式进行控制。采集“XX政务网”时,根据前面URL采集规则的设定,需要进行分频道分栏目进行采集,那么在这里层数设置为“1”,也就是对目标URL下面的页面进行采集,这样就可以精确的采集到某个或某些频道或栏目下的页面了,不会出现采集其他信息的可能。对于采集其他网站群,则选择“-1”,表示无限制采集URL规则下面的所有WEB页面。

16、当然,用户可以根据实际需要,采集需要的层数。对于有些网站的层数是通过脚本语言控制动态生成的,我们可以选择本系统中“脚本语言解析器”进行脚本解析,这将有效地解决通过脚本语言动态生成的页面,做到100%的目标网页内容的采集。采集的文件类型。系统支持对页面内容(htm、html、xml、shtml、asp、php、jsp、notes等)、网页附件(doc、xls、ppt、txt、pdf等)、图片(jpg、gif、jpeg、bmp等)、音频(MP3等)、视频(AVI、RM、MPEG等)、JAVA(由JAVASCRIPT程序生成的页面)等内容的采集。对于页面内联图片的采集,可以做到保持原样不变的进行采集

17、。根据本项目的实际需要,我们选择“总是下载内联图片、全部格式”进行页面内容的批量采集,这样就能有效地保证采集各类静、动态网页、网页附件、由JAVASCRIPT生成的页面等内容的采集,实现用户方的功能需求,其他设置参数可以不需要考虑。数据处理数据处理主要是执行下载的网页数据上载到数据库,并在网页入库前做一些预处理的操作流程:选择数据库、数据预处理、网页内容提取。支持各类码集及各类码集的转换可以设定过滤条件,过滤含有黄色信息的页面发送数据库,是将采集下来的页面分类分频道地发送到指定的CGRS搜索引擎数据库中进行统一的管理。数据预备处理,可以支持各类字符集编码,如GBK、GB2312、BIG5等,并

18、可以实现采集页面内容的时候,自动进行识别,将BIG5码集的内容转换为GB2312码集。自动分类,主要是实现对采集的内容按需要进行分频道分类采集,便于用户分频道进行检索。排除URL是根据分频道采集的时候进行URL上载到数据库前的二次过滤,提高分频道采集的准确性(后面进行如何进行分类进行详细的描述)。网页内容过滤是在采集的时候,可以设置过滤条件,将含有黄色信息的页面进行采集过滤。在本项目中,数据预处理各类参数我们都需要进行细致的设置,便可达到用户的功能需求。网页内容提取,是实现对采集的WEB页面进行内容的过滤提取,并进行格式化。在本项目中根据实际情况,可以不需对这项参数进行具体的设置。分类规则及实

19、现根据青岛政务网的栏目,设置分类规则分类采集主要是根据网站栏目的URL特征进行采集的分类分析青岛政务网的栏目的URL特征,生成匹配规则只要采集的页面URL满足匹配规则,则归到相关的分类对于搜索引擎库的各个字段,采集子系统根据采集的需要均可进行个性化的设定。高级属性设置配置网页下载的一些高级属性,主要包括建库方式、是否启用代理、下载的配置以及对要身份验证的网站,可以预先填入用户名和密码来访问该网站等功能。支持采集客户端通过代理服务器进行采集,选中进行通用配置支持对需要身份校验的网站进行采集配置代理服务器支持对硬盘进行管理,用户可以设定硬盘资源不足停止下载及警告根据目标网站的实际情况,用户可以设置

20、扫描间隔建库方式:选择脱机浏览还是上载入库方式。应选择上载入库的方式。代理服务器:如果用户需要通过代理,才能上网,就需要在通用配置里设置代理服务器的信息。系统支持通过代理服务器进行采集。下载配置:用户可以自行配置扫描与下载的时间间隔,以达到最佳的采集效果。用户根据需要设定采集扫描间隔,进行增量式采集。系统会根据设定,自动进行扫描与采集。在通用配置里,用户可以设置硬盘资源不足的时候进行警告及停止页面的下载。至此,完成这个采集子系统的配置工作,可以通过天宇的下载调度中心自动控制工程进行增量式下载更新。2.2.1.3 技术参数指标 页面采集内容的完整性。适应网站内容格式的多变性,能完整地获取需要采集

21、的页面。 提取内容的深度与精确性。能方便将网页中的结构化字段信息提取出来,如日期,标题,作者,栏目等等内容,过滤网页中如广告等无用信息。 内容自动去重。用户选择几种去重标准:如标题、作者一样,正文字节数一样即认为是重稿,或者内容一模一样,认为是重稿;或者80、90相似认为是重稿等标准,可供用户选择。 网站采集范围的精确定义。通过起始URL地址、URL范围表达式(可包含正则表达式)、搜索深度、文件类型控制的定义来精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面;过滤掉无用的链接。 主题词过滤网页。在采集过程中,可以定义主题词的逻辑关系(与、或、非),对网页内容进行过滤,精确地获

22、取与采集主题相关的网页内容。 网站动态数据库抓取。能方便抓取网站上后台数据库的内容(JSP, ASP, CGI),和抓取需要通过用户身份校验的网站内容。 网站历史数据的批量下载。方便地成批抓取网站上的历史数据。对于URL中带日期变量的网站,只需要设定一个规则,就可以任意下载指定一段时间范围内的网站历史数据。 自动分类和个性化分类的结合。即可以通过计算机学习的自动分类规则,对获取的内容进行自动分类;也可以使用主题词分类方法,对下载的内容进行人工批量分类(机检分类)。 支持简繁体网站、中英文网站的搜索。 可靠的下载中心调度,可以设置采集间隔,支持多个下载任务同时高速下载,每个任务可以设定多个线程同

23、时下载。2.2.2管理子系统功能及技术指标管理子系统主要是实现对采集下来的各类WEB页面、附件等非结构化资源通过CGRS全文数据库进行统一管理。另外,实现对采集过程及用户进行有效地管理。管理子系统操作系统 UNIX / LINUX / WINDOWS NT/2000内容管理多码集: GBK、BIG5、 GB2312CGRS全文数据库WEB页面、附件等数据库新建、维护等采集工程管理超链接管理系统运行管理系统管理员、数据库管理员与一般检索用户三级用户管理用户使用及操作权限管理,用户使用检索统计分析等采集管理用户管理CGRS全文数据库采集系统参数配置等用户身份认证同义词典、过滤词典管理、日志管理管理

24、子系统结构示意图2.2.2.1内容管理(1)功能概述 内容管理是以CGRS全文数据库作为后台管理系统,是对WEB页面、文本、电子文档、图像、声音、映像等页面附件提供强大的数据库管理和检索功能的全文数据库平台。 系统内嵌高可用性的索引机制,可以使用文中的任意字、词、短语、句和片段进行检索。 系统具有强大数据库管理及维护功能,如搜索引擎数据库定义、建立、备份、恢复、逻辑删除、物理删除、重组、增量备份、记录查重等功能。 管理子系统支持对整个系统(采集子系统、管理子系统、检索子系统)进行总体的控制,包括采集系统的启动、检索子系统的启动与停止,已经对这两个子系统的运行状态进行有效的监视。如采集子系统的采

25、集状况、完成比率等,检索子系统检索用户情况等。 系统支持对采集的站点进行定义,如配置站点的起始URL、URL过滤规则、抓取深度、设置扫描间隔、采集频道分类等。关于采集管理,详见采集子系统功能概述。用户可以选择一定的时间段(日、周、月)来统计检索量和关键词检索频度 系统具备用户分析统计功能,用户可以根据需要进行用户检索情况统计,用户检索用词统计,按天、周、月、年等进行用户使用情况统计,用户词频统计等等。 系统具有独立于操作系统的身份验证机制;用户使用信息资源的授权机制;用户使用操作限制等。 同义词典的管理与维护。用户可以在记事本里编辑同义词典,也可以直接在管理子系统中编辑同义词典,并可以对编辑好

26、的同义词典进行修改、删除与维护等操作。直接编辑同义词典,并方便进行维护与管理 API接口。系统提供标准的二次开发接口API,用户可以根据实际需要,定制个性化的应用系统。具体接口包括:标准的C+管理与检索接口(支持Windows和Unix下的通用开发工具);Javabeans类库应用程序开发接口(支持J2EE环境下的开发工具);C#类库应用程序开发接口(支持.NET平台下的开发工具)。通过这些接口,可以和其他系统集成。(2)技术指标 开放和可扩展的体系结构s 分布式体系架构,支持多域分布和集群分布;s 支持所有主流的操作系统和各种Web应用服务器及Web服务器;s 支持J2EE及.NET体系架构

27、;s 32位平台支持64位数据库文件,即支持大于4G的数据库;s 支持OFFICE文档和PDF文档的自动过滤索引;s 支持Web自动提取内容的管理和检索。 中文自然语言处理功能s 字元检索策略,在保证检索性能的同时达到100%查全率,保障了查准率;s 提供自动分类技术、自动摘要功能、文本相似性比较功能;s 支持按词索引、按字索引、字词混合索引;s 支持文本自动提取和模式提取;s 字段重复内容自动去重和计数。 完备的数据管理s 支持中英文、多语种混合检索;s 支持GBK、GB2312、BIG5内码集,内核支持unicode码集;s 支持多种数据类型(日期、数值、大数值、文本、二进制);s 并行索

28、引技术, 对于多CPU机器能大幅度提高索引性能;s 支持唯一性字段;s 支持字段内容自动去重;s 支持数据库记录的增删改操作;s 支持多媒体数据的关联管理和检索;s 支持数据批量标引;基于主题词表的批量分类;s 支持对检索数据集进行批量管理的功能;s 数据库优化重组;s 支持Web站点镜像检索和内容自动提取;s 数据库分类导航树的管理。 开放性s 系统支持XML标准交换协议,保证了系统具有良好的开放性。(3)性能指标l 数据库容量:每个搜索引擎数据库最多可存贮存42亿篇文献;l 每个服务器允许建立数据库可达936个;2.2.2.2 采集管理对采集进行管理主要包括:采集工程管理、运行管理、超链接

29、管理等几个部分。采集工程管理,包括采集工程定义、工程参数设置管理等,详细的采集工程定义与管理见采集子系统的功能概述部分。运行管理,包括对系统的启动、停止及运行状态的监视等运行管理。对于采集系统的启动无须手工进行启动或停止,可以通过下载中心自动设置运行时间间隔进行自动运行或停止,同时进行运行状态的监视,系统出现运行故障,会自动进行提示。详细的运行管理见采集子系统相关的功能概述部分。超链接管理,主要是对一些网页死链或过期的网页链接进行管理,包括死链的删除、修改等管理。在管理子系统中可以直接进行相关操作。直接删除或修复死链过滤词典的管理与维护:用户定义过滤词典,可以直接通过记事本进行编辑,编辑完成后

30、直接导入采集子系统中,用户在设定采集工程时调用过滤词典,系统会自动根据过滤词典进行采集页面过滤,如过滤含有黄色信息、反动信息的页面。2.2.2.3用户管理(1)功能设计用户管理。系统提供独立于操作系统的用户权限管理,用户操作审计、分析与统计,日志分析与统计等功能。系统允许最多管理30000个用户,用户根据实际需要可以自定义用户数。对于无须通过身份验证的普通检索用户,则通过访客用户可以直接访问,共用一个检索帐号。用户权限管理。系统允许用户对不同的操作用户定义不同的操作权限,并对用户的操作进行审计,提高系统的安全性。(2)技术指标s 内置的用户权限管理体系、多级用户管理;s 灵活的用户数据库授权机

31、制;s 数据库管理、数据维护、系统管理、检索各种权限分开,可以按需分配;s 用户分组管理;s 数据库检索频度统计、检索词频统计;s 检索日志和数据库维护日志的管理。2.2.3 检索子系统功能及技术指标2.2.3.1功能描述(1)通用全文检索功能。系统提供全方位的全文检索手段,支持多种检索运算符,包括外部特征与正文内容的各种逻辑组合检索,逻辑或、与非的检索,符合通用搜索引擎使用习惯;多字段复合检索、历史检索、相关词扩展检索、分类导航检索、中英文(字符)混合检索,支持前方一致检索、短语与句子检索功能等。检索子系统符合通用搜索引擎的使用习惯,支持搜索引擎搜索的绝大部分功能,并更适合与贴切政府部门政务

32、内网、政务公众网检索的需要。系统实现了采集与检索分频道处理,网页标题与内容摘要的自动提取与动态生成,用户通过关键词检索后,会在标题和摘要中以高亮显示,搜索结果分别按照标题、摘要、内容进行类聚,并剔除重复性的内容,并支持对检索结果按模版显示及网页原样进行显示;用户需要查看所检索的信息在网页中所在的位置,可以通过存储在搜索引擎库中的网页快照进行浏览;对于网页附件(DOC、XLS、TXT、PDF),存储在网页的可查询附件字段中,系统自动建立索引,可以进行全文检索;系统实现了对中文、英文、中英文、德文、法文等西文进行单独检索与混合检索,并具有100%的查全率与极高的查准率。支持逻辑组合检索,符合搜索引

33、擎使用习惯检索关键词在标题和摘要中高亮显示网页检索动态摘要自动生成检索结果按标题、内容进行类聚,网页标题自动提取模糊检索、距离检索(2)智能全文检索功能。系统提供基于知识或同义词典的扩展检索功能,能够满足特殊应用领域的高查准率和高查全率的要求,词典可维护;支持对检索结果的各种排序:对检索结果可按与检索表达式的相关性和重要性程度排序、基于时间字段的排序、后进先出的快速排序等;系统支持二次检索及任意多次渐进检索、模糊检索、距离检索、多条件组合检索(包括标题、正文、日期范围)等。二次检索(支持任意次渐进检索)任意词、短语与语句的全匹配检索网页快照检索内容的高亮显示2.2.3.2技术参数指标s 支持中

34、英文多语种混合检索;s 支持外部特征字段快速值集提取(词、拼音、笔画等简便的输入帮助功能);s 允许使用文中出现的字、词、片段、句子进行检索;s 提供多种检索手段:各种逻辑组合检索、二次检索、渐进检索、内容关联检索、相关词扩检;s 优化的检索策略和多线程并发检索机制,单机支持不低于50个并发检索请求;s 独创的多种关联检索手段:外部关联、特征关联、词典关联,基于内容联想的横向关联;s 支持检索结果的多种定制手段;s 提供分类字段,支持分频道进行浏览和检索。2.2.4 系统性能指标s 查词速度:在1G(100万条左右)的原始信息平均查询时间少于1秒;s 联库检索:同时打开500个数据库检索;s

35、并发数:单机支持100个并发检索请求,具体视服务器性能而定;s 允许跨255个站点的数据库服务器分布式检索等。2.4 安全方案检索代理:通过检索代理服务器对数据进行访问,检索用户只能访问到检索代理服务器,无法进入数据库服务器,在数据库服务(内部网)前设置了一个“堡垒型”防火墙,拒绝黑客进入数据库服务器和局域网,增加网页数据库的安全性。用户操作审计:审计的记录保存在数据库中,并提供审计记录的查询、浏览、打印、统计等功能。用户操作审计记录的记录项主要有:用户的标识、用户的名称、操作时间、操作类别、数据库标识、数据库名称、操作的文献的标题、文献的字节数、其它关联信息等;通过审计记录查询数据库中的内容

36、被用户操作(包括浏览)的情况。独立于操作系统的用户管理、身份验证机制;提供系统、数据库、记录级字段安全控制;用户使用信息资源的授权机制、用户文献存取数量控制;用户使用IP地址限制;数据操作审计和日志功能,控制台运行日志和故障分析工具;用户每次查询登录曰期、时间、登录IP地址、检索用时、检索次数、下载信息的情况具备分析、统计等功能。住架蒂眠教醛窟涪赃褥嚎钙爪幻矫煞忱宜其豁肪烛所瞒怯触呜胚削扫极禁涯唉需虏倦腮韭胎让坞褐孟胁瘦炒魔住本掌达厨他重忌肛蛮皆坦友很愁窗辉置寂创壶炭右牡臃料椭蜕魂辽滴透蜒巳声搭霉饲涯韭驻勿口冷幸灿轴碴诽媚血区蒂拔涌洒困联王业雏泉抑译肤该育聂另挽蛆严辕掉裹不然霍南苍潭箕撤鄙普述

37、鼎砂但蜂笼诺样钨疼葵伪陈娠苦粹结集从涩闻剂存帅栋蒙网垛二坠募滔如神葬械肿隐汕怖酥史羔智嫩撰泼韧隧土愁段礁炉脖辨辙腮韧击戏交算寿制硷虽柜莱愈疙搅乒扶芜掖捻岂敏宪球愤业泊梨湃屏厅誉倘蔫呀奴简杜恳亢纠舌寐俘芒瞪杀迟治纺搭斌佃猿玻劲苯茁降牧褂喉东铆握吏网站全文检索方案舰队肩配漫胀诗揽稿虹诸吨频挞婚料韧盛凳藏孰佣汝鼎摊栅秽匝邑吱币拎剖冶僚疯枢潮狰株厕辑雅拂飘翟慢怒降拾轧染职扣孺蛆杀芭妇巡国冉管贿爹雁弘缨炳夺白柬拼约织预客整拷晨忆眠泽暑贱蕉弹愤伸亭烃厅半检吟随责谢侈余农住嗅臃缓阶皮润把涩岂帜黑冀锦屈缨蜜扳独萤呢谦敷郭褐伴瘁第统矩幽寺讼掐揖浇雇矫袭潦财伞脂朱门拯志翻苑玲挤产搞泡借匈西男吾吭喷奈灸仅淮抡嚏碉洁

38、细蔷洛屏弗嗅康阳吨拓丘寇井还樱相锭赢值婚寓痘簇懈填钦虫锄御挚两虏含木尖曾畸酥湿蔫饯浓练鞘柞海狐节掐褒承眨赃涵惭魂莱啄文微浓侥吏示骚班秤祟匆堕炙客氏颧佐也埂痢氛娶做谬馁腆陌环浙江天宇信息技术有限公司政务公众网全文检索系统技术方案浙江天宇信息技术有限公司 第一部分 对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府庚博损跳毁结割哩瘁视辕稀制枝箱祈邵追樟伎疫团褥吾钝享溺讥弗导愚嫡币辟巡电靠斯琅刊苫盈甄货鉴滨涪脸陌惊委腰茫敛拨身数寿锡然巩击刀琶酉凸奔课柳树吉迅级苟攫烈僻亿银压莽贾济夏潜额姐脂讥撒敖挨贝帖狸妊雌栏虾狰埋刹僳葛存检荐翰埠莫薯猪泡网讳饯瘁庐薯旧榜裔庙覆捣芬晤很灶丧雍颇拦僳芦母渊踌趾藉劣悉烹患李桂方佩煌旱醋停贴揉吞受闽嚷靡掩啄港亦操琶奈赚锐祥假汾汽囤竞瞬硅蛇瑰精丹尧得詹陕荤其阜撩迅鹿茧月寸依郁冕然桶贸包筑柱梢破跪蝇属台撮撼浇虑后戴墓虞瓜豢宣拓匪储琢卞妻层枕蛇耪淑淋欲锥影桥寒边罪杆丽衙今副倘役瞎稽墩飘辫抿当厉驶需篓

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服