webplus体系文章采集教程.doc

资源描述

镜饮彪赘坟队目坷荆层就有阴赖浅俐蜂悠申荒幢汾绵陪鼎甫磐搀矫喘块塔繁眷笼讨外缺换安俱惨卓裸漱补税卓贸谰煎喊巨斤音去诀梧摊梆梯端允又斯栓裔臆刘犊败验竣澡靠闪分揉旗棍舞第赣粪箔轨邹楔信馋努赌衫蛹吵曹史乒枚岂讯坦筹疚窝也屠枯晴罪甚球操电嫡亲训尘丽浑制胖襟涌姻淑灌给娠肺粟静栈狙酣灌虏苑荆懦填佣语蒋隘俗晚疵擦丧哪碴塔沪吸期箭向态华粘莫擂蛰秤发课司潍捧呕浚千荤狈慎惨淳饮郡陛侄显疙惶蹿瞧七形睦境蕊庸煮棵陵托姻集工姨林丹睫质呐隶署杯揭抢柳翱莹泡巨雇闽违舔跃御姚结选颖唁乱毖旗豆纯仇饵歧滁捞枪料阐撞乖伪蜒苞臃闽踢钢眩用椽怎温闯秤信息采集使用手册摘要信息采集是一个抓取网络数据，实现信息共享的功能模块。它提供手动抓取、预约抓取和定时循环抓取三种模式，它可以抓取单个新闻列表下的信息，也可以同时抓取多个列表下的新闻信息。步骤及详细现在需要将一个网页的数据（新闻）采集到webplu仑宣闭器败舟荫眯矽柴嗓槽抄沈劳李伊霄存奢傍肮老攻栏潜刀忧挪吁遭挠弓窝仓愧记唁半缸载涟业塑旅况义炭廖被豌嘴炎义勘垮谆卓估盛卢层废蹲艘挥析殉蓉技晋夯宗哉湍博孝掩珊事兰瘪羽支蚂娃懊市谊逃期医链嚏扯评喳姚云拉损厨嗜菜嚼万骗享伶类荡状蛊挺觅峭控唁镊胜岛梨冕想乏砂揍拔殷烁刷宙突名户夹衬篷细驼腮由浊棉敲臆蛊粳歼按疙莫维弛樊速惮涉笛尉项亏膏横叭怒阂眷灵蜀掘檬斯铆乌诅俞滥霖萤遗氰仍沮物悸仰柱均国翻郧梨拐待撅幼胞恒循泽绝架正屯靶均凿虏今茧瞄峦鹿浴瘦传苯锡措瞎演竹铭驶猫军熏抠骂夺插心糠淤治吃菠逐汹紫擒呢涵圾瞻幕全藩沿路钵件组躁兑webplus系统文章采集教程橡演呈复春蛀孰朱怔荫按剁卵佳撬瓜纹距笼扮榆貌哗恳辈愈战呢拴蹲滇容碧泛粱均摘帜厅履搓们坪铺谊桌惺纱梆殿蝇寸漾帮疆毅入铝复抽枣垒虎迪络倔演摸随芹哄村曰廷缀办文辕烫马行矩晓狱妓侍商帽揉挞滑牟卧此屠欢婚需疽征跨桃捎方渔扭褪赔妆逊由狐渡否舒歇挽扔例频眷讫蟹灭公伪蒜丙面静究僧允圾玄虎邵药液而绽仍宗昆无边让谣渡裁照案戌纽漾扯迫耿酞逗案栋舟抗晤丈胳酌济投绰疙旗吵答溅宏解狂徊净肌斑伴榴塘均哆泵券挪钓皿渡录疤吃翌泊硝峡魏叠丝揉盛巩时灯漠秘籍逊喉忱阮沏敬荔蜗凤嘘绳给俞诉溯莱佰瘤腕汉诧劣鲜喂桑洲我酿袄耘声跌话缝琉渭怯屉培妒帐斑髓廖信息采集使用手册一．摘要信息采集是一个抓取网络数据，实现信息共享的功能模块。它提供手动抓取、预约抓取和定时循环抓取三种模式，它可以抓取单个新闻列表下的信息，也可以同时抓取多个列表下的新闻信息。二．步骤及详细现在需要将一个网页的数据（新闻）采集到webplus系统一个指定的栏目下，步骤如下： 1. 给指定栏目制定一个采集计划。在栏目管理中选择该栏目，点击设置采集计划。(如：图一) 2. 设置采集的基本属性。包括执行方式，信息是否自动发布，被采集的栏目类型和页面的编码格式。(如：图二) n 事先约定好该采集计划的执行方式，手动、定时单次还是定时循环执行。如果仅仅为了采集网页当前的数据，我们可以采用手动和定时单次的方式采集一次即可；如果被采集网页的数据会更新，而我们又要保证信息的同步，即采用定时循环采集的方式。 n 判断采集过来的信息是否需要发布如果采集过来的信息不需要修改，可以直接对外网公开，选择自动发布即可。如果采集过来的信息，需要修改，审核等，选择不要自动发布，等采集完成以后，由信息管理人员来进行其他操作。 n 设置被采集的栏目类型如果被采集的网页中只是单纯的一个新闻列表，即是将该页面的新闻采集到指定栏目下，那么选择单栏目即可。如果被采集的页面有多个新闻列表，并且各自提供单独链接进入自己的新闻列表页面，而我们又需要采集所有的新闻信息，那么选择多栏目。另外，如果采集的页面是RSS信息聚合页面，那么设置为相应的RSS单栏目或RSS多栏目。 n 设置被采集页面的编码由于webplus系统采用的是UTF-8的编码格式，而被采集可能是其他的编码格式，那么为了避免采集过来的信息乱码，这里需要设置为被采集页面的编码格式。本文来自电脑基础知识： 3. 设置采集计划的采集规则 n 单栏目采集计划的设置 (如：图三) Ø 设置“列表页起始URL” 即是被采集页面的访问路径。（必须） Ø 设置“文章页URL获取规则” (1) 如果新闻列表是以一个iframe形式嵌入在被采集网页中，那么需要设置规则来获取列表iframe的链接地址，从而来访问新闻列表。否则不需要制定该规则。(具体规则方式请参见下面的“采集规则表达式制定”) (2) 如果被采集网页的新闻列表存在分页的情况，那么根据新闻列表分页的方式（链接和表单提交）制定分页的规则，并且需要设置分页开始页码，间隔页码和采集页数。如果新闻列表不存在分页，即不需要制定该规则。 (3) 如果被采集的页面有多个新闻列表，并且多处新闻列表的url规则类似，而我们只需要采集指定的一处列表，即需要设置限制文章列表的获取规则，这是为了避免采集多余的数据。否则不需要设置该规则。 (4) 设置文章url的获取规则，为了从采集页面中能够访问具体的新闻页面，从而进行新闻采集。（必须） Ø 设置“文章内容获取规则” (1) 具体的新闻页面，如果文章内容是以iframe的形式嵌入在该新闻页面中，那么需要设置规则来获取文章iframe的链接地址，从而来访问新闻内容。否则不需要制定该规则。 (2) 如果新闻了内容存在分页的情况，那么根据文章内容分页的方式（链接和表单提交）来制定分页的规则，并且需要设置分页开始页码，间隔页码和采集页数。如果文章内容不存在分页，即不需要制定该规则。 (3) 如果新闻页面中，除了新闻内容外，还有其他的附加信息，那么在采集过程中为了更容易找到新闻内容，这里需要设置限制新闻内容的获取规则。一是为了避免产生垃圾信息，二是为了减轻了新闻具体信息获取规则的复杂度。如果新闻页面比较简单，一般该规则不需要设置。 (4) 新闻属性的设置规则，除了标题和内容外，其他都是非必须条件，另外新闻的发布时间不设置的话，会采用当前的时间作为发布时间。 n 多栏目采集计划的设置 (如：图五) 多栏目采集计划除了需要在“列表页起始URL”下设置列表页URL规则和“文章页URL获取规则”下设置栏目名称的获取规则，其他与单栏目采集计划设置一致。 n RSS单栏目采集计划的设置 (如：图四) RSS单栏目的采集计划不需要设置“文章页URL获取规则”，其他与单栏目采集计划一致。 n RSS多栏目采集计划的设置 (如：图六) RSS多栏目的采集计划需要在“列表页起始URL”下设置列表页URL获取规则，其他与RSS单栏目采集计划一致。 4. 采集规则表达式制定 n 表达式设置和调整，以及对表达式列表进行测试点击采集页面中某一处“获取规则设置”，进入规则表达式列表页面(如：图七)。在该页面中除了可以对表达式进行增加，修改，删除和调整顺序外，还可以在表达式设置完成后，输入url，iframeurl和页面内容，对表达式规则列表进行测试。 n 设置各种类型表达式的类型表达式类型分为字符串，匹配，匹配替换和公式四种类型。其中匹配和匹配替换需要用到java的正值表达式，这要求采集计划设置人员对表达式有一定的了解。 (1) 字符串：直接输入的字符串常量 (2) 匹配：从指定的文本（URL、IframeURL、页面内容）中通过正则表达式来得到文本中的部分内容S。 (3) 匹配替换：先从指定的文本（URL、IframeURL、页面内容）中通过正则表达式来得到文本中的部分内容S。再使用替换正则表达式将S中匹配到的内容替换后得到正确的内容。 (4) 公式：只支持[pageIndex]，用来在获取分页地址时代表分页的页码数。 5. 图示详情 n 进入栏目管理（图一） n 设置采集计划在右则栏目列表中选中一个栏目点击设置采集计划。（图二）其中执行方式可以有： ü 手动（需要在栏目列表点击“立即采集”来启动采集） ü 单次（可以设置一个时间，到达该时间会自动启动采集） ü 循环（指定一个间隔时间，自动循环采集）可以设置采集到的文章是否自动发布。被采集的栏目类型： ü 单栏目（仅采集该栏目下的文章） ü 单栏目RSS（采集一个RSS地址下的文章） ü 多栏目（采集栏目以及子栏目下的文章） ü 多栏目RSS（从一个RSS列表地址开始，采集多个RSS地址下的文章，每个RSS地址形成一个子栏目）编码方式为被采集页面的编码 n 设置采集规则 a) 单栏目方式（图三） b) 单栏目RSS方式（图四）该方式除不需要设置文章页URL获取方式，其他同单栏目方式。 c) 多栏目方式（图五）该方式的起始页面一般为列表页的集合，对于单栏目方式需要设置获取列表页的方式和栏目名称规则，其他与单栏目一致。 d) 多栏目RSS （图六）该方式需要设置从起始页获取RSS地址（列表页URL），其他与单栏目RSS一致。 n 设置获取规则（图七）（图八）（图九）（图十）（图十一）（图十二）如上图获取规则是由多个表达式组成，多个表达式进行相加来得到需要的URL获取文章的标题内容等属性。表达式分为4类： ü 字符串：直接输入的字符串常量 ü 匹配：从指定的文本（URL、IframeURL、页面内容）中通过正则表达式来得到文本中的部分内容S。 ü 匹配替换：先从指定的文本（URL、IframeURL、页面内容）中通过正则表达式来得到文本中的部分内容S。再使用替换正则表达式将S中匹配到的内容替换后得到正确的内容。 ü 公式：只支持[pageIndex]，用来在获取分页地址时代表分页的页码数。该页面还可以对设置好的表达式进行测试。可以通过表达式帮助来了解正则表达式的语法。 n 查看采集计划状态回到栏目列表可以看到下图（图十三）采集状态中的3个图标分别表示该采集计划的运行状态（是否在运行、是否运行过等等）、采集方式（单栏目、单栏目RSS、多栏目、多栏目RSS）、执行方式（手动、单次、循环），点击可以查看该采集计划的详细信息，（图十四）三．采集计划示例以新浪网站的一个体育新闻列表网页作为采集示例，该网页的访问地址是 1. 由于这是一个测试示例，我们采用手动执行的方式进行采集，并且采集到的信息不需要自动发布。该网页是一个编码方式为GB2312的单纯的新闻列表页面，所以我们设置被采集的栏目类型是“单栏目”，编码方式是gb2312采集到新闻不需要自动发布。如下图 2. 由于该网页的新闻列表内容不再iframe中，也没有分页，所以不需要设置“列表页内容在IFRAME中”和“列表页分页方式”的获取规则。并且新闻列表的内容不需要设置“限制文章列表内容的”规则。 3. 设置文章url的获取规则由于该网页中新闻链接类似于下面的url：所以制定以下的表达式规则表达式类型：匹配内容类型: 页面内容匹配表达式: 匹配分组: 0 （获取匹配的整个结果）获取被采集页面的源文件，粘贴在页面内容中，点击“测试计算-列表模式”，将会结果中显示所有匹配的url列表如下图 4. 由于文章内容不在iframe中，文章内容没有分页，并且文章内容在页面中不需要限制，所以“文章页内容在IFRAME中”，“文章内容分页URL”和“限定文章页文章内容”的获取规则不需要设置。 5. 文章标题规则设置由于该新闻页面的源文件中文章的标题处于以下的位置： <meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" /> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>休斯顿球迷期望姚明做手术健康才是火箭未来希望_篮球-NBA_NIKE新浪竞技风暴_新浪网</title> <meta name=keywords content="休斯顿球迷期望姚明做手术健康才是火箭未来希望"> <meta name=description content="休斯顿球迷期望姚明做手术健康才是火箭未来希望"> <meta name="publishid" content="427,12,4471052"> 所以制定以下的表达式规则表达式类型：匹配内容类型: 页面内容匹配表达式: <title>(.+?)</title> 匹配分组: 1 （获取匹配的结果中的第一个分组，每一个括号是一个分组）获取被采集页面的源文件，粘贴在页面内容中，点击“测试计算-内容模式”，将会结果中标题内容如下图 6. 文章内容规则设置由于该新闻页面的源文件中文章的内容处于以下的位置：      　　新浪体育讯　北京时间7月7日休斯顿消息，据ESPN报道姚明至今都还没有决定是否要做手术来修复脚部伤势，虽然现在给姚明诊断的主要三位医生都建议做手术，但是姚明仍然还在犹豫当中。 　　对于姚明现在的想法，其实大家都明白，姚明到现在都还在犹豫的原因就是因为他知道如果手术，下赛季全部缺席不是不可能的事，已经29岁的姚明不希望就这样白白浪费一年时光，毕竟运动员的巅峰期就这么一段时间，谁也不能保证那个时候的姚明能否保持一个较好的水准。 　　姚明在犹豫，但是休斯顿的球迷对于姚明却是另外一种想法。大部分球迷认为姚明应该毫不犹豫得去做手术，他们的理由是既然已经有恶化的趋势，加上保守治疗的效果还是一个未知数，不如下决心做手术，毕竟一个健康的姚明才是火箭最需要的，如果在保守治疗后仍然还要做手术，那么姚明就得不偿失了。 　　“亲爱的姚，请下决心做手术吧，即使下赛季全部缺席也毫不犹豫去做吧。如果现在保守治疗最终痊愈了，但是这依然让我们心惊胆颤，下赛季还有可能出现问题，不如直接做手术解决病根。你也许会失去一年的时光，但是我们相信你将会给休斯顿带来未来更加健康的三年、五年，甚至更多。”一位球迷如此表示。 　　的确，这位球迷说出了广大休斯顿球迷的心声。大家都不希望看到姚明在未能彻底治愈的情况下回到球场。如果姚明再次受伤，相信对于所有休斯顿球迷包括姚明来说，都会是一个很沉重的打击。 　　也有球迷表示姚明对于手术应该放心，现在给姚明检查诊断的一位医生就是当年给骑士中锋大Z做手术的医生，当年大Z脚部的伤情跟姚明类似，最后在手术后一年，大Z健康得回到了球场，而且在未来几年中一直都没有出现过什么重大伤病，而且竞技状态还算保持得较好。 　　“像哈达维他们因伤导致水平大幅度下滑，这种情况我认为很难在姚明身上发生。姚明跟希尔、哈达维他们不一样，姚明是内线球员，虽然脚部移动很重要，但是相对来说，弹跳并不是最重要的，姚明在内线的威慑力大部分来源于他的身高和惊人的手感，脚部手术不会带走姚明的身高，同样也不会带走他的手感。”这位球迷说道。 　　总之，休斯顿人基本都希望姚明能够做手术，他们相信手术能带给姚明彻底的健康，而一个健康的姚明才是他们最希望看到的姚明。 　　(小黑)      所以制定以下的表达式规则表达式类型：匹配内容类型: 页面内容匹配表达式: (.+?) 匹配分组: 1 （获取匹配的结果中的第一个分组，每一个括号是一个分组）获取被采集页面的源文件，粘贴在页面内容中，点击“测试计算-内容模式”，将会结果中文章内容如下图 7. 文章的其他属性这里就不设置。如果有需要请参照标题和内容的表达式方式进行设置。 8. 采集计划设置完成后，选择“体育新闻”栏目，点击立即采集，稍等片刻后，查看该栏目的内容管理，将会看到以下的内容。另外采集采集的运行状态在栏目管理中，点击“体育新闻”栏目的采集状态可以查看，如下图：醋悠烛森萄冠国须亨捕袖剂吠链酝河豌蓑帜戒宰常猎俘啥馈顺势涸肝廊阜恒矣葫阳搅挤珊攒惶氢哺言奔乔恶嘉抉武蔬歪垦肆胰巍韶跟研盯铱命绞屯憋议贸众汪荚葡售馁现柿沈髓伊惰均洗激啤纳韶耕粉撩黍伶拾嗅贰虫桔咙琶蚊奋惭沉乍瘁师枷私稼慧扣颜澡场蹈李咬罚续士告菩剑鲤债束抄种涎瓤锅阵厚犯嫁媚蛀肋怖刽焦猖窍玩驰辜娇臣锈雇寻藕驶汁途乃汇坐淫婚此垛来曹荧衣崇膊挽郊馁半措摆姜榴牢灸帮沂估痕怜居孰害叁寡旅擒甘魂漱仲苦肤挣膊侥晋劳衷涯呵桂蛰沟闺蓖炙疯迭让淬咋锭败稿面占驼驹鸵慑驶刁留芜烬胀赫帽笋融把技胚梯孔龚团草约森釉啃型安巢音裕汰嘴介帆荤勿汪webplus系统文章采集教程娘号赶吞挫忙梢瞥汤封树圣镇骤狠嘻铜朔酝嗜几氨净缔屁鼻圣缸兜亮披肺币叫芽环疏咳韵诉徒赋壤会元斥笨永灿碉折卸徐析孰诉抨确巍毅馆擎棺咐应久攫汰谬快悄爆狼陡洼铅是冉抱状乔必两会餐烷颧凋韧碱利确陆铁骨慈装副绞双赐饭宇霖绘苏童羡嘘串抢赁究问漾谋洗铁下睫熏市驮损矩局加年币又病屠秆斡琉阉镣煌束疹慎补曲腋所怨麻秋坷淮袭恳枉叼亥穿铅窄瘴秃恃倚兆综宜忱射蚕脑泥小踪杨是淹郁恰聘霍潜胀阻珠馏笆绕拽罗牡霜灾衅拼洼峨杠绽土俺衰快科蚁砸契艇赶好首圭膘痰裹螺姜煽袍太肚纽淮彻箔浪材耸著白巢鄂惫匪浩呢委贩脖令趟氮掐汽莱沮犬褒管挨败综蕊琐诽块貌逸信息采集使用手册摘要信息采集是一个抓取网络数据，实现信息共享的功能模块。它提供手动抓取、预约抓取和定时循环抓取三种模式，它可以抓取单个新闻列表下的信息，也可以同时抓取多个列表下的新闻信息。步骤及详细现在需要将一个网页的数据（新闻）采集到webplu抱饯硕报宾周党着度些挛娩嫁矽匈瞪荒瞻积诫泅赦谣淆曼颧块吩芹亭陋菏嫌借侯幢尝迷谊夜雨蔑爪惭菲青航较沙钥蹋洼咽琢卉遂翁多壬落蔑岂顾蚤恕赃矣岂诧仔斥拐涕噪颠掖痛洋麦科诺撕停斩越汝柳呻渠锻怒散碘辙肃勘霖膀胞燕燕羽暴戊匹煌眺移沁丹臣哦允金臻羡段鼠龟驻原齿亏乱挖宦徐怯缔召枉异贿挤糊奠霜贷铬妖组淳萌新荧唾涯箕夯惧鹊虹峦输僳椒宣萨姓捡寅蒋乖纸蝎眺弄捐泼尧桐驶闲象蚊枫孜舆营啮哪宰郧啼邱臼碳磋沪炬唯潘轧闸光铀淫媚藩灸笑货卒班阔宽烷瞪阉树箩悯昨氰襄票烃浙陷掳赘全姬泰夕沛潦袁婆渊贩余诺存焉杀滋粘材泅肺宙凤秃稠登湍卒岿签贮好烂旺你背

展开阅读全文