你正在下载：《

关关采集器规则编写教程图文详解版.doc

》 [预览]

格式：DOC ，页数：8 ，大小：190.54KB ,
资源ID：9475018 下载积分：6 金币

验证码下载

登录下载

邮箱/手机：
图形码：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/9475018.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4009-655-100；投诉/维权电话：18658249818。

本文（关关采集器规则编写教程图文详解版.doc）为本站上传会员【精***】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

关关采集器规则编写教程图文详解版.doc

1、首先介绍一下关关采规则当中需要用到部分标签 \d* 表示数字 \s* 表示空格+换行 .+? 表示字符(不能为空) .* 表示字符(能够为空) () 表示我们需要部分 ((.|\n)*) 章节内容部分, 包含了换行。 =====与杰奇后台标签对应关系===== !!!! 相当于 ([^><]*) ~~~~ 相当于 ([^><'"]*) ^^^^ 相当于 ([^><\d]*) $$$$ 相当于 ([\d]*) **** 相当于 (.*) 第一步: 我们先复制一份原来规则做模板（规则文件存放在Rules目录下）。比如说我今天演示采集站

2、点是阅微阁（.com）这个小说站点那么我就把我复制那份做模板规则命名为: 阅微阁.xml 这个关键是便于规则管理。第二步: 运行采集器里规则管理工具, 打开后载入刚刚我们命名为阅微阁.xml文件。第三步: 现在能够正式编写规则了, 我们写规则时要找标志性代码必需是整个页面里唯一代码, 其次我们取用部份代码越精简越好。 1. GetSiteName(站点名称) 这里我们写阅微阁（在实施任务时会在上方显示） 2. GetSiteCharset(站点编码) 这里我们打开.com源代码查找 charset= 得到charset=gbk这个gbk就是我们需要站点编码 3.

3、GetSiteUrl(站点地址) 写入 4. NovelListUrl(站点最新列表地址) 因为这些每个站点不一样, 这个就需要自己去找了阅微阁是 5. NovelList_GetNovelKey(从最新列表中取得小说编号) 此规则中需要同时取得书名, 取得书名是在手动模式时候用到, 假如你要用手动模式那么必需取得书名, 不然手动模式将会无法使用。我们打开这个地址查看源文件, 我们编写这个规则时候找到想要取得内容所在地方, 比如我们打开地址看到想要取得内容第一本小说名字是“赘婿”我们在源文件里面找到“赘婿”复制代码我们编写规则用到代码其实也不是很多,编写规则标准是能省则省

4、也就是说代码越短越好除非万不得已通常精短部分比很好。好了不废话了, 在这个规则里面我们需要用到是《赘婿》复制代码我们将这段改改成: 《(.+? )》复制代码其中 (\d*) 表示编号 (.+? ) 表示小说名 .+? 表示替换此位置字符, 经过测试正确 6. NovelUrl(小说信息页地址) 这个很轻易, 我们随便点开一本小说就能知道了, 比如说, 我们能够看到我们改下将里面633换成 {No

5、velKey} 7. NovelName(取得小说名称正则) 我们还打开刚才那本书, 取得小说名称那我们在源代码里查找赘婿, 此代码要源码中唯一赘婿复制代码这一段我们改下 (.+? ) 下面 NovelAuthor(取得小说作者)、 LagerSort(取得小说大类)、 SmallSort(取得小说大类)、 NovelIntro(取得小说介绍)、 NovelKeyword(取得小说主角(关键字))

6、 NovelDegree(取得写作进程)、 NovelCover(取得小说封面)这些呢我就不具体演示了, 这些跟上面那个取得小说名方法是一样, 也就所谓一通百通。需要说到是取得介绍时候最好用 ((.|\n)*)来替换, 因为中间可能包含换行。 8. NovelInfo_GetNovelPubKey(取得小说公众目录页地址)很多站目录页地址有子ID在前边, 所以我们要采集目录页地址我们取得代码以下: 打开完整目录列表复制代码这一段我们改成:

7、href="(.+? )">打开完整目录列表 9. PubIndexUrl(公众目录页地址) 这个里面写入{NovelPubKey} 1. 10. PubVolumeSplit(分割分卷), 这个分割分卷, 有些地方需要注意到, 假如分割分卷正则没对, 那么有可能对于下面取得章节名那些有很大影响, 这里我们怎么取得分割部分代码呢？按我经验, 是找到第一个分卷跟下面分卷查看她们共同处, 现在我们分析这个目录章节源代码, 能够看出分卷代码为

2. 标签, 所以分割分卷就填写

11 . PubVolumeName(取得分卷名) 分割部
8、分用到

所以分卷名为

(.+? )

12. PubChapterName(取得章节名) 这个我们拿一段来说明

第一章降临五行山

复制代码假如有碰到时间、日期、更新字数什么我们直接忽略, 因为这些不是我们要取得内容, 这个我们能够用 .+? 来表示。好了我们吧上面那一段改下改成表示式

(.+? )

（假如不是单行话我们用\s* 来表示N个换行符) 13. PubChapter_GetChapterKey(取得章节地址

9、章节编号)) 这里说明下这个里面章节编号是在下面 PubContentUrl(章节内容页地址)用到, 那么这里我们需要取得是章节地址分析得到

.+?

这里既然是取得章节地址那为何我们还有用到章节名呢？这个说下关键就是为了避免取得章节名跟取得章节地址不匹配。假如是章节页是乱序这里就要取得章节编号了（强烈提议用户用取得章节编号） 14. PubContentUrl(章节内容页地址) 这里拿这个来说明下该怎么设置, 直接填入: {ChapterKey}.html即可 15. PubContentT

10、ext(取得章节内容) 这个我们就拿, 打开源代码我们看到在文章内容前后有这么两处代码复制代码这里我就直接改成正规内容取得代码以下

((.|\n)+? )

复制代码这里说明下((.|\n)+? )为我们要获取内容, 切记这两处代码必需要是源码文件里唯一。 16. PubContentImages(章节内容中提取图片正则) 章节中图片也就是我们所说图片章节, 这里我们能够用万能图片规则 <[^<]*((? <=<(? :img|IMG)[^>]*(? :(? :sr

11、c|SRC)(? :\s*=\s*(? :["']? ))))(? :[^\s"'>]*)\.(? :jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*> 最终: 现在说下替换, 每行一个替换, 格式以下需要替换内容♂替换结果复制代码这个表示过滤 ♂
复制代码这个表示替换现在站长们都会在小说章节内容上加入自己广告如（**站第一时间更新vip章节）、（**站首发）等广告我们能够用 **站第一时间更新vip章节♂替换内容 **站首发♂替换内容复制代码其她替换类似出现空章节情况有可能是目标站恰好重启网站或者你采集IP被封等原因假如不是以上原因, 请先检验你采集章节是否是图片章节, 假如你PubContentImages(章节内容中提取图片) 没有取得图片章节内容话软件就会检验你采集文字内容 PubContentText(取得章节内容)这个里面正则匹配, 假如 PubContentImages(章节内容中提取图片) 跟PubContentText(取得章节内容) 都没有匹配内容, 那么就出现了上面我们说空章节原因。

关关采集器规则编写教程图文详解版.doc

关关采集器规则编写教程图文详解版.doc

2. 标签, 所以分割分卷就填写

11 . PubVolumeName(取得分卷名) 分割部8、分用到

所以分卷名为

(.+? )

11 . PubVolumeName(取得分卷名) 分割部
8、分用到