1、首先 介绍一下关关采规则当中需要用到部分标签 \d* 表示数字 \s* 表示空格+换行 .+? 表示字符(不能为空) .* 表示字符(能够为空) () 表示我们需要部分 ((.|\n)*) 章节内容部分, 包含了换行。 =====与杰奇后台标签对应关系===== !!!! 相当于 ([^><]*) ~~~~ 相当于 ([^><'"]*) ^^^^ 相当于 ([^><\d]*) $$$$ 相当于 ([\d]*) **** 相当于 (.*) 第一步: 我们先复制一份原来规则做模板(规则文件存放在Rules目录下)。 比如说我今天演示采集站
2、点是 阅微阁(.com) 这个小说站点 那么我就把我复制那份做模板规则命名为: 阅微阁.xml 这个关键是便于规则管理。 第二步: 运行采集器里规则管理工具, 打开后载入刚刚我们命名为阅微阁.xml文件。 第三步: 现在能够正式编写规则了, 我们写规则时要找标志性代码必需是整个页面里唯一代码, 其次我们取用部份代码越精简越好。 1. GetSiteName(站点名称) 这里我们写阅微阁(在实施任务时会在上方显示) 2. GetSiteCharset(站点编码) 这里我们打开.com源代码查找 charset= 得到charset=gbk这个gbk就是我们需要站点编码 3.
3、GetSiteUrl(站点地址) 写入 4. NovelListUrl(站点最新列表地址) 因为这些每个站点不一样, 这个就需要自己去找了阅微阁是 5. NovelList_GetNovelKey(从最新列表中取得小说编号) 此规则中需要同时取得书名, 取得书名是在手动模式时候用到, 假如你要用手动模式那么必需取得书名, 不然手动模式将会无法使用。我们 打开 这个地址查看源文件, 我们编写这个规则时候找到想要取得内容所在地方, 比如我们打开地址看到想要取得内容第一本小说名字是“赘婿”我们在源文件里面找到“赘婿”复制代码我们编写规则用到代码其实也不是很多,编写规则标准是能省则省
4、也就是说代码越短越好除非万不得已通常精短部分比很好。好了不废话了, 在这个规则里面我们需要用到是《赘婿》复制代码我们将这段改改成: 《(.+? )》 复制代码其中 (\d*) 表示编号 (.+? ) 表示小说名 .+? 表示替换此位置字符, 经过测试正确 6. NovelUrl(小说信息页地址) 这个很轻易, 我们随便点开一本小说就能知道了, 比如说, 我们能够看到我们改下将里面633换成 {No
5、velKey} 7. NovelName(取得小说名称正则) 我们还打开刚才那本书, 取得小说名称那我们在源代码里查找 赘婿, 此代码要源码中唯一 赘婿复制代码这一段 我们改下 (.+? ) 下面 NovelAuthor(取得小说作者)、 LagerSort(取得小说大类)、 SmallSort(取得小说大类)、 NovelIntro(取得小说介绍)、 NovelKeyword(取得小说主角(关键字))
6、 NovelDegree(取得写作进程)、 NovelCover(取得小说封面)这些呢我就不具体演示了, 这些跟上面那个取得小说名方法是一样, 也就所谓一通百通。需要说到是取得介绍时候最好用 ((.|\n)*)来替换, 因为中间可能包含换行。
8. NovelInfo_GetNovelPubKey(取得小说公众目录页地址)很多站目录页地址有子ID在前边, 所以我们要采集目录页地址我们取得代码以下: 打开完整目录列表
复制代码这一段 我们改成: 7、href="(.+? )">打开完整目录列表
8、分用到
9、章节编号)) 这里说明下 这个里面章节编号是在下面 PubContentUrl(章节内容页地址)用到, 那么这里我们需要取得是章节地址分析得到
10、ext(取得章节内容) 这个我们就拿, 打开源代码我们看到 在文章内容前后有这么两处代码 复制代码这里我就直接改成正规内容取得代码以下
11、c|SRC)(? :\s*=\s*(? :["']? ))))(? :[^\s"'>]*)\.(? :jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*> 最终: 现在说下替换, 每行一个替换, 格式以下需要替换内容♂替换结果
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818