你正在下载：《

HTMLParser抽取Web网页正文信息.doc

》 [预览]

格式：DOC ，页数：18 ，大小：310KB ,
资源ID：4764983 下载积分：5 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/4764983.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（HTMLParser抽取Web网页正文信息.doc）为本站上传会员【二***】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

HTMLParser抽取Web网页正文信息.doc

1、提取网页主题相关内容一般在浏览Web上的网页时会发现两部分内容：一部分是网页的主题信息，另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容，我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间，提高用户获取信息的速度，从而增强Web的可用性。那么如何准确、有效的获取Web网页的主题信息呢？下面给出了一种解决方案。一、解析html HTMLParser是一个对现有的HTML进行分析的快速实时的解析器,首先从( http://HTMLP zip解压缩得htmlparser.jar,将htmlparser.jar添加到classpath中,并在程序中引入相应

2、的HTMLParser包。类Parser是HTMLParser的入口,将HTML文本信息传给它,或者直接传递一个URL地址,如:Parser parser = new Parser(“”);初始化一个Parser实例parser后,紧接着就是对所传入的HTML内容进行解析,方法parser.extractAllNodesThatAre (XXXTag.class)将HTML内容中存在的所有的标签XXXTag给解析出来放到一个列表list中去,几乎HTML的标签都有一个对应的类,比如LinkTag、ImageTag、FormTag、TableTag等等,这些标签类都在org.htmlparser

3、tags包中。根据要处理不同的标签传入不同的类,这种做法可以很方便地处理其他类型的标签。返回的列表中每个元素都是传入类的一个实例,通过这个实例可以访问到当前这个标签的起始位置、结束标签的位置以及包含在标签中的文本信息,同时也可以访问其父标签以及所有的子标签等等,同时可以通过toHtml方法来对标签中包含的HTML信息进行清洗,HTMLParser会自动把一些没有关闭的标签加上,这样所生成的字符串中就包含着完整的格式控制信息,在页面上显示这样的信息也不会破坏版面布局,达到了预期的效果。例如：有如下不规范的html文件(有未关闭标签) 通过节点的toHtml（）方法补全标签

4、补全了没有关闭的标签本系统采用先读取html文件并将其转换为字符串htmlString: String htmlString = readHtmlFile(file); 然后将其作为Parser对象的构造参数: Parser parser = Parser.createParser(htmlString,”gb2312”); 然后结合过滤器过滤出需要的标签节点。二、过滤器一般主题信息包含在下列标签中：

、、

、

等。所以如何过滤出这些节点标签呢？htmlparser提供了很好的支持： Node

5、Filter[] filters = new NodeFilters[3]; filters[0] = new NodeClassFilter(TableTag.class); filters[1] = new NodeClassFilter(ParagraphTag.class); filters[2] = new NodeClassFilter(Div.class); NodeFilter filter = new OrFilter(filters); NodeList list = parser.extractAllNodesThatMatch(filt

6、er); OrFilter是结合几种过滤条件的‘或’过滤器。通过以上代码就可以过滤得到所有的

、

和

节点。例如：下面html文件经过以上过滤器过滤后就只得到所需的节点了 Html文件经过滤器过滤经过滤器过滤后得到的结果三、信息抽取、 1、

、

节点的内容相关性判定：我们称包含文本信息的区域为内容块，本系统的核心是内容块的主题相关性判断。本系统所涉及的内容块节点为

、

。主题相关性判定（当然本系统认为

标签中如果还含其他标签，或者

标签中含有

7、t>或内嵌

标签，则认为主题不相关。）包含两部分：局部相关性判定（由局部相关度表示）和上下文相关性判定。局部相关度(LocalRel)由内容块节点中的非链接中文字符总数和链接总数决定，其计算公式为： LocalRel = wordsNum / linkNum 当LocalRel 大于等于L(其中L是局部相关度的阀值)，称该块局部相关（如果linkNum为0且wordsNum大于14，认为局部相关）。上下文相关性即判定该内容块节点的前驱兄弟和后继兄弟的主题相关性。前驱兄弟和后继兄弟必须是包含有中文内容的结点。主题内容块的判定算法如图： words_min是规定内容块节点的非

8、链接中文字符总数的最小值。一般情况下，若wordsNum= L时，且wordsNum >= words_min时，此时并不能说明该块就是主题相关的。它只能说明该块是局部相关的。原因基于如下观察： a、一些局部相关度大的块，例如一些与主题无关的广告内容，它们可能没有链接或包含较少的链接，因此它们可能LocalRel >= L，且wordsNum >= words_min。 b、即使wordsNum <= words_min，也不能判断它是主题无关的。因为一些小信息量的主题内容，如正

9、文的标题或正文中的小信息因此还要通过它前后的兄弟节点的主题相关性来判定是否主题相关。本系统对

节点是单独处理的，因此

节点和

节点用于以上信息抽取算法中。 2、

的有效性判定 HTML页面中表格是由

元素标识的。在很多Web站点尤其是商业站点,用

元素标识的除了称之为其表格的数据表格之外还包含导航栏,或其它站点的链接等其他用来进行页面布局的非数据表格,非数据表格又被称为假表格。另一种情况是并不是所有的Web页面中的数据表格都是感兴趣的,有时即便是一个领域相关的Web页面也可能包含几个内容跟研究无关的数据表格

10、已经知道要定位的表格信息存在于

结点之间的内容中,所以只关心table结点。通过对html文档中table结点的依次遍历滤除非数据表格。在该过程中使用的启发式规则如下: 规则1:表格大小至少是3行3列。规则2:如果表格中包含大量的链接，则认为该表格是非数据表格。规则3:如果表格中包含