收藏 分销(赏)

Web数据挖掘研究综述.doc

上传人:精**** 文档编号:3086242 上传时间:2024-06-17 格式:DOC 页数:9 大小:21KB
下载 相关 举报
Web数据挖掘研究综述.doc_第1页
第1页 / 共9页
Web数据挖掘研究综述.doc_第2页
第2页 / 共9页
点击查看更多>>
资源描述
1 Web 数据挖掘的概念 Web Mining(Web 挖掘是由Oren Etzioni 在1996年首先提出的[1],“因特网的数据挖掘”、“Web 知识发现”、“网络信息挖掘”、“Web 信息挖掘”等也可以认为是Web 挖掘的同义词。一般,对Web 数据挖掘做如下定义:Web 数据挖掘是指Web 从文档结构和使用的集合C中发现隐含的模式P。如果将C 看作输入,P 看作输出,那么Web 挖掘的过程就是从输入到输出的一个映射[2]。 W e b 数据挖掘是一项综合技术,是从W W W 资源上抽取信息(或知识的过程,是对Web 资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对W W W 资源进行挖掘的一个新兴的研究领域[3]。Web 挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。2 Web 数据挖掘流程 Web 数据挖掘过程是一个完整的KDD 过程,但与传统数据和数据仓库相比,Web 上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web 网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web 挖掘的处理流程包括如下四个步骤: 2.1查找资源:根据挖掘目的,从Web 资源中提取相关数据,构成目标数据集,Web 数据挖掘主 W e b 数据挖掘研究综述 李  森1,2   胡学钢1   李正吉2 (1 合肥工业大学计算机与信息学院  安徽合肥  230009;2 山东信息职业技术学院信息工程系  山东潍坊  261041 摘  要:随着Internet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。本文综述了基于Web 的数据挖掘概念、流程、主要技术及分类,分析了Web数据挖掘的热点研究方向。 关键词:数据挖掘;Web 挖掘 中图分类号:TP393.09      文献标识码:A      文章编号:1673-0968(200801-0098-03 要从这些数据通信中进行数据提取。其任务是从目标Web 文档中得到数据。值得注意的是,有时信息资源不仅限于在线Web 文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web 形成的交易数据库中的数据。 2.2信息选择和预处理: 从目标数据集中除去明显错误的数据和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据开采算法(包括选取合适的模型和参数寻求感兴趣的模型。其任务是从取得的Web 资源中剔除无用信息和将信息进行必要的整理。例如从Web 文档中自动去除广告链接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 2.3模式发现:对预处理后的数据进行挖掘,自动进行模式发现,从Web 站点间发现普遍的模式和规则。 2.4模式分析:对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完成,也可以是与分析人员进行交互来完成。 3 web 数据挖掘中的主要技术 W e b 数据挖掘中常用的技术有W e b 使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。 3.1路径分析技术 2008年第1期(总第143期 山东纺织经济 计算机应用 98 用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可以用一个有向图来表示,G=(V, E,其中:V是页面的集合,E是页面之间的超连接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。 3.2关联规则挖掘技术 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(Session,从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference关系。最常用的是用APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。 3.3序列模式挖掘技术 序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。 3.4聚类分类技术 分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式, 得出访问某一服务器文件的用户特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。 4 Web数据挖掘的分类 W e b挖掘的对象包括一切通过W e b形成的数据,根据挖掘对象的不同,可将Web挖掘分为Web 内容挖掘、Web结构挖掘和Web使用挖掘[4]。 4.1 Web内容挖掘(Web Content Mining Web上的信息多种多样,传统的Internet由各种类型的服务和数据源组成,包括W W W、F T P、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。 Web内容挖掘是从文档内容或描述中抽取知识的过程,是对网页上真正的数据进行挖掘,包括网页内容挖掘和搜索结果挖掘。 Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。 4.2 Web结构挖掘(Web Structure Mining Web可以看成一个以网页为节点、链接为边的图结构,超链接反映了网页间的包含、引用或从属关系。 W e b结构挖掘是挖掘W e b潜在的链接结构模式。通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式,既可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。 在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。它们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。 此外,Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超链接的层次属性去探索信息流动如何影响Web站点的设计。 4.3 Web使用挖掘(Web Usage Mining Web使用挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据,这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等。 W e b使用挖掘对用户背景和访问信息进行挖掘,以便理解和更好地服务Web应用需求。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。 根据对数据源的不同处理方法,Web使用挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对 2008年第1期(总第143期山东纺织经济计算机应用 99 关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理再进行挖掘。 Web使用挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。 通常来讲,经典的数据挖掘算法都可以直接用到Web用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。 5 Web挖掘的研究热点[5] 在未来一段时间内,Web挖掘中的以下方面可能成为研究和应用热点。 5.1高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。 5.2 Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。 5.3 Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web中获取信息,如何在指定网页中快速定位所需的数据区,如何利用数据库和数据仓库技术查询和存储Web内容等。 5.4 Web数据流的挖掘。Web日志、cookie、点击流等流式数据量巨大,如何识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标识用户、设置用户会话时间等。 5.5安全与非法访问检测。如何评价Web数据信息本身的可靠和安全性;如何对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、无用的数据和异常行为,从而构建安全的网络环境。 5.6个性化与安全的隐私。如何跟踪、学习和表达多变的用户兴趣及行为模式,在个性化服务中过滤信息,实现商业应用,在提供个性化服务时不侵犯用户隐私等都是亟待解决的问题。 5.7基于Web的模式分析技术和工具。如何将Web挖掘的结果在浏览器中可视化地表达,包括统计、关联、聚类、分类等工具开发等。 5.8 Web挖掘的算法改进与质量的评估。由于Web数据自身的特点,使得Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈、实际运行测试,因而缺乏有效的评价模式。 5.9 Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提供有价值的知识。 此外,分布式Web挖掘、语义Web挖掘、无线网络下的Web挖掘、Web2.0时代的Web挖掘、多语言环境下的W e b挖掘等是值得研究的方向。同时,Web挖掘技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等。 6 结束语 Web数据挖掘是一个新兴的研究领域,已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,对它的应用和研究正在成为一个热点,并取得了一定成就;但从整体上看,目前的研究仍处于起步阶段,许多问题有待深入研究。◆ 参考文献: [1] Etzioni O. The World Wide Web: Quagmire or gold mine [J].Communication of the ACM, 1996;39(11. [2]王玉珍.Web数据挖掘的分析与探索[J].计算机发展与应用,2003;(4. [3]高燕,胡景涛.Web数据挖掘原理、方法及应用[J].现代图书情报技术,2002;(3. [4] Zaiane O R. Resource and Knowledge Discovery from the I nternet a nd M ultimedia R epositories[D].Canada:Simon F raser University,1999. [5]胡学钢.Web挖掘研究综述[J].计算机应用研究, 2007;24(6. 2008年第1期(总第143期 山东纺织经济计算机应用 100
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服