收藏 分销(赏)

基于数据立方体的多维关联规则挖掘研究 毕业论文(设计).pdf

上传人:曲**** 文档编号:4478665 上传时间:2024-09-24 格式:PDF 页数:51 大小:4.92MB
下载 相关 举报
基于数据立方体的多维关联规则挖掘研究 毕业论文(设计).pdf_第1页
第1页 / 共51页
基于数据立方体的多维关联规则挖掘研究 毕业论文(设计).pdf_第2页
第2页 / 共51页
基于数据立方体的多维关联规则挖掘研究 毕业论文(设计).pdf_第3页
第3页 / 共51页
基于数据立方体的多维关联规则挖掘研究 毕业论文(设计).pdf_第4页
第4页 / 共51页
基于数据立方体的多维关联规则挖掘研究 毕业论文(设计).pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、基于数据立方体的多维关联规则挖掘研究The Research on Multi-dimensional Association Rules Mining Based on Data Cubes 学位类型 学历硕士学科、专业 管理科学与工程研 究方向 工程与项目管理 基于数据立方体的多维关联规则挖掘研究摘要关联规则挖掘是数据挖掘领域中的一个重要的研究内容,其主要目标 就是发现数据库中一组对象之间某种有趣关联或相关联系。近年来,关联 规则挖掘研究成为数据挖掘中的一个热点,并被广泛应用于市场营销、事 务分析等领域。数据立方体是OLAP多维数据分析的基础,它体现了数据仓库的结构 并且包含了预先计算好的

2、聚合信息,能够直接为关联规则挖掘的过程所使 用,提高规则发现的效率。本文对数据立方体上的关联规则挖掘算法进行了系统的研究和全面 的总结,并在此基础上提出了改进的关联规则挖掘算法。首先,本文介绍了数据仓库、OLAP、关联规则挖掘的基本知识和常 用的一些关联规则挖掘方法,并对数据立方体上的关联规则挖掘算法进行 了总结.其次,针对multi-D-slicing算法中的冗余谓词搜索问题进行了分析,提出了改进的基于维分类的关联规则挖掘算法,该算法有效减少了冗余谓 词搜索的问题,节省了生成频繁项集所消耗的时间,实验表明该算法比 multi-D-slicing算法具有更好的性能。最后,论文提出了一种基于数据

3、立方体的关联规则挖掘系统的结构模 型,介绍了系统实现采用的具体技术和方法,并且在挖掘系统中运用了改 进的算法,取得了良好的效果。关健词:数据挖掘;OLAP;关联规则;数据立方体The Research on Multi-dimensional Association Rules Mining Based on Data CubesAbstractAs one of an important content in data mining,association rules mining aims to discover the interesting connection or correlat

4、ion midst a set of objects in a database.Association rules mining has become a hot research topic in recent years,and it has been used widely in selective marketing,decision analysis and business management.Data cube is the foundation of OLAP multi-dimensional data analysis,and it reflects the struc

5、ture of data warehouse and contains the calculated aggregation information that can be directly used in mining process to improve the efficiency to find rules.In the thesis,some classical algorithms for mining association rules have been systematically studied and comprehensively summarized.On the b

6、asic of previous research,the improved algorithm for mining association rules is proposed.Firstly,the thesis introduces the basic knowledge of data warehouse,OLAP and some common association rules mining methods,and summarizes algorithms for association rules mining on data cubes.Secondly,the thesis

7、 analyses the redundant predicates search problem of multi-D-slicing algorithm,and proposes an improved algorithm of association rules mining based on dimension types,which effectively reduces the redundant predicates search,saves the time of generating frequent itemsets.The experiment shows that pr

8、oposed algorithm has better performance than multi-D-slicing algorithm.Finally,this paper gives a structure model of data cube-based association rules mining system and intructs the system realizing technologies and methods,then we use the proposed algorithm to find association rules in the mining s

9、ystem,and it achieves good effect.Key Words:Data Mining;OLAP;Association Rules;Data Cubeill致谢值此论文完成之际,我谨向所有关心和帮助过我的老师、同学、朋友 以及家人致以最真诚的谢意!首先,我要特别感谢我的导师倪志伟教授。倪老师治学严谨,学识渊 博,使我在理论学习上受益匪浅,且对我的生活和工作也是关怀备至。从 论文选题到最终成文,一直得到老师的指导和大力支持,才使得我能够顺 利完成论文撰写。在此,我谨向我的导师致以崇高的敬意和衷心的感谢!我要感谢孟金华、戴奇波、查春生、公维峰、姜苗等同学,以及研二、研一的

10、师弟师妹们一直给予我的支持和帮助,特别要感谢倪丽萍师姐、高 雅卓师姐、胡汤磊师兄、郭峻峰师兄在我论文写作过程中给予的建议和帮 助。感谢合肥工业大学管理学院智能商务研究所的同学们,正是在和你们 的交流和帮助下,我才得以不断提高,衷心地祝愿你们学业有成、前程似 锦!最后,我要感谢我的家人,感谢他们二十多年来给予我在学习和生活 方面的支持和鼓励,使我能够安心学习,顺利完成学业!作者:周之强2011年4月目录第一章绪论.11.1 研究背景及意义.11.2 国内外研究现状.21.3 论文的工作和组织结构.31.3.1 论文的工作.31.3.2 论文的组织结构.3第二章相关研究工作.42.1 数据仓库.4

11、2.1.1 数据仓库概念.42.1.2 数据仓库体系结构.42.1.3 数据仓库数据模型.52.2 OLAP 技术.62.2OLAP的相关概念.62.2.2 OLAP系统体系结构.72.2.3 OLAP与数据仓库.9224 OLAP与数据挖掘.92.3 主要关联规则挖掘方法.102.3.1 基本概念和定义.102.3.2 关联规则的分类.11233多维关联规则挖掘.112.3.4 多概念层次关联规则挖掘.122.3.5 基于约束的关联规则挖掘.132.4 本章小结.13第三章基于数据立方体的关联规则挖掘算法.143.1 数据立方体.143.1.1 数据立方体的基本概念.143.1.2 数据立方

12、体上的OLAP操作.1531.3数据立方体的物化.163.2 APRIORI 算法.17321 Apriori 算法思想.17322 Apriori算法的改进.183.3 FPGROWTH 算法.193.3.1 FP-growth 算法思想.19332 FP-growth算法的改进.203.4 算法分析比较.203.5 本章小结.21第四章一种基于维分类的关联规则挖掘算法.224.1 基本概念与定义.224.2 冗余谓词搜索问题.244.3 算法描述.254.4 实例分析.264.5 实验.284.5.1 实验环境和数据.28452实验结果分析.284.6 本章小结.29第五章基于数据立方体的

13、关联规则挖掘系统的设计与实现.305.1 关键技术及工具.305.1.1 ASP.NET2.0.305.1.2 SSIS.305.1.3 SSAS.305.1.4 MDX.315.2 系统模型设计.315.3 数据立方体.335.3.1 数据仓库设计.3353.2数 据预处理.335.3.3 数据立方体的生成.355.4 OLAP 引擎.355.5 关联规则挖掘引擎.365.6 用户界面.365.7 本章小结.37第六章总结与展望.386.1 工作总结.386.2 工作展望.38参考文献.39攻读硕士学位期间的成果.43VI插图清单图2-1数据仓库四层体系结构.4图2-2传统OLAP三层C/S

14、结构.8图2-3 B/S体系结构图.9图3-1数据立方体图.14图4T数据立方体示意图.22图4-2不同支持度下,两种算法的执行时间.28图4-3不同r值情况下,两种算法的执行时间.29图5-1 OLAP系统结构图.32图5-2数据仓库结构图.33图5-3客户维表的组成.34图5-4 ETL数据流.34图5-5数据立方体的的设计流程图.35图5-6 OLAP引擎工作流程.36图5-7 二维工作立方.36图5-8 OLAP分析表格展示.37图5-9 OLAP分析图形展示.;.37图5-10挖掘界面.37VII表格清单表4T 数据立方体的5-D关系表视图.23表4-2数据立方体的4-D关系表视图.

15、23表4-3数据立方体的3-D关系表视图.24表4-4数据立方体的2-D关系表视图.24表4-5数据立方体的1-D关系表视图.24表4-6数据立方体的0-D关系表视图.24表4-7数据立方体的维及维属性.27表4-8由multi-D-slicing算法计算出的频繁3-维间谓词集.27表4-9由LRS算法计算出的频繁2-维间谓词集L,.27表4-10由LRS算法计算出的频繁3-维间谓词集.28VIII第一章绪论近年来,随着信息技术的不断推广应用,企业已经进入了一个信息爆炸的 时代,同时企业经营的业务也在不断增多,随着时间的推移,企业积累的数据 规模也在不断地增大。人们正面对着海量存储的数据,企业

16、的决策者如何从这 些海量的数据中找出有用的信息是企业决策方面的一个重要的研究课题。数据 仓库(Data Warehouse,DW)技术专门用于为决策者提供决策支持信息,它可以 根据企业的决策需求将多种不同计算机系统中的相关数据集成在一起并存储到 数据仓库系统中,通过对数据仓库中数据的查询、分析和挖掘,发现对决策有 用的信息。1.1 研究背景及京义随着数据仓库技术的不断发展,建立在数据仓库之上的联机分析处理(Online Analytical Processing,OLAP)技术受到人们的普遍关注,是一个重要的 研究热点。OLAP以多维分析为基础,可以在管理和决策过程中对数据进行多 层次、多角度

17、的分析处理,满足了日常的数据分析需求,为企业管理和决策活 动提供了一个新的工具,也为商业智能系统的开发提供了新的思路。OLAP支 持最终用户对企业数据进行动态的多维分析,它首先根据数据分析的主题从数 据仓库中构建各种数据立方体,然后在根据数据分析的请求在立方体之上执行 相关的OLAP操作,最后再把操作结果以图表或图形等各种比较直观的方式展 现给最终用户。数据立方体可以有效地支持决策目标的实现,它的特殊结构和 物化存储方法,使得从海量数据中提取有用信息的计算过程变得比较简单,是 数据仓库和OLAP技术的核心概念。数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中获 取有效的、新颖的、

18、潜在有用的知识或者模式的过程。随着计算机技术的高速 发展,存储介质的容量不断增大而企业购买存储设备的成本却在相对减小的情 况下,越来越多的数据被存储在介质中,这些数据都是以数据库、数据仓库或 者其他的形式组织并存储的。这些存储在介质中的历史数据蕴含着有用的信息 或模式,如何从海量的数据中挖掘出这些信息或模式对企业有着重大的意义。关联规则挖掘是数据挖掘的一个重要研究方向。关联规则挖掘可以在大型数据 库中找出各个项集之间有趣的关联关系,挖掘出来的结果可用于金融市场分析、产品推荐等应用中。数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于支持 企业管理部门的决策过程,构建在数据仓库之上的O

19、LAP技术也已日益成熟和 完善,这给数据挖掘带来了新的机遇,OLAP和数据挖掘作为两种数据分析工 具,它们既有区别也有联系,所以完全可以将OLAP和数据挖掘二者有机结合 在一起,使得决策支持系统能够发挥更大的功效。1.2 国内外研究现状近年来,数据仓库中执行数据挖掘任务这一主题的研究受到了普遍关注。OLAP是数据仓库支持决策分析的关键,数据仓库中OLAP分析使用的数据存 储在数据立方体中,它是实现多维数据查询与分析的一种重要手段,多维数据 分析的本质就是沿着不同的维度进行数据获取的过程。在数据立方体上的模 式和关联规则的挖掘已成为许多学者的重要研究课题之一。在数据仓库上运用OLAP的过程一般是

20、:首先从数据仓库中构造出相关的 数据立方体,然后对数据立方体进行OLAP操作,最后把结果展现给最终用户。如果用户事先给定了挖掘的约束条件,则可以从数据仓库中生成指定的数据立 方体,并且在数据立方体上进行关联规则挖掘,这种基于约束的关联规则挖掘 具有较大的针对性,可以不必事先全部物化整个数据立方体,而是选择较小的 子立方体进行物化,进而减小了物化数据立方体的代价。数据立方体被预先全 部或部分物化存储,而且数据立方体的聚合信息也存储在其中,从而为关联规 则发现节省了挖掘时间,有效地提高了挖掘效率。Kamber等人提出使用关联规则算法在数据立方体上进行数据挖掘操作,因 为数据立方体的结构体现了数据仓

21、库的结构并且包含了预先计算好的聚合信 息,能够直接为关联规则挖掘的过程所使用;Imielihski等人认为OLAP技术 和关联规则联系密切,二者结合可以在数据中发现模式纥大量研究也表明,关联规则挖掘技术能够与OLAP技术很好地结合,从数据立方体中发现知识,并使OLAP在决策支持系统中变得更加简单有效。在立方体上的关联规则挖掘算法研究中,Kamber等人提出了立方体上的元 规则制导挖掘3并且给出两种主要的谓词搜索策略,第一种是基于apriori算 法的谓词生成策略,第二种是直接P谓词生成的策略;而也有学者Riadh Ben Messaoud提出一种新型的增强关联规则挖掘方法弥补传统立方体上采用

22、COUNT来计算支持度和置信度的不足,并且给出了自己的关联规则的支持度 和置信度的计算方法,最后还给出对规则的兴趣度和相关程度的计算方法。我国的学者也对数据立方体上的关联规则挖掘做了进一步研究,其中大部 分运用了 Apriori算法的基本思想,对立方体上的维内、维间关联规则算法进行 了研究:也有学者提出基于分块关联规则方法:还有学者在数据立方体上 采用FPgrowth算法寻找频繁模式,提出并构建了体现概念层次的Hib&Dim.FP 树和其挖掘算法Hib&Dim-FP算法,并把此算法应用于数据立方体上的多维 多层关联规则挖掘中。21.3 论文的工作和组织结构1.3.1 论文的工作本文对数据仓库和

23、OLAP相关的概念和技术做了比较详细的介绍,对传统 的关联规则挖掘方法也进行了研究和论述,对数据立方体上的关联规则挖掘算 法进行了分类和总结,分析了其中一种算法的不足,并且针对该算法中存在的 缺陷提出了改进的算法,最后结合实际应用背景开发出了 OLAP关联规则挖掘 系统。本文工作主要体现在以下几个方面:第一:详细介绍了数据仓库、OLAP和关联规则挖掘相关的概念和技术,并对传统的立方体上的关联规则挖掘算法进行了论述和比较。第二:提出一种立方体上基于维分类的元规则制导的关联规则挖掘方法(LRS),它能够有效解决解决立方体上的冗余谓词搜索问题,提高规则发现的 时间效率。第三:结合实际应用背景提出一种

24、基于数据立方体的关联规则挖掘系统结 构并开发出应用系统,详细说明了系统开发过程。1.3.2 论文的组织结构围绕着上述研究工作,本文的组织结构安排如下:第一章,介绍本文的研究背景及意义、国内外研究现状以及研究内容和结 构。第二章,介绍数据仓库和OLAP技术和主要的关联规则挖掘方法。第三章,介绍数据立方体的概念和相关技术、总结了目前立方体上主要的 关联规则挖掘算法。第四章,本章结合冗余谓词搜索的问题提出了一种改进算法,主要内容包 括问题的描述、概念和定义、算法思想、算法分析、实例分析、实验和结论。第五章,提出了一种基于数据立方体的关联规则挖掘系统的结构模型并详 细介绍了系统实现采用的具体技术和方法

25、。第六章,工作总结和展望。3第二章相关研究工作2.1 数据仓库2.1.1 数据仓库概念William H.Imnon 在其著作 Building the Data Warehoused 中详细阐述了数 据仓库的思想和理论,他对数据仓库的概念给出了以下描述:数据仓库是一个 面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用来支持管理 人员做出决策。数据仓库中存储来自于异地、异质、异构的数据源或数据库的数据,这些 原始数据在经过抽取、转换、过滤、清洗等处理后,由数据仓库进行存储和管 理。数据仓库中存储了企业不同部门的业务系统的集成化和历史化的数据,这 些数据均来自于企业的各个业务系统数据库

26、并集中存储在数据仓库中,使得用 户可以随意提取数据,而不会影响业务系统数据库的正常运行。数据仓库是一 个由软、硬件技术结合组成的环境,它将各种数据源中的数据集成在统一的数 据仓库中,方便了最终用户的访问,而且可以从多种角度对这些数据进行观察 和分析,使得用户对数据有比较全面的认识,做出的决策也会更加有效。2.1.2 数据仓库体系结构数据仓库系统的主要内容是数据仓库以及建立在数据仓库基础上的查询、分析处理、OLAP和数据挖掘技术,根据系统工作的主要流程可以将它分为:数据抽取、数据存储和管理、数据分析和展现、数据挖掘等关键技术。数据仓 库系统包含了四个层次和以下几个部分,如图2所示:1.数据源数据

27、仓库的数据来自于多个数据源,数据源是整个数据仓库系统的基础,通常包括企业内部数据和市场调查与分析的外部数据。内部数据包括存放在关 系数据库管理系统中的各种业务系统的交易数据和各类文档数据;外部数据包 括各类政策、法律法规、市场信息和竞争对手信息等。-1=-1 二图2-1数据仓库四层体系结构42.数据的存储与管理数据仓库面对的是海量数据的存储和管理,它是整个数据仓库系统的核心。数据仓库的组织和管理方式不同于传统数据库,这也决定了它对外部数据的表 现形式也有别于传统数据库。按照数据的覆盖范围可以将数据仓库分为企业级 数据仓库和部门级数据仓库,其中,部门级数据仓库中是企业级数据仓库的一 个子集,他主

28、要面向部门级业务,并且只面向某个特定的主题,通常又称为数 据集市(Data Mart)。数据仓库的管理通常包括数据的维护、安全、备份、恢复、归档和日志记 录等工作。3.OLAP服务器对需求分析的数据按照多维数据模型进行重组,支持用户随时从多角度、多层次来对数据进行分析,从而可以发现数据中隐藏的一般规律和趋势。对于 以多维数据库方式进行数据组织的数据仓库,OLAP是一种非常有效的分析方 法,它可以通过上卷、下钻、切片和旋转等操作,对多维数据库进行全面的分 析。4.前端工具数据仓库系统的前端工具主要由一些分析工具组成,主要包括检索查询工 具、多维数据的OLAP分析工具、统计分析和数据挖掘工具等等。

29、5.元数据元数据是数据仓库的核心,用于存储数据模型,定义数据结构、转换规则、数据仓库结构和控制信息等等。元数据是关于数据的数据,是以概念、主题或 层次等形式建立起来的信息结构,有了元数据才可以最有效地利用数据仓库。元数据可分为技术元数据和业务目录。技术元数据由关于数据源、目标、转换规则及数据源与数据仓库之间的映 射组成。业务目录由数据仓库管理员生成,由数据来源、当前值、预定义的查 询等方面组成,是针对具体应用数据的元数据管理。2.1.3数据仓库数据模型按照数据存储形式的不同,OLAP可以分为MOLAP、ROLAP.HOLAP H 种类型。MOLAP即多维OLAP,它利用一种专有的多维数据库来存

30、储OLAP 分析所需要的数据;ROLAP即关系型OLAP,它通过使用关系的或者扩充关系 的数据库管理系统来存储并管理数据仓库,支持OLAP操作;HOLAP即混合 OLAP结构,它不是MOLAP与ROLAP结构的简单结合,而是有机地综合了 ROLAP较大的可伸缩性和MOLAP有利于快速计算的特性,用户可以根据自己 的需求,选择哪些模型采用ROLAP,哪些采用MOLAP。由于关系表是组织数据仓库的常见形式,ROLAP是目前发展的较为成熟的 5数据库管理系统,具有层次性较好、实时更新快等优点,常见的ROLAP模型 包括星型模型、雪花模型以及星系模型。星型模型(star model):星型模型是最常见

31、的一种形式,它由一个事实表和 多个维表组成,每个维表代表一个维度,并且维表和事实表都用二维关系表的 方式存放。维表中的对象通过事实表与另一个维表中的对象相关联这样就能建 立各个维表对象之间的联系。雪花模型(snowflake model):雪花模型是对星形模型的扩展,雪花模型中 的某些维表是规范化的,它将数据进一步分解到附加的维表中,从而形成类似 雪花的形状。在这种模式中,维表除了具有星形模型中维表的功能外,还连接 对事实表进行详细描述的详细类别表,详细类别表通过对事实表在有关维上的 详细描述达到了缩小事实表和提高查询效率的目的。星系模式(galaxy model):一个复杂的商业智能应用往往

32、会在数据仓库中 存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这 种就是事实星座。2.2 OLAP技术联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年 提出的【山,Codd认为联机事务处理(OLTP)已经不能满足用户对数据库查询分 析的需求,而SQL(Structured Query Language)对大型数据库的简单查询也不能 满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得 到最终结果,而简单查询得到的结果不能满足决策者的需求。因此,Codd提出 了多维数据库和多维分析的概念,即OLAP。OLAP是使分析人员、管理人

33、员或执行人员能够从多种角度对从原始数据 中转化出来的、能够被用户理解的、并且真实反映维特性的信息进行快速、一 致、交互地存取,从而获得对数据的更深入理解的一类软件技术。OLAP的目 标是满足决策支持或多维环境中特定的查询和报表需求,它的技术核心概念是“维。因此OLAP也可以说是多维数据分析工具的集合。2.2.1 OLAP的相关概念1.对象对象是在研究过程中所关心和分析的对象,如:商品的销售金额。2.维维是人们观察分析对象的某个角度,它是研究问题时所涉及的某种属性,这些属性的集合构成了一个维。例如:可以从三个“维”角度观察“销售金额”这个对象,时间维”可按时间的角度分析、统计其销售金额;“商品维

34、”可按 不同商品分类的角度分析、统计;“地域维”可按连锁店不同地域的角度分析、统计其销售金额。63维的层次一个维中可允许存在若干个层,并且可以有不同的层次划分方法。在分析 型应用中,对对象可以从不同深度分析与观察并且可以得到不同的结果,“层”反映了对对象观察的深度。例如:时间维可以有日、周、月、季、年。4.维的成员维的一个取值称为该维的一个维成员,如果一个维是多层次的,则该维的 维成员是在不同层次的取值的组合。例如:对时间维来说,“某年”、“某年 某月二“某月某日”都是其维成员。5.多维数组一个多维数组可以表示为:(维1,维2,,维n,变量),其中变量是我 们所观察的数据对象,维1,维2,,维

35、n分别表示我们观察该数据对象的角 度。如(时间,商品种类,商店,销售额)构成了一个有关商品销售额的三维 数组。OLAP是基于数据仓库的信息分析处理过程,旨在满足用户对决策支持和 特定查询和报表的需求。因此,OLAP具有如下特点:1.快速性,用户在使用OLAP对数据进行查询和分析时,系统可以在较 短的时间内对用户的操作做出快速响应。2.可分析性,OLAP系统能够对用户及其应用相关的所有业务逻辑进行统 计和分析。在分析过程中不需要编程,利用现有的综合路径和统计公式就可以 定义新的专门计算,并且可以将新的专门计算作为分析的一部分直接提供给用 户使用,以用户所选择的方式展现在用户面前。3.多维性,OL

36、AP系统的数据仓库采用多维模型结构,为用户提供数据的 多维概念视图,并支持层次维的选择,是OLAP应用的灵魂。4.信息性,指OLAP系统中所给出的不是OLTP系统中分散的数据,而是 具有指导意义的信息。5.共享性,指系统在多用户存取数据时,系统可以保证数据的安全性。2.2.2 OLAP系统体系结构早期比较传统的OLAP实现方案主要是采用三层客户/服务器(C/S 架构,如图2-2所示。第一层:数据仓库服务器,它负责连接底层的业务数据库,并将数据集成 到数据仓库中进行集中存储和管理,实现企业级数据一致和数据共享的功能;第二层:OLAP服务器,主要负责将系统用户的各种操作解释成OLAP分 析的请求,

37、并根据请求对数据仓库进行各种分析处理的操作。第三层:客户端,用户的操作界面,接收各种OLAP分析操作的指令,并 且利用前端的展现工具将OLAP服务器处理得到的结果用直观的方式展现给最 7终用户。三层C/S架构原理比较简单,这种体系结构的优点是系统的数据、应用逻 辑和客户应用这三分层次是分离的,因此系统的维护和升级成本比较小。如果 需要修改某个功能或者增加系统功能,可以只修改三层中的某些部分而不需要 对系统做整体的修改,但是这种体系结构也存在一个不足之处,就是当应用逻 辑发生改变时,必需在服务器端和客户端同时修改程序才能提供新功能,客户 端的OLAP的软件也需要重新安装,这就增加了系统的投资,给

38、用户的使用也 带来了不便。呢据仓库量务5 0UPOS 喜户*图2-2传统OLAP三层C/S结构随着网络传输和安全技术的不断成熟,B/S结构逐步成为了目前企业信息 系统建设的首选架构,OLAP的前端展示方式也朝着Web方向发展,尤其是各 种Web新技术的出现,使得B/S结构系统的开发更为方便快速,为B/S结构 OLAP系统奠定了技术基础。B/S结构的OLAP系统的典型架构如图23所示,与传统架构的主要不同 点是增加了 OLAP Web服务器,并且用浏览器取代了 OLAP前段工具。从功能 上来说,可分为如下四部分:数据层:实现对数据仓库中数据的存储和管理,并且为OLAP服务器提供 原始数据的访问服

39、务。OLAP服务器:为Web服务器提供数据访问服务,当接收到Web服务器的 请求,则根据请求对数据仓库中数据进行分析处理,并且将结果返回至Web服 务器。Web服务器:同时连接浏览器和OLAP服务器,一方面接收客户端请求,并把请求转换成对OLAP服务器的数据访问请求;另一方面,它将OLAP服务 器返回的结果按照预定的格式进行组织返回到客户端。Web浏览器:它是用户的操作界面,能够根据用户操作生成客户端的访问 请求,同时将服务器端返回的数据按照预定格式展现给用户。8图2-3 B/S体系结构图故据合厚二OLAP量务4二WEB凰务各1害户弱见也OLAP*务a信昨B 务W层制宽器层B/S系统架构提供了

40、一种以Web为基本渠道的数据交换方法,远程计算机 可以通过互联网访问企业数据和应用程序。Web浏览器是一种使用简单、界面 友好的信息获取工具,不同计算机水平的用户都可以使用Web浏览器来访问互 联网,使用B/S结构具有如下优势:B/S系统架构在客户端都采用统一的Web浏览器界面,用户的操作比较简 便,系统的使用难度不高,也可以节省培训的费用;Web具有良好的跨平台性,在使用过程中用户仅通过浏览器界面就能完成 所需要的OLAP分析,而不用考虑当前所使用的操作系统:采用B/S系统架构时,客户端只需要安装Web浏览器,大多数应用程序的 处理工作都在服务器端进行,因而可以大幅缩减客户端硬件和软件的投入

41、,同 时也降低了系统维护的工作量。2.2.3 OLAP与数据仓库数据仓库和OLAP是两个截然不同的技术,但它们往往需要结合起来使用 才能显示出优势。数据仓库可以用来有效地存储和管理数据,而OLAP用于对 建立在数据仓库之上的多维数据进行有效的查询分析,因此一个优秀的OLAP 方案一般都会有一个良好的数据仓库体系结构。数据仓库的开发重点在于建立一个统一标准的、基础的、全面的企业数据 模型,这个模型必需满足企业日常数据分析的要求,而OLAP的侧重点则是通 过对数据仓库中的数据进行聚集、多维化等处理,为用户提供各种快速的可视 化分析支持。OLAP和数据仓库可以互为补充,数据仓库保存OLAP分析所需要

42、的数据,OLAP允许用户通过诸如切片、切块、钻取和旋转等方式来访问数据仓库中的 数据。2.2.4 OLAP与数据挖掘数据挖掘(DataMining,DM)技术可以帮助人们从数据库特别是数据仓库的 相关数据中提取出所感兴趣的知识,规律或更高层次的信息,而且也可以帮助 人们从不同程度上去分析它们,从而可以更加有效地利用数据。它不仅可以用 于描述过去数据的发展过程还能进一步预测未来的发展趋势。9数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要功能包括 自动预测趋势和行为、关联分析、聚类、概念描述和变差检测OLAP和DM是数据仓库应用的两种重要的表现方式,但是它们所采用的 技术和最终目标不相同

43、。OLAP主要是为用户提供想查询的众多因素分析汇总 得出报表或者图形的服务,并且以此来指导日常经营中的决策分析工作。DM 则是运用数理统计等方法对数据进行深入分析,挖掘隐藏在数据中的更深层次 的信息,掌握数据中蕴藏的规律,也可以通过已有数据预测未来的发展趋势。尽管DM与OLAP存在着以上差异,但作为决策支持工具二者是相辅相成 的。在整个决策分析系统中,OLAP和DM以及其它工具由于内在技术以及适 用范围的不同,只有通过协调工作才能发挥最佳作用。23主要关联规则挖掘方法2.3.1基本概念和定义关联规则挖掘(Association Rules Mining)是一种重要并且已经被广泛应用 的是数据挖

44、掘方法。关联规则挖掘的主要内容是发现大量数据中项集(Itemset)之间有趣的关联或相关联系,是数据挖掘研究的一个重要内容。通过对大量交 易数据库进行关联规则挖掘,可以发现不同商品之间的关联,找出顾客购买的 行为模式,可以应用于产品推荐、库存安排以及根据购买模式对用户进行分类 等等。Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联 规则问题,并提出了基于频繁项集的Apriori算法网。设/=九忆.,储为数据项集合,0=九外,其中乃ql,称北为一个 事务,D为I上的交易集,简称交易集。基于以上假设,下面给出关联规则相关定义:定义2.1关联规则关联规则就是形如4=B形式的蕴

45、含式,并且满足条件且A c B=余 o定义2.2支持度和置信度支持度和置信度是衡量关联规则是否有意义有两个重要标准。给定数据集D和关联规则4 n 其中Supp(A=B)=P(A u B)=S彳则=称为关联规则4 0 5在数据集D上的支持度。Co/(4=B)=P(用TA B)=min sup 且Co4(N=B)=min_conf时,此时称关联规则NnB为数据集D上的强关联 规则,简称强关联规则。定义2.4项集、k项集、频繁k-项集项集是一个数据项的集合,一个包含k个数据项的项集则称为k项集。如 集合键盘,鼠标就是一个2项集。频繁k-项集就是满足最小支持度的k项集,所有频繁k项集的集合就记为2.3

46、.2 关联规则的分类(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间 的关系;数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型 字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然 数值型关联规则中也可以包含种类变量。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则 在单层关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的 层次的;在多层关联规则中,对数据按照概念层次进行划分,充分考虑数据的 层次性。(3)基于规则中涉及到的数据的维数,关联规则可以分为单维的和

47、多维的 在单维关联规则中,只涉及到数据的一个维,如用户购买的商品;在多维 关联规则中,要处理的数据将会涉及多个维。2.3.3 多维关联规则挖掘随着数据仓库及OLAP技术的快速发展,越来越多的商业统计及财务统计 等数据都需要通过多维数据来展现,这对关联规则的挖掘方法提出了新的挑战,在对用户数据进行关联规则分析的时候,通常挖掘的都是多维关联规则。这样 需要明确分析有关实体信息的多维数据,才能发现正确的并且有价值的信息,所以对数据的多维关联挖掘将有很广泛的应用价值。多维关联规则是涉及多个属性或谓词的规则。多维关联规则的挖掘不像单 维关联规则挖掘那样搜索的是频繁项集,在多维关联规则挖掘中搜索的是频繁

48、谓词集【。k谓词集是包含k个合取谓词的集合。多维关联规则挖掘方法根据 它们对量化属性的处理方式可以分为:1.使用量化属性的静态离散化挖掘多维关联规则,即使用预定义的概念分 层对量化属性进行离散化。2.挖掘量化关联规则,量化关联规则是多维关联规则,其中数值属性需要 11动态离散化,以满足某种挖掘标准。3.挖掘基于距离的关联规则,这种方法是量化属性离散化,以紧扣区间数 据的语义,并且不允许数据值的近似。234多概念层次关联规则挖掘现实生活中的许多概都是具有层次的,例如,惠普打印机是打印机的一种,而打印机又是公办设备的一种,这些相关的概念组织在一起就能形成一棵比较 清晰的概念层次树,而利用概念层次树

49、我们就可以进行多层关联规则挖掘。在很多数据应用中,数据库中存储着海量的数据,这些数据具有较大的稀 疏性,因此仅仅在原始数据上进行单层关联规则挖掘,可能找不出比较有用的 规则。如果我们引入概念层次树就可以在较高概念层次上进行关联规则挖掘,而且在多个概念层次之间挖掘关联比仅仅在原始数据层之间挖掘更加容易。在 实际应用中,用户也可能会要求在较高的概念层次上进行挖掘以便发现有用的 知识,而单层关联规则挖掘仅在原始数据上进行,显然无法满足用户提出的要 求;而多层关联规则挖掘能够在概念层次树的每一层进行挖掘,满足在概念层 次树上进行规则挖掘的要求口久多层关联规则挖掘的常用算法主要有两种,分别是Cumula

50、te算法【和 ML_T2L1算法”支1.Cumulate 算法多层关联规则挖掘的基本方法是在挖掘之前将所有数据项的祖先们加入到 每条事务t中,得到数据库D,然后对D,执行Apriori算法生成多层关联规则。但是这种方法会产生大量的冗余频繁模式,导致规则发现的效率降低,针对这 种情况,SrikantR,Agrawal R等人提出了 Cumulate算法,主要是从三个方面对 基本方法进行优化。在过滤被添加的祖先时,不必将事务t中项的全部祖先添加到t中,而是 在求4的过程中,只将出现在与_1中的祖先项添加到t中。预先计算出项集中每一项的祖先集合,删除不出现在任何候选项集中的 祖先项。删除同时包含项x

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服