收藏 分销(赏)

数据挖掘之动态数据.doc

上传人:xrp****65 文档编号:6116461 上传时间:2024-11-28 格式:DOC 页数:8 大小:723KB
下载 相关 举报
数据挖掘之动态数据.doc_第1页
第1页 / 共8页
数据挖掘之动态数据.doc_第2页
第2页 / 共8页
数据挖掘之动态数据.doc_第3页
第3页 / 共8页
数据挖掘之动态数据.doc_第4页
第4页 / 共8页
数据挖掘之动态数据.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、 摘要动态数据挖掘是针对动态数据库和实时数据库进行知识提取的数据挖掘技术。随着信息技术的进一步发展,对知识新颖性的需求越来越强,采用传统的静态数据挖掘技术来分析不断产生的信息无法满足现实应用的要求,对实际应用数据源在其运行的同时进行动态数据挖掘得到相关知识显得日益重要。动态数据挖掘(DDM)由于信息时效性越来越短,为了能充分把握新颖性的信息,对实际应用数据源(数据库、序列数据或流式数据等)在其运行的同时进行数据动态提取并加以分析来得到相关知识。数据挖掘目前已广泛应用于现代社会的各行各业,但是大多都是针对历史数据进行分析与处理,人们追求的不再只是发现历史数据中隐藏的规律来解决实际问题,而是想在竞

2、争激烈的社会中即时获取有用的信息,这对于传统的针对静态的历史数据进行挖掘的静态数据挖掘是不能很好实现这种需求的;设计一种针对当前数据动态分析处理的一种信息处理技术具有很大的现实意义。结合动态数据挖掘来研究多维数据的动态预测问题在现实应用中具有广阔的实践意义。动态数据挖掘不仅仅限于数据预测方面,对其应用领域探讨也具有很大的现实意义。 深入分析了以往数据处理技术的发展现状之后给出了一种在动态数据源运行过程中结合历史数据、当前数据以及即将到来的数据进行数据分析与处理的动态数据挖掘技术:运用滑动窗口技术动态的获取数据,通过动态数据窗口动态处理数据,运用未来数据测试动态数据挖掘的性能。相关工作有持续数据

3、挖掘 、流式数据挖掘、移动数据流挖掘和Web在线数据挖掘。关键词: 动态数据挖掘; 体系结构; 动态数据采集; 动态数据处理; 滑动窗口; 问题分析DDM的问题关键是如何选取当前数据集,如何保持与历史数据平滑过渡,以及如何平滑地获取后续数据集。(现在current,过去old,将来new)DDM vs DM传统的数据挖掘主要是基于历史数据集进行挖掘,提取出隐藏在其中的知识,而动态数据挖掘是集过去现在与未来于一体的知识提取的过程,动态处理各实时数据。动态数据挖掘的体系机构保证新旧数据的平滑以及数据的及时或实时获取,运用动态数据窗口进行数据的实时动态处理; 支持自动更新处理; 数据挖掘与挖掘评价是

4、紧密结合的两个过程,采用后续数据集中数据对挖掘结果进行评价,评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变。 核心技术:滑动窗口技术; 动态数据窗口;评价 动态数据挖掘过程1. 动态数据采集 时间关联性强 - 滑动窗口,某时刻的历史快照 时间关联性不太强或者离散数据 - 数据库SQL语句 WHERE time between T - 2 and T ( T为当前时间) 2. 动态数据处理包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。考虑到边界数据可能被忽略,结合重叠窗口技术,采用动态数据窗口,让重叠部分的数据(边界数据) 重复计算。3. 数据挖掘 时间性要求

5、不强:只是为了获取新颖的知识,可用传统的挖掘算法 时间性要求较强:效率要高 合理的挖掘布局算法, 即什么时候启动挖掘。挖掘过程处理数据与未处理数据以及目标数据集之间的数据平滑问题:K标号法(初始标号为0,每参与一次挖掘过程则将TDi的标号值加1,直到标号变为K( K N ) , 在每次启动挖掘时只使用标号值小于K的数据。)4. 挖掘测试问题解答 随着科学研究与工程应用领域的不断扩大,多维度动态数据处理与分析已成为目前信息处理、动态数据建模及可视化建模中重要的研究课题。由于实际中往往会因各种因素造成信息数据缺失、信息对象机理知识不完整或多维空间中部分特征量损失等带来信息不完整,因此,进行多维度动

6、态数据处理技术以及利用不完整信息建模的研究具有重要的理论和实际应用价值。采用数据挖掘和非线性系统建模技术,针对多维度动态数据的特性,研究非线性动态系统中具有空间和过程特征的数据挖掘模型和挖掘算法,以及基于软测量技术的不完整信息数据的完整性、一致性处理方法,实现多维度动态数据的有效挖掘、不完整信息建模和非线性动态系统演化规律的模拟。论文提出了一种较为完整的多维度动态数据挖掘系统理论架构,构造了多维度动态信息表示模型,建立了基于支持向量回归机的时间序列挖掘模型、连续输入/出的过程神经网络挖掘模型、多聚合过程神经网络挖掘模型及径向基过程神经网络挖掘模型等四种智能动态数据挖掘模型,构建了基于多元统计方

7、法、克里格插值方法、数据过滤技术的不完整信息数据的补齐算法、网格化及数据过滤算法,采用相空间重构技术构建智能挖掘模型的训练样本集,并提出了量子粒子群算法结合梯度下降的神经网络训练算法,有效实现了对神经网络初始权值、阈值和隐含层节点数的优化。由挖掘模型实现不完整信息建模,最终达到满意的应用结果提出了一种新的数据挖掘形式动态数据挖掘(DDM),寻求在不断更替产生的动态数据信息中找出能被应用的知识。给出动态数据挖掘的体系结构,并分析了动态数据挖掘实现过程,运用滑动窗口与动态数据窗口动态采集与处理动态新增数据,同时运用后续数据进行挖掘结果评价,用K标号法平滑地使用动态目标数据集进行数据挖掘,得出了一个

8、动态数据挖掘测试算法。动态数据窗口随着信息技术的进一步发展, 对知识的新颖性要求越来越强。我们处在每天都有大量新鲜信息产生的社会中, 如果采用原来的针对静态数据源(如数据仓库)进行知识提取的数据挖掘技术来分析这些不断产生的信息可能无法满足现实应用要求, 因为传统的数据挖掘可能挖掘到的是过时或失效的知识。社会在不断进步, 时代在不断改变, 信息的时效性变得越来越短。为了能充分把握新颖性的信息, 对实际应用数据源( 数据库、序列数据或流式数据等) 在其运行的同时进行数据动态提取并加以分析来得到相关知识是十分必要的。这方面的工作有持续数据挖掘、流式数据挖掘和W eb在线数据挖掘。当然实际生活中还有许

9、多与时间关系不大且不涉及W eb在线的各种应用, 针对这些应用数据源进行动态实时挖掘也是十分必要的。为此, 本文提出了一种动态数据挖掘方法, 给出了动态数据挖掘的体系机构, 并分析了动态数据挖掘过程。1动态数据挖掘问题在实际应用数据源运行过程中动态提取数据用于知识发现时, 关键的是如何选取当前数据集, 如何保持与历史数据平滑过渡, 以及如何平滑地获取后续数据集。所以动态数据挖掘是集过去、现在与未来于一体的动态的过程, 下面给出一些相关定义: 给定实际运行数据源, 将其称为动态数据源( Dynam icDa ta Source, DDS), DDS中的数据记为di ( i为数据标志号, i=1,

10、2,3 ) 。定义1 设当前时间点为T, 存在数􀀁( 􀀁 R+ ), DDS 中在T 时刻以前生成的所有di 组成的数据集合称为历史数据集, 记为Do ld。定义2设当前时间点为T, 存在数, DDS 中在T 时刻到T 时刻生成的所有di组成的数据集合称为当前数据集, 记为Dc urrent。定义3 设当前时间点为T, 存在数为正有理数, DDS 中在T时刻以后生成的所有di组成的数据集合称为称为后续数据集, 记为Dnew。定义4 在DDS中运用当前数据集Dcurrent与历史数据集Do ld 结合后续数据集Dnew 进行分析, 提取出其中有意义的、新颖的、

11、关键的知识与规则的过程称为动态数据挖掘( Dynam icDa taM in ing, DDM )。从以上定义可以看出, 动态数据挖掘与传统从以上定义可以看出, 动态数据挖掘与传统的基于数据仓库的数据挖掘有很大的不同, 传统的数据挖掘主要是基于历史数据集进行挖掘, 提取出隐藏在其中的知识, 而动态数据挖掘是集过去现在与未来于一体的知识提取的过程。为了便于进一步研究动态数据挖掘问题, 下面就动态数据挖掘的体系结构进行分析。动态数据挖掘主要体现在它能动态地从DDS中提取数据进行分析, 找出其中的知识与规则, 从而更加及时新颖地为企事业单位或各管理部门提供决策方案, 其实现过程大致可分为动态数据采集

12、、数据处理、数据挖掘、挖掘评价几个过程。动态数据挖掘关键是要解决后续数据集D new的动态采集以及动态处理问题, 本文提出一种基于滑动窗口的动态数据采集方法, 来保证新旧数据的平滑以及数据的及时或实时获取, 运用动态数据窗口进行数据的实时动态处理; 由于动态数据挖掘在运行过程中, DDS 也在运行, 即后续数据集D new在不断增加, 鉴于此, 在数据处理以及后续的数据挖掘过程中必须要有较高的处理效率并且能支持自动更新处理; 数据挖掘与挖掘评价是紧密结合的两个过程, 采用后续数据集中数据对挖掘结果进行评价, 评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变, 尤其在对事务进行统计

13、分析或趋势预测分析时显得尤为重要。图1动态数据挖掘体系结构3 动态数据采集动态数据采集( Dynam ic Data A cqu isition, DDA ) 是指在动态运行数据源中动态地获取其中的历史的当前的或者即将生成的数据集。对于从历史数据集或当前数据集中获取数据可以一次提取完成, 但对于还未生成或正在生成的数据获取就只能分步来不停地获取, 为了保证获取数据的平滑性, 采用滑动窗口作为动态数据获取窗口。3. 1 滑动窗口滑动窗口( SlidingW indow, SW )在计算机网络通信、时间序列数据挖掘、移动数据流数据挖掘等方面都有应用。本文借鉴这一技术来实现数据的动态获取。世间万物都

14、是处于时空中的, 事物的产生、发展以及灭亡都与时间有关联;为此, 对于动态数据源的数据动态获取中滑动窗口度量均可采用时间来确定。下面给出滑动窗口的相关定义。定义5􀀁 在DDS 中, 按照数据di ( i 为数据标识号, i为正整数Z+ ) 的生成时间分成窗口大小为( t为时间段, 且tn) 的数据段Dk ( k为自然数 N ), 每个数据段为一个数据窗口, 􀀂n为数据门限值。定义6􀀁 对于正数 n􀀂( n为Z+ , 且n 1), 某时刻T, 有数据段集D = D1, D2, , Dn 落入到窗口大小为t的窗口SW中, 该窗

15、口每隔t时间向前移动s ( s为Z+ , 1sn )个数据窗口大小的位置, 称窗口SW 为滑动窗口。为了说明滑动窗口动态采集数据的功能, 方便起见, 图3以滑动窗口大小为两个数据窗口每次移动一个窗口为例进行3. 2􀀁 动态数据采集分析数据窗口是基于时间段来划分的, 为了能快速及时地从DDS中获取数据, 如果数据是时间性关联不是很强的数据或者是离散性数据, 往往是通过数据库来保存的, 这就需要存储DDS的数据库存储数据的产生时间, 这样就能采用数据库查询语言快速检索到满足要求的数据。动态数据处理动态数据处理( Dynam ic Data Processing, DDP)是相对于

16、传统的数据挖掘的数据处理过程而言的。传统的数据挖掘只是针对特定的数据固定的数据集进行; 而动态数据挖掘中, 为了找出新颖的、最近的、感兴趣的知识, 在数据处理过程中也要求能动态处理各实时数据。动态数据处理包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。处理可采用传统的数据预处理数据变换、规约等方法, 主要在于如何动态处理动态数据采集过程传来的动态实时数据。由于动态数据采集传来的数据都是基于时间段的实时数据, 考虑到在数据处理过程中, 边界数据可能被忽略, 结合重叠窗口技术, 选择一种动态数据窗口来处理动态实时数据。4. 1􀀁 动态数据窗口针对固定的有限数据集

17、合进行聚类分析时第一次提出了动态数据窗口( Dynam ic DataW indow, DDW )概念,并第一次运用窗口重叠移动进行聚类分析。将一个有限数据集合Z = z1, z2, , zn 􀀂 RC 划分成( 2k - 1) 个数据窗口,第i个与第i+ 1个窗口的部分重叠, 让重叠部分的数据(边界数据) 重复计算, 一个一个窗口处理下去直到处理完毕。这样数据窗口的部分重叠克服了k􀀁m eans方法难以发现各种不同大小的聚类的缺点, 使得每个数据窗口分界处的样本点在接下来选取密度点时贡献一样大, 而且选出的密度点不因k 值的变动而变化很大。动态数据挖掘处理

18、的是从动态数据采集窗口传来的动态实时数据, 数据量在不停的增加。动态数据处理窗口每隔t时间间隔就传过来s 个数据窗口的实时数据, 为了使各数据di都被分析处理到, 定义动态数据窗口大小s􀀂, 对DDW 进行如下划分: 0 s为第1个窗口; v s+ v为第2个窗口( 0 v s); s 2s 为第3个窗口; s + v 2s+ v为第4个窗口第i个与第i + 1个窗口的部分重叠, 随着数据窗口的向前移动, 我们可以不断地实时处理动态数据, 如图4所示。图4􀀁 动态数据窗口的重叠划分示意图4. 2􀀁 动态数据处理分析图4中的* 代表样本点,

19、重叠窗口划分中的v 值根据具体情况而定, 如果时间段划分较长, 则选取v 为接近s的某个值为宜, 因为时间段长, 在很短的时间内可能就有很多样本数据存在; 选取较小v 值会使重复处理的数据量增大从而造成大量的时间耗费。当v = s时表示在不进行特征提取、数据降维等数据变换与规约处理时以提高数据处理的效率, 比如只需要类型转换、部分缺失数据处理或消除噪声等数据预处理方面。下面以动态数据流特征提取为例说明动态数据处理过程:对于从动态数据采集中滑动窗口传来的m 维流式数据x 1, x 2, , xi , 序列, 到达数据处理窗口的时间为t1, t2, ,ti, 序列, 由定义5与定义6可知: s =

20、 ( ti - ti- 1 ) /􀀂, 记x i =D( i- 1) &s+ k | 0 k s, i N, k N 。方便起见取动态数据窗口窗口大小为2􀀂s, v 取为􀀂s; 则对于该流式数据的处理过程为, 从m 维流式数据集x i 中提取出特征项, 后从流式数据集x i x i+ 1 中提取出特征项, 再从流式数据集xi+ 1 中提取出特征项, , 这样依次一个窗口一个窗口处理下去, 处理结果送交目标数据集(删除重复的特征项)。5􀀁 数据挖掘与挖掘测试在动态数据挖掘中通过将数据挖掘与挖掘测试两个过程充分结合起来, 就能

21、动态地实现对动态数据处理生成的动态目标数据集进行挖掘。5. 1􀀁 数据挖掘对于动态数据挖掘, 对于时间性要求不是很强的领域, 及只是为了获取新颖知识, 可以运用传统的挖掘算法实现, 通过设定一个时间门限值􀀂 ( R+ ), 每经过一个门限值时间就启动一次挖掘, 只要在下一次启动之前完成即可; 对于时间性要求较强的领域, 则为了体现挖掘的价值, 即要求在实际结果产生之前要能得到需要的挖掘结果; 故对于动态数据挖掘来说, 必须要有较高的挖掘处理效率。另外对于动态的目标数据集进行数据挖掘, 还需要处理好挖动态数据处理分析图4中的* 代表样本点, 重叠窗口划分中的v

22、 值根据具体情况而定, 如果时间段划分较长, 则选取v 为接近s的某个值为宜, 因为时间段长, 在很短的时间内可能就有很多样本数据存在; 选取较小v 值会使重复处理的数据量增大从而造成大量的时间耗费。当v = s时表示在不进行特征提取、数据降维等数据变换与规约处理时以提高数据处理的效率, 比如只需要类型转换、部分缺失数据处理或消除噪声等数据预处理方面。5􀀁 数据挖掘与挖掘测试在动态数据挖掘中通过将数据挖掘与挖掘测试两个过程充分结合起来, 就能动态地实现对动态数据处理生成的动态目标数据集进行挖掘。5. 1􀀁 数据挖掘对于动态数据挖掘, 对于时间性要求不是很强的

23、领域, 及只是为了获取新颖知识, 可以运用传统的挖掘算法实现, 通过设定一个时间门限值􀀂 ( R+ ), 每经过一个门限值时间就启动一次挖掘, 只要在下一次启动之前完成即可; 对于时间性要求较强的领域, 则为了体现挖掘的价值, 即要求在实际结果产生之前要能得到需要的挖掘结果; 故对于动态数据挖掘来说, 必须要有较高的挖掘处理效率。另外对于动态的目标数据集进行数据挖掘, 还需要处理好挖掘过程处理数据与未处理数据以及目标数据集之间的数据平滑问题。为了能实现挖掘目标数据集的数据平滑, 可以采用一种对已用数据进行标号的K标号法来实现对目标数据的动态控制, 其思想是: 对于目标数据集T

24、DS = TD1, TD2, ,TDj ( j N ) , 初始标号为0, 每参与一次挖掘过程则将TDi 的标号值加1, 直到标号变为K (K N ), 在每次启动挖掘时只使用标号值小于K 的数据。5. 2􀀁 挖掘测试动态数据挖掘中的挖掘测试可以充分利用具有动态实时的后续数据的优点, 采用后续数据对挖掘结果进行动态检测。如果检测结果符合要求则可进行决策, 否则就调整挖掘过程中的某些步骤以及时转换挖掘寻找新的决策指导。实际上对于挖掘结果进行智能评估是一个相当困难的问题, 对于不同的挖掘类型有不同的挖掘结果标识, 很难用一个具体的实现算法来对所有的挖掘结果进行评价, 对于RC 空

25、间的结果集相对好实现, 在5. 3节就是结合挖掘评估来自动智能地实现动态的挖掘。5. 3􀀁 数据挖掘的动态实现为了能智能动态地实现在动态目标数据集挖掘找出所需要的知识, 就需要一个合理的挖掘布局算法, 即什么时候启动挖掘。鉴于挖掘结果集不属于RC 空间时其评估方式根据结果类型不同而不同, 本文只对挖掘结果集属于RC 空间进行分析, 给出一个动态数据挖掘测试算法( Dynam ic Data M in ingTesting A lgorithm, DDMTA)。对于挖掘结果集属于RC, 这时采用实际结果与挖掘结果之间的平均误差与设定的最大误差#m ax比较以及重启挖掘时间

26、048578;来确定。算法如下:输入: 挖掘结果集R i = ( r1, r2, , rt ), 实际结果Zi =( z1, z2, , z t ), 最大误差#m ax, 重启挖掘时间􀀂输出: Ri+ 1。动态数据挖掘适用于动态数据聚类分析、动态趋势预测、动态关联规则提取、专家系统知识学习、动态数据统计分析等方面; 在与数据库集成上也是一个十分有效的策略。结语本文针对传统的数据挖掘不能满足对动态数据源的数据分析要求, 提出了动态数据挖掘形式, 给出了动态数据挖掘的体系结构; 为了体现以及适应对动态数据的数据挖掘, 对于动态数据采集过程、动态数据处理过程、数据挖掘的动态实现以

27、及动态挖掘评价都作了分析并给出了实现思想; 在动态数据采集中采用滑动窗口平滑采集数据, 再通过动态数据窗口动态处理数据采集过程送来的动态实时数据; 在数据挖掘过程中, 通过一种K标号法保证数据挖掘过程的动态平滑性; 通过结合后续数据集来动态评价挖掘结果, 给出了RC 空间的动态数据挖掘测试算法DDMTA算法。动态数据挖掘在取证,城市空间,生产过程质量控制,冶金自动化,油气分布及产出等方面有很广泛的应用,其发展前景很好,运用到的计算机,统计知识越来越多,正在不断发展完善的路上 参考文献动态数据挖掘 倪志伟 科学出版社数据挖掘导论 美pangning 数据挖掘与数据建模 廖琴 陈志宏 赫志峰 国防工业出版社数据挖掘研究(china data mining research,cdmr)院等

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 环境建筑 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服