资源描述
南昌大学2003级硕士学位论文
文献综述报告
基于股票时间序列数据的关联规则挖掘研究
Study on Mining Association Rules from Stock Time Series Data
系 别: 计算机科学与技术系
专 业: 计算机应用技术
研究方向: 人工智能
研 究 生:
一.引言
随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列(time series)类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集[1],如金融证券市场中每天的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。
时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模式挖掘等[2]。本综述是针对证券业中股票时间序列分析的,试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。
二.股票时间序列传统研究方法概述
随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分,正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻,如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能有效地指导投资者的投资决策。目前,我国股市用得较多的方法概括起来有两类[3]:一类是基本分析和技术分析,另一类是经济统计分析。
1.基本分析和技术分析
在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法[4]。
基本分析指的是通过对影响股票市场供求关系的基本因素(如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。
技术分析是完全根据股市行情变化而加以分析的方法,它通过对历史资料(成交价和成交量)进行分析,来判断大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号,适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K线图、分时图)和技术指标(MA、RSI、OBV等)。
2.经济统计学分析
主要针对时间序列数据进行数学建模和分析。传统的时间序列数据分析已经是一个发展得相当成熟的学科,有着一整套分析理论和工具,是目前时间序列数据分析的主要方法,它主要用经济统计学的理论和方法对经济变量进行描述、分析和推算。传统时间序列数据分析的研究目的在于[5]:
●分析特定的数据集合,建立数学模型,进行模式结构分析和实证研究;
●预测时间序列的未来发展情况。
传统的时间序列数据分析最基本的理论是40年代分别由Norbor Wiener和Andrei Kolmogomor提出的。20世纪70年代,G.P.Box和G.M.Jenkins发表专著《时间序列分析:预测和控制》,对平稳时间序列数据提出了自回归滑动平均模型(ARMA),以及一整套的建模、估计、检验和控制方法,使得时序数据分析得以广泛运用于各种工程领域。其基本思想是根据各随机变量间的依存关系或自相关性,从而由时间序列的过去值及现在值来预测出未来的值。该模型以证券市场为非有效市场为前提,当期的股票价格变化不仅受当期随机因素的冲击,而且受前期影响。换句话说,就是历史信息会对当前的股票价格产生一定程度的影响。采用的方法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集[6]。
[7]基于股票时间序列是一种混沌时间序列的认知,提出一种新颖的非线性时间序列预测模型,即滑动窗口二次自回归(MWDAR)模型,该模型使用部分的历史数据及其二次项构造自回归模型,模型参数用最小二乘法估计。其基本理论基础是:一个线性模型不能描述混沌时间序列的全局性特征,但在一个小的时间间隔内,系统的行为却可以用某种线性模型近似。[8]则提出了一种基于嵌入理论和确定集上的预测误差的混沌时间序列预测方法,并探讨了在股票价格预测上的应用。
可以看出,经济统计学为问题的探索解决方案提供了有用而实际的框架;模型是经济统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。经济统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但是,在大量数据集中往往存在一些未被人们预期到但又具有价值的信息,人们为发现大量数据中隐藏的规律和模式,就需要新的具有“探索性”的分析工具。显然,数据挖掘就是这样的一门工具。
三.数据挖掘技术应用于股票时间序列分析的研究现状
数据挖掘(DM,Data Mining),也称为数据库中的知识发现(KDD,Knowledge Discovery in Database)是数据库技术和机器学习等人工智能技术相结合的产物,是一门新兴的数据智能分析技术[9]。20世纪80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统(MIS)和网络数据中心(IDC)的推广应用,数据的存取、查询、描述统计等技术已日臻完善,但高层次的决策分析、知识发现等实用技术还很不成熟,导致了“信息爆炸”但“知识贫乏”的现象。到了90年代,人们提出在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合促成了数据挖掘技术的诞生。
所谓数据挖掘,简单地说,就是从大量数据中提取或挖掘知识[2];详细一点可以描述为主要利用某些特定的知识发现算法,在一定的运算效率的限制下,从大量的数据中抽取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。
1.相关技术介绍
(1)关联规则挖掘
关联规则是美国IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出来的KDD研究的一个重要课题[10]。关联规则挖掘本质是从大量的数据中或对象间抽取关联性,它可以揭示数据间的依赖关系,根据这种关联性就可以从某一数据对象的信息来推断另一对象的信息。它可以做如下形式化定义:
设I = {i1,i2,...,im}是一组项的集合(例如一个商场的物品),D是一组事务集(称之为事务数据库)。D中的每个事务T是项的集合,且满足TÍI。称事务T支持物品集X,如果XÍT。关联规则是如下形式的一种蕴含式:X→Y,其中XÍI,YÍI,且X∩Y= f。
(1) 称关联规则X→Y在事务数据库D中具有大小为s的支持度,如果物品集X∪Y的支持度为s%,即support(X→Y)=P(X U Y)。
(2) 称规则X→Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y,即confidence(X→Y)=P(Y|X)。
从语义的角度来分析,规则的可信度表示这条规则的正确程度;支持度表示用这条规则可以推出百分之几的目标,即这一规则对于整体数据的重要程度。用户可以定义二个阈值,要求数据挖掘系统所生成的规则的支持度和可信度都不小于给定的阈值。这样,就用蕴含式、支持度和可信度唯一标识了每一个挖掘出来的关联规则。
已知事物数据库D,关联规则的挖掘问题就是产生支持度与置信度分别大于用户给定的最小阈值的所有关联规则。该问题分两步来求解:第一步是找出事务数据库D中所有满足条件的具有用户指定最小支持度的项目集。具有最小支持度的项目集称为频繁项集。第二步是从频繁项集中构造可信度不低于用户要求的规则。形式地,对于每一个频繁项目集A,找出A的所有非空子集a,如果比率support(A)/support(a)≥min_conf(可信度),就生成关联规则a→(A-a)。
识别或发现所有的频繁项集是关联规则挖掘算法的核心,也是计算量最大的部分。目前已有不少挖掘频繁项集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法[11],其核心是利用这样一个性质:频繁项集的所有非空子集都是频繁的。基于这样的先验知识,Apriori使用一种“逐层搜索“的迭代方法,k-项集用于探索(k+1)项集。首先找出频繁1-项集,记作L1;用L1找频繁2-项集L2;而L2用于找L3,如此下去,直到不能找到频繁k-项集。
虽然Apriori算法能最终挖掘出所有的关联规则,但由于处理的数据量非常大,因而算法的效率显得十分重要。后来的一些研究人员对算法的连接和剪枝过程进行各种优化。
如[12]提出了称为AprioriTid的改进算法,该算法提出了在每一步(第一步除外)计算候选频繁项集的支持度时不需要浏览整个事务数据库。它认为不包含任何k-项集的事务不可能包含任何k+1项集,这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生j-项集(j>k),扫描数据库时不再需要它们。该算法的本质是压缩进一步迭代扫描的事务数。
而[13]提出的AprioriPro算法,其基本思想与AprioriTid是一致的,也是减少对数据集的扫描,不同的是AprioriPro算法是通过在原有的数据集上增加一个属性,通过这个属性的取值来减少对某些事务的扫描。
[14]是结合Apriori和AprioriTid两种算法,提出了一种混合挖掘算法AprioriHybrid,其基本思想是在扫描的早期使用Apriori算法,当候选模式集中记录条数小到可以放进内存时就转向AprioriTid算法。
这些改进算法虽然比Apriori算法在挖掘效率上有一些提高,但本质上没有什么区别,都要在挖掘过程中生成大量的候选模式集。
“有没有这样的算法,挖掘全部的频繁项集而不产生候选?” 1999年Han等人提出FP-Growth算法[15],以及 Agrawal等人提出的树-投影(Tree Project)[16]关联规则挖掘算法就是这样的算法,它们在性能上均获得了突破,与Apriori算法相比,挖掘效率有了数量级的提高。利用FP-Tree 可以压缩事务数据集,压缩有的达到100多倍;而树-投影方法从原理上讲是适应任何数据集的,无论其据量多大该算法都能有效运行,从而使得关联规则挖掘可以应用于海量数据的挖掘和稠密数据集的挖掘。
除了上述关联规则挖掘的经典算法之外,人们着重在以下几个方面对关联规则进行了研究。
(1)继续通过各种手段提高挖掘效率。这方面包括对原有算法的进一步改进[17,18];提出一些并行挖掘算法[19,20]、增量算法[21]以及带约束的关联规则挖掘策略(元规则制导关联规则挖掘)[22,23]。
(2)不同形式关联规则的研究。关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本关联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[24],由单层的关联规则扩展为多层次关联规则的研究[25]等等。关联规则形式的多样化,反映了人们从不同角度认识同一事物的不同视点,加深了对关联规则的认识与研究。
(3)结合其它理论(如软计算理论)对关联规则进行研究。引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度[26];通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现[27];还有基于遗传算法的多维关联规则挖掘[28]等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。
(4)关联规则的价值评判标准研究。如[29]分别讨论了关联规则的客观评价指标(支持度、可信度和相关强度)和主观评价指标(新颖性、用户感兴趣性和简洁性),在此基础上给出了一种关联规则的综合自动评价方法。
(5)关联规则的应用研究。理论从实践中来,但最终是为了指导实践。关联规则自提出以来,经过无数学者的研究努力,广泛应用于社会生产和科研的各个方面,产生了巨大的效益[30,31,32,33]。
(2)序列模式挖掘
序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出来的[34]。设有一个交易数据库D,每个顾客可在不同时间购买不同物品,每次购买活动称为交易(Transaction)。这里,顾客、交易时间和所购物品分别以Customer_ID、Transaction_Time和Itemset标识。如果以Customer_ID为第一关键字,Transaction_Time为第二关键字对数据库D排序,那么,对每一顾客而言,他进行的所有交易是以交易时间的升序排列的,从而构成一个序列,称这种序列为顾客序列CS(Customer Sequence)。一般地,令某顾客的各次交易时间为t1,t2,t3,…,tn,该顾客在交易时间ti购买的物品集记为itemset(i),于是该顾客的CS序列为itemset(t1), itemset(t2), itemset(t3),…, itemset(tn)。相应地,可以认为上述交易数据库D已转换为顾客序列数据库。如果某序列s包含在某顾客的CS序列中,那么称该顾客支持(Support)该序列s。某序列的支持度为支持该序列的顾客数与顾客序列数据库中顾客总数之比。序列模式就是在上述顾客序列数据库中满足用户指定最小支持度的最长序列。
序列模式的问题定义与关联规则很相似,它们之间的区别可以用下列例子描述,关联规则描述的是在一次购物中所购买物品之间的关联关系,而序贯模式则是描述同一顾客在不同次购物所购物品之间可能存在的某种关联关系。换句话说,关联规则仅仅发现事务内部(intra-transaction)的模式,而序列模式则是发现事务之间(inter-transaction)的模式。
序列模式的发现方法与关联规则的发现方法大致相同,R.Agrawal在Apriori算法的基础上提出了三个
序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome[34]。AprioriAll算法采用哈希树储存候选序列,将所有的候选序列均储存在哈希树的叶子节点中;将候选序列的记数划分为向前及向后两阶段:向前阶段跳跃性地产生所有特定长度的频繁序列,而向后阶段找出在向前阶段未考虑的频繁序列。
在[35][36]中提出了挖掘具有概念分层、滑动时间窗口及最大和最小时间约束的 GSP(Generalized Sequential Patterns)算法。该算法也采用哈希树存储候选序列,仍将候选序列的记数分为向前及向后阶段,但此法划分向前阶段与向后阶段的目的与实现均与 AprioriAll 算法不同。
PSP(Perfectly Sequential Patterns)算法在[37]中提出,该算法采用了前缀树结构(而非哈希树)存储候选序列,从而导致该算法的候选序列集的产生和记数均不同与GSP算法; 同时,由于前缀树的每个节点只
存储事务中的一项,故与哈希树结构相比较大的节省了内存空间。
(3)软计算方法
软计算(Soft Computing)是方法论的集合,这些方法集互相协作,并以一种形式或其它某种形式为现实中的模糊情况提供灵活信息处理功能[38]。它的目的是为了获得易处理的、粗糙的、低成本的解决方法而对不确定的数据进行处理。遵从的原则是以追求近似解决模糊/精确问题,并低成本地设计解决方案。软计算方法主要包括模糊逻辑、Rough集、遗传算法、神经网络等。模糊逻辑是处理不确定性概念及其推理机制的过程,Rough集和神经网络常被用来分类和规则抽取,遗传算法包括最优解和搜索过程,像问题最优解和样本选择。针对时间序列挖掘,软计算方法的应用研究简要介绍如下:
模糊逻辑是最早、应用最广泛的软计算方法,模糊逻辑的发展导致了软计算方法的出现。[39]在挖掘时间序列数据时使用了模糊语言概化;[40]针对商业销售的智能分析需求,提出了一种基于模糊集合的数据挖掘时间序列模式算法。
神经网络是一个黑箱问题,它先前被认为不适合应用于数据挖掘,且在符号格式中,它并不能获得有用信息,但却适合进行解释。近年来,挖掘训练过的网络中的嵌入知识,已广泛地应用于数据挖掘中。它对属性或逐个或合并地进行判别,这对于决策或分类是非常重要的。它对数据挖掘的贡献是在规则提取和自组织性上。
遗传算法是可调节的、鲁棒的、有效率的搜索方法,它适应于搜索大空间集。它相对数据挖掘的标准来优化功能,并达到搜索最优解的目的。[41]提出了一个基于小生境遗传算法和模式缓存的时间序列中频繁结构模式的发现算法,该算法具有轻便、灵活、可扩展性好的特点,可根据实际情况合理配置计算时间和所占用的内存资源,可实现挖掘结果的实时动态更新输出,并通过在在实际时间序列数据上的实验证明了该算法的有效性。
Rough集理论由波兰逻辑学家Pawlak教授在20世纪80年代提出,是一种处理含糊和不确定问题的新型数学工具,其出发点是根据目前已有的对给定问题的知识将问题的论域进行划分,然后对划分的每一部分确定其对某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分别用三个近似集合来表示为正域、负域和边界。它能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识和潜在的规律。同时,Rough集理论在处理大数据量,消除冗余信息等方面有着良好的效果,因此广泛应用于数据挖掘的数据预处理(数据约简)、规则生成等方面[42,43]。
2股票时间序列挖掘
股票市场高风险和高收益并存,因此对于股票数据知识发现的研究一直受到人们的关注。目前对股票时间序列的数据挖掘方法大致集中在以下三个方面。
(1)相似性的研究。
该方法是在时间序列数据库中找出与给定查询序列最接近的数据序列,它包含了全序列匹配和子序列匹配两种问题。子序列匹配就是找出与给定模式序列相似的所有子序列,而全序列匹配就是找出彼此间相似的序列。具体的操作时将时间窗口在时间序列上滑动,通过距离计算从一个时间序列和多个时间序列中寻找相似的时间序列模式进行聚类形成相似组群,当有一个新的时间序列需要分析时,可以从相似组群中寻找与它最相似的类来匹配。一般有两个研究方向,一种是将时间序列从时间域(time domain)到频率域(frequency domain)后在进行相似性匹配。至于为什么要进行这种数据变换,主要是基于许多信号分析技术(如离散傅立叶变换DFT和离散小波变换DWT)需要数据来自频率域[2]。另一种则是直接在时间域上研究。主要应用是从股票数据中识别具有相似变化趋势的模式,以预测新数据在未来的发展行为。在时间序列相似性方面的研究文献有[44,45,46,47]。
(2)趋势分析与值预测研究。
趋势分析研究时间序列的变化趋势,其理论基础是将时间序列视为一个动力系统,认为在其过去的波动中蕴涵有可用于预测未来的信息。给定一组值(Y1,Y2,Y3,…),确定数据趋势的方法通常有两种[2]:一种是N阶的移动平均值,即 ()/n,()/n,()/n,…。移动平均可以降低数据集中的变化总量,用移动平均替代时序,可以减少不希望出现的波动,故它也称为时序的平滑。另一种是最小二乘法,即以最好的拟合曲线C作为最小二乘曲线,即曲线具有最小的,其中偏差或误差di是指点(xi,yi)的值yi与对应曲线C的值之间的差值。
趋势分析可以用来值预测,除此之外,用得较多的是神经网络[48,49]。这种预测方法由于是基于时间序列的具体数值,而这些数据往往含有许多干扰数据,因此该值预测方法的抗干扰能力较弱。
(3)时间序列中关联规则的抽取。
Gautam Das等对从时间序列中发现关联规则进行了研究[50],这里规则是对时间序列中不同模式间关系的一种描述,[50]的主要贡献在于给出了一个将原始时间序列转换成有各个模式表示符组成的符号序列的一般方案,该方案由三部分组成,即分割,聚类和符号替换。然后采用序列模式发现算法实现了符号序列中规则的发现。
针对股票时间序列的特殊性,许多学者在经典关联规则挖掘算法的基础上,又提出了许多新的算法。1996年R.Strikant给出了关系数据库中数量关联规则的挖掘算法[51];1998年H.Lu对股票变动的预测以及内联相关性分析进行了研究[52];1999年M.Garofalakis提出了具有约束限制的时序数据挖掘[53];2002年 Y.Chen对时序数据库的多维回归分析进行了研究[54]。国内学者在这方面也做了相当的研究,[55]对股票时间序列的挖掘,分别探讨了一维和二维关联规则的发现;[56]通过一个具体的实例描述了从股票时间序列中挖掘一维关联规则的方法;[57]提出了延迟关联规则的概念,并在股票时间序列上实现挖掘该规则的算法;[58]在时间序列中引入多重时间粒度,以模糊规则的形式给出数据挖掘的结果。
Rough集理论在数据挖掘领域的应用主要体现在数据约简和关联规则的抽取上,这方面的研究已经有了少量的文献。[59]提出的一种基于Rough集的时间序列数据挖掘策略,显然适用于股票时间序列的挖掘;[60]则提出将正则化神经网络与Rough集理论相结合应用于股票时间序列数据库的挖掘。该方法融合了正则神经网络优良的泛化性能和Rough集理论的规则生成能力,充分展示了软计算方法应用于时间序列数据分析的新颖性。
四.总结与展望
从大的方面来说,时间序列数据的挖掘技术可分为统计分析法和数据挖掘。众所周知,统计学是数据挖掘的三大支柱之一(另两种是数据库和人工智能);同时,数据挖掘在统计学的基础上另有扩充和发展,这使得数据挖掘技术成为一种更具优势性的研究方法。统计学为问题的探索解决方案提供了有用而实际的框架;模型是现代统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但数据挖掘却不同,它的核心是算法,当然也考虑模型和可解释性问题,但算法及可实现性是第一位的。它所强调的首先是发现,其次才是解释。数据挖掘,作为很多学科交叉的结果,继承了机器学习的“冒险”态度,比统计学更强调实践性、探索性和灵活性。
证券市场是国民经济的晴雨表,是政府主管部门、券商和广大投资者的兴趣中心。长期以来各券商的交易系统一直走在IT技术应用革新的前沿,同时也积累了大量的数据;挖掘、开发和利用这些数据一方面可以有效指导证券投资者的投资,另一方面可以使证券公司进行最适合的定位,从而使企业长期的积累得以充分发挥,树立竞争优势。作为数据挖掘的主要组成部分之一,关联规则挖掘获得了广泛的研究,但从关联规则的角度进行股票时间序列分析,从学术上来说具有一定的新颖性,其终极目标是以极大的概率预测股价的未来走势。股票的涨跌不是各自互不影响的,传统意义上的“板块联动”就是极好的证明。考察股票价格之间的涨跌关系,如能在传统分析方法的基础上,采用先进的数据挖掘技术,挖掘出股票之间的价格联动关联规则,显然具有十分重要的意义。
Rough集理论是一种处理含糊和不精确性问题的新型数学工具,是采用精确的数学方法分析不精确系统的一种理想方法。大量文献已经说明Rough集理论是从数据集中提取关联规则的有效方法,其中主要的原因应归功于Rough集理论强大的数据约简能力。应用Rough集理论对股票时间序列数据进行建模、约简、规则抽取,显然又是一个极具新颖和创新的研究领域。
参考文献
[1] 安鸿志,陈兆国,杜金观,潘一民. 时间序列的分析与应用. 科学出版社 1983.
[2] Jiawei Han,Micheline Kamber. 数据挖掘: 概念与技术.北京:机械工业出版社2001.3~6、278~285.
[3] 贝政新,陈瑛. 证券投资通论. 上海:复旦大学出版社,1998.
[4] 安妮. 股票投资技术方法与应用. 深圳:海天出版社,1995.
[5] 王耀动,张德远,张海雄. 经济时间序列分析. 上海财经大学出版社 1996.
[6] 李民,邵建中,李俊平等. 用ARMA模型预测深沪股市. 长沙铁道学院学报,2002,18(1):78~84.
[7] 李爱国,覃征. 滑动窗口二次自回归模型预测非线性时间序列. 计算机学报,第27卷,第7期2004年7月.
[8] 孙宏义,朱梅. 混沌时间序列预测及在股票市场中的应用. 安徽工程科技学院学报,第18卷,第4期2003年12月.
[9] 李菁菁,邵培基,黄亦潇. 数据挖掘在中国的现状和发展研究. 管理工程学报 2004年第3期.
[10] R.Agrawal, T.Imielinski, A.Swami. Mining Association Rules Between Sets of Items in Large Databases[C]. Proceedings of ACM SIGMOD Int’1 Conf. Management of Data, Washington D.C., 1993.207~216.
[11] R.Agrawal, R.Srikant. Fast Algorithms for Mining Association Rules[J]. VLDB94, Santiago, Chile,1994:478~499.
[12] Mannila H, Toivonen, Inkeri Verkamo A. Efficient algorithms for discovery association rules. In Proceedings of AAAI Workshop on Knowledge Discovery in database. July 1994.181~192.
[13] Hannu Toivonen, Mika Klemettinen, Pirjo Ronkaine etal. Pruning and grouping discovered association rules. In Mlnet workshop on Statistics, Maching Learning and Discovery in Database. Heraklion, Rete. April 1995.
[14] Agrawal R, Srikant R. Fast Discovery of Association Rules. In Fayyad.Ⅱ 1996.
[15] J.Han, J.Pei. Mining Frequent Patterns Without Candidate Generation. In Proc. 2000 ACM-SIGMOD Intl. Conf. on Management of Data(SIGMOD’2000) Dallas TX 2000,1~12.
[16] R.Agarwal, C.Aggarwal, V.Prasad. A Tree Projection Algorithm for Generation of Frequent Itemsets. Journal of Parallel and Distributed Computing Special Issue on High Performance Data Mining 2001,350-371.
[17] 倪旻,徐晓飞,邓胜春,赵政. 基于频繁项目对支持矩阵的Apriori优化算法.小型微型计算机系统.Vol.25 No.5, May 2004.
[18] 邓砚谷,王丽珍. 对FP-Tree头表节点数据结构的改进.计算机工程与应用. 2004,25.
[19] R.Agrawal, J.Shafer. Parallel Mining of Association Rules. IEEE Trans.On Knowledge and Data Engineer 1996,962~969.
[20] 张兆功,李建中,张艳秋. 海量数据上挖掘关联规则的并行算法. 哈尔滨工业大学学报,2004年05期.
[21] 朱红蕾,李明. 一种高效维护关联规则的增量算法. 计算机应用研究,2004年09期.
[22] M.Kamber, J.Han, J.Y.Chiang. Metarule-Guided Mining of Multi-Demensional Association Rules Using Data Cubes In Proc.1997 Intl. Conf. Knowledge Discovery and Data Minin KDD’1997 Newport Beach CA. 1997,207-210.
[23] 程继华,郭建生,施鹏飞. 元规则指导的知识发现方法研究. 计算机工程与应用,1999年第10期.
[24] 陆建江. 数据库中布尔型及广义模糊型加权关联规则的挖掘[J].系统工程理论与实践,2002,2:28~32.
[25] 程继华,施鹏飞. 多层次关联规则的有效挖掘算法[J].软件学报,1998,9(12):937~941.
[26] 程 岩,黄梯云.粗糙集中定量关联规则的发现及其规则约简的方法研究[J].管理工程学报,2001,15(3):73~77.
[27] 倪志伟,蔡庆生,方瑾.用神经网络来挖掘数据库中的关联规则[J].系统仿真学报,2000,12(6):685~687.
[28] 高坚. 基于免疫遗传算法的多维关联规则挖掘. 计算机工程与应用. 2003年32期.
[29] 苏占东,游福成,杨炳儒. 关联规则的综合评价方法研究与实例验证计算机应用. 2004年10期.
[30] 李虹,蔡之华. 关联规则在医疗数据分析中的应用. 微机发展. 2003年06期.
[31] 胥桂仙,高旭,于绍娜. 关联规则算法在中文文本挖掘中的应用研究. 中央民族大学学报(自然科学版). 2004年04期.
[32] 姜南,唐晓青. 应用关联规则构建质量活动链模型. 北京航空航天大学学报,2004年05期.
[33] 普杰信,薛冰冰. 加权关联规则在网络入侵检测系统中的应用. 信息技术. 2004年04期.
[34] Agrawal R, Srikant R. Mining Sequential Patterns. In Proc.95 Int’1 Conf Data Engineering, Taibei,Taiwan. March,5,1995.
[35] Tamakrishnan Srikant, Rakesh Agrawal. Mining Sequential Patterns: Generalizations and
Performance Improvements.
[36] Ramakishnan Srikant. Fast Algorithms for Mining Association Rules and Sequential Patterns,
Chapter 5 Mining Sequential Patterns p113-146.
[37] F.Masseglia, F.Cathala, P.Poncelet. The PSP Approach for Mining Sequential Patterns.
[38] L. A. Zadeh. Fuzzy logic, neural networks, and soft computing, Commun. ACM, Vol. 37, pp. 77-84, 1999.
[39] D. A.Chiang, L.R.Chow,Y.E.Wang. Mining time series data by a fuzzy linguistic summary system. Fuzzy Sets Syst. Vol. 112, pp.419-432, 2002.
[40] 吴煲宁,林天,孙志挥,汪晓刚. 一种基于模糊集的时间序列挖掘算法的设计与实现. 计算机工程与应用,2002年20期.
[41] 李斌,汪祖媛,高清维,庄镇泉. 基于遗传算法的时间序列中频繁结构模式发现研究. 电路与系统学报. 第九卷,第四期,2004年8月.
[42] 刘清. Rough集及Rough推理. 科学出版社,2001.
[43] 韩中华,吴成东,刘海涛. 数据挖掘技术研究进展. 工控智能化,2003(10), pp. 18-23.
[44] Das G, Gunopulos D. Finding similar time series. In Proc. Of the Conference on Principles of Knowledge Discovery and Data Mining, Trondheim, Norway, 1997:124-135.
[45] Eamonn Keogh. A Tutorial on Indexing and Mining Time Series Data. In the 2001 IEEE International Conference on Data Mining. November 29, san Jose.
[46] R.Agrawal, C.Faloutsos, A.Swami. Efficient Similarity Search in Sequence Databases. In Int.Conference on Foundations of Data Organization(FODO) 1993.
[47] 李宏,陈松乔,王建新. 基于时序模式关联的股票走势分析研究. 计算机工程与应用,2001,13.
[48] Hansen V J, Nelson R D. Data mining of time series using stacked generalizers. Neurocomputing, 2002,43(1):173-184.
[49] 王晓华,李冬梅,王正欧. 基于正则前馈神经网络的股票时间序列数据库的知识发现。计算机工程. 第29卷,第12期,2003年7月.
[50] G.Das, K.Lin, H.Mannila, G.Renganathan, P.Smyth: Rule Discovery from Time Series. KDD 1998:16-22.
[51] R.Srikant, R.Agrwal. Mining quantitative rules in large rational tabl
展开阅读全文