资源描述
基于数据挖掘的金融数据分析
Based on Data Mining in Financial Data Analysis
Computer Application academy of Computer Science, Wuhan University, Graduate,wuhan, 430072,china
[摘要] 当今,已是企业战略及其市场地位与信息技术息息相关的时代,很难想象一个现代企业没有完善的信息技术系统的支持,将会如何运转。但是,随着信息技术的发展,企业产生的数据大量地堆积和膨胀,其中很多十分有价值的信息隐藏在其中却不被人们所发现。如何对这些海量的数据进行管理,并从中提取潜在的有价值的信息,成为企业在激烈的市场中占据优势地位的关键点。因此数据挖掘技术应运而生,并且在各个行业领域中应用,取得了广泛和重大的进展。本文即对数据挖掘在金融业的应用情况进行了探讨。
[summary] Today is the corporate strategy and its market position and is closely related to the era of information technology,it is difficult to imagine a modern enterprise with no proper support for information technology systems will be how it works. However, with the development of information technology, enterprise data generated by large numbers of accumulation and expansion, many of which are very valuable information hidden in them not being found by people. How these massive data management and extract potentially valuable information, as enterprises in the fierce market occupy the dominant position of the key points. Therefore, data mining techniques have emerged, and applied in various industries, has made extensive and significant progress. This paper is on data mining applications in the financial sector were discussed。
[关键词] 信息技术、数据管理、数据挖掘、金融业
[keyword] Information technology、Data management、Data Mining、Finance
引言
作为一个新兴的研究领域,数据挖掘已经广泛的应用到了众多的领域,出现了大量大的商品化的数据挖掘系统,金融数据挖掘是信息社会中的一个极具挑战性的研究方向,金融数据的随机特性使得隐藏在数据中的内在规则难以被发现。如何对这些隐藏的数据进行管理,并从中提取潜在的有价值的信息,成为金融业在市场中占据优势地位的关键。
1、数据挖掘概述
数据挖掘DM(Data Mining)是对数据库中的数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的、但又是潜在有用的信息和知识的过程[1]。确切地讲,DM是KDD过程中的一个步骤,其处理对象是大量的日常业务数据,它主要基于人工只能、机器学习、统计学等技术,高度自动化地分析原有的海量数据,做出归纳的推理,从中采掘出潜在的模式,预测未知的行为,提高信息的利用,改变“人们被数据淹没,同时却仍感到知识饥渴”的资源浪费的局面。KDD是数据库技术和机器学习两个学科的交叉学科,由于KDD使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此DM中的学习算法的效率和可扩充性就尤为重要;此外,KDD所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证,因此数据预处理也是很有必要的。
2、数据挖掘在金融业的应用
金融事务需要搜集和处理大量纷繁复杂的数据,大部分银行和金融机构提供丰富多样的银行服务(如个人存款)、信用服务(如贷款、个人信用卡)和投资服务(如共同基金)。由于交易的频繁性、信息的不对称性加上从海量数据中挖掘信息,金融数据挖掘技术可以从这些信息中查找到有效的信息用来帮助监管部门及投资部门进行有效监督和投资管理,可以帮助银行部门描述客户以往的需求趋势并预测未来;可以分析潜在的信誉较差的客户,及时采取措施减少资产损失等。
金融机构收集到的金融数据通常相对完整、可靠并具有高质量,方便了系统化的数据分析和数据挖掘。对金融数据进行数据挖掘通常包含以下四个部分的应用分析情况。
(1)为多维数据分析和数据挖掘设计和构造数据仓库。
首先需要为银行和金融数据构造数据仓库,应当使用多维数据分析方法分析这种数据的一般性质,企业可以通过按月、按地区、按部门以及其他因素,查看债务和税收变化,同时提供最大、最小、总和、平均值趋势和其他统计信息。数据仓库、数据立方体、多特征和发现驱动的数据立方体、特征化和类比较以及离群点分析都会在金融数据分析和挖掘中发挥重要的作用。
(2)贷款偿还预测和顾客信用政策分析。
贷款偿付预测和顾客信用政策分析对银行业务是至关重要的。很多因素都会对贷款偿还履行和顾客信用等级评定产生不同程度的影响。数据挖掘方法,如属性选择和属性相关评定,可能有助于识别重要因素,剔除不相关因素。例如与贷款偿还风险相关的因素包括贷款率、贷款期限、负债率、偿还收入比、顾客收入水平、受教育水平、居住地区和信用史。分析顾客偿还史信息可以发现,比如说,偿还收入比是主要因素,而受教育水平和负债率则不是,于是,银行可以根据此调整贷款发放政策,将贷款发放给那些 申请以前曾被拒绝的,其基本信息表明风险相对较低的顾客。
(3)针对定向销售的顾客分类与聚类。
分类和聚类的方法可用于顾客群识别和定向销售。可以使用分类识别可能影响顾客关于银行业务决策的最重要因素。使用多维聚类技术,可以识别对贷款偿有类似行为的顾客。这些可以帮助识别顾客群,把新顾客归到一个合适的顾客群,推动定向消费。
(4)洗黑钱和其他金融犯罪的侦破。
为了侦破洗黑钱和其他金融犯罪,重要的是把多个数据库(如银行交易数据库,地区犯罪历史数据库)中的信息集成起来,只有这些数据可能与侦破工作有关。然后,使用多种数据分析工具检测异常模式,如在某段时间内分析某些人发生的大量现金流动。使用的工具包括数据可视化工具(用图形的方式按时间和按顾客群显示交易活动)、链接分析工具(识别不同顾客和活动之间的联系)、分类工具(过滤不相关的属性,对高度相关属性分类)、聚类工具(将不同案例分组)、离群点分析工具(检测异常资金转移量或其他行为)、序列模式分析工具(刻画异常访问序列的特征)。这些工具可以识别活动的重要联系和模式,帮助调查人员为进一步详细调查提供可疑线索。
结束语
数据挖掘已在我国金融业信息化建设中被广泛应用,帮助企业在激烈的市场竞争中取得优势地位,并显现出巨大的应用前景。我们不要求十全十美,但要尽量做得好一些,特别是我国加入WTO后,金融开放将使我国金融业直接面对外资金融机构的挑战,但同时血给我们提供了机遇和发展的空间。加强对外技术经验交流,继续深化体制改革,充分挖掘自身独特的优势,创新产品服务。加强客户关系管理,这将是我们在激烈的竞争中取得长足发展的关键。
[参考文献]
[1]李学勃。数据挖掘在金融业的应用分析[J]。万方数据,2009(10)
[2]易东云。金融数据挖掘中的非线性相关跟踪技术[J]。软件学报,2000(11)
[3]范明。数据挖掘概念与技术[M]。机械工业出版社,2007(3):424-425
[4]侯宇。基于决策树方法的数据挖掘分析[J]。华南金融电脑,2009(8)
展开阅读全文