人工神经网络在数据挖掘中的潜在应用.docx

资源描述

人工神经网络在数据挖掘中的潜在应用摘要：随着存储在文件，数据库，和其他的库中的数据量巨大，数据正在变得越来越重要，开发用于分析或解释这些数据和用于提取有趣的知识的强有力的手段可以帮助决策。数据挖掘，也普遍被称为数据库中的知识发现（KDD），是指从数据库中的数据中提取隐含的，先前未知的，潜在地有用的信息。因此，数据挖掘的过程就是从大型数据库中自动提取隐藏的，预测的信息。数据挖掘，包括：提取，转换和加载到数据仓库系统的数据。神经网络已经成功地广泛的应用在监督和无监督的学习应用当中。神经网络方法不常用于数据挖掘任务当中，因为它们可能会结构复杂，训练时间长，结果的表示不易理解并且经常产生不可理解的模型。然而，神经网络对嘈杂的高精度的数据具有高度的接受能力在数据挖掘中的应用是可取的。在本论文中，调查探索人工神经网络在数据挖掘技术的应用，关键技术和实现基于神经网络的数据挖掘研究方法。鉴于目前的行业状态，神经网络作为一个工具盒在数据挖掘领域是非常有价值的一点。关键词：数据挖掘；KDD；SOM；数据挖掘的过程一、引言数据挖掘，从大型数据库中提取隐藏的预测性信息，是一个功能强大的具有巨大潜力的新技术在帮助公司集中重要的信息在他们的数据仓库中。数据挖掘工具预测未来的趋势和行为，允许企业作出主动的，知识驱动的决策。所提供的数据挖掘超越过去的事件进行回顾性工具的典型的决策支持系统提供了自动、前瞻性的分析。数据挖掘工具可以回答那些，传统上耗费太多的时间来解决的业务问题。他们寻找隐藏的模式数据库，寻找专家们可能由于超出在他们期望之外而错过的预测信息。不同类型的数据挖掘工具，在市场上是可用的，每个都有自己的长处和弱点。内部审计人员需要了解数据挖掘工具的不同种类和推荐的工具，满足组织电流检测的需要。这应该在项目的生命周期中尽早考虑，甚至可行性研究。数据挖掘通常包括四类任务。分类：把这些数据整理到组。例如一个电子邮件程序会试图将一封电子邮件分类为合法的或垃圾邮件。常见的算法包括决策树学习，最近邻，朴素贝叶斯分类和神经网络算法。聚类：就像分类但这些组却没有被预定义，因此该算法会尝试将类似的物品放在一起进行分组。回归：试图找到一个以最小的误差的数据函数模型。关联规则的学习：变量之间的关系搜索。例如，超市会对将消费者的购买习惯的数据集合起来。利用关联规则的学习，超市可以决定哪些产品经常一起购买和利用此信息实现营销的目的。有时将这种方法称为“市场分析”。人工神经网络是一个基于人类大脑的松散的系统建模。现场有许多名字，如联结，并行分布处理，神经计算，自然智能系统，机器学习算法，人工神经网络。它必须考虑任何功能的依赖性。网络发现（学习，模型）无需提示的依赖性。最初的数据挖掘应用中神经网络不被使用是由于其结构复杂，训练时间长，且操作性较差。而神经网络是解决许多现实世界的问题的一个有力的技术。他们从经验中学习，以提高其性能和适应变化的能力环境。此外，他们能够处理不完备信息或嘈杂的数据，特别是在无法定义的规则或步骤导致一个问题的解决方案的情况下是非常有效的。二、数据挖掘技术数据挖掘技术可以在现有的软件和硬件平台迅速实施来提高现有信息资源的价值，并可以提供新的产品和系统集成，为他们带来在线服务。当实现了高性能的客户机/服务器或计算机的并行处理，数据挖掘工具可以分析海量数据库来提供问题的答案，比如，“哪些客户最有可能回复我的下一个邮件促销，为什么？” 如图1所示，数据挖掘的过程包括三个主要阶段： 1．数据预处理 2．应用数据挖掘技术 3．结果的解释图1：数据挖掘的一般过程本节介绍数据挖掘的基本技术。在数据挖掘中最常用的技术是： •人工神经网络：非线性预测模型，通过培训和学习，类似于生物神经网络的结构。 •决策树：树型结构，表示一组决定。这些决定产生数据集的分类规则。具体的决策树方法包括分类与回归树（CART）和卡方自动交互检测（CHAID）。 •遗传算法：使用优化技术如遗传组合，突变，和一个基于自然选择进化的概念设计。 •最近邻法：一种将数据中每个记录集合的技术结合K记录类（S）最类似于它在历史数据集基础上。有时被称为K-最近邻技术。 •规则归纳：从基于统计意义的数据中提取有用的if-then规则。三、人工神经网络在数据挖掘中的应用如在上一节讨论的，我们可以在数据挖掘中使用各种技术。本节将重点放在人工神经网络是如何适合解决数据挖掘问题的。有两种主要神经网络模型：监督神经网络，如多层感知器或径向基函数，和无监督神经网络如Kohonen特征图等。有监督的神经网络使用培训和测试数据建立一个模型。数据包括历史数据集，它包含输入变量，或数据域，对应输出。训练数据的神经网络采用“学习”如何对已知量进行预测，并对测试数据用于验证。目的是对给定的输入变量利用神经网络对任何记录输出预测。图2：一个简单的前馈神经网络示例一个最简单的前馈神经网络（FFNN），如图2，包括三层：输入层，隐藏层和输出层。在每一层有一个或多个处理单元（PES）。PES是模拟大脑中的神经元，这就是为什么它们经常被称为神经元或节点。PE从外面的世界或者上一层接收输入。在每一层的PE之间有一个与之相关的重量（参数）联系着他们。这一重量因子。信息只有在向前的方向通过网络——没有反馈回路。为什么应用神经网络高精度：神经网络能够逼近复杂的非线性映射。噪声容限：神经网络针对不完备，丢失了的和嘈杂的数据是非常灵活的。从之前的假设独立：神经网络可以用新鲜的数据更新，使它们可用于动态环境。隐藏节点，在有监督的神经网络可以被视为潜在变量。神经网络可以在平行的硬件中实现。四、传统方法的信息处理与神经网络在这一部分中比较传统的方法和神经网络的信息处理。 A）基础：逻辑与大脑传统方法：模拟和形式化人类推理和逻辑的过程。TA把大脑看作一个黑盒子。TA专注于元素是之间是如何彼此相关的，以及如何给机器一样的功能。神经网络：模拟大脑的智力功能。神经网络专注于大脑的结构建模。神经网络试图建立一个系统，功能就像大脑，因为它有一个类似于大脑的结构。 B）处理技术：顺序和并行传统方法：TA的处理方法本质上是连续的。神经网络：神经网络处理方法本质上是平行的。在神经网络系统中每个神经元与其他神经元功能平行。 C）学习：静态和动态以及外部与内部的传统方法：学习是发生在系统外。在系统外部获得知识，然后编码到系统。神经网络：学习是系统和它的设计的一个组成部分。知识作为神经元之间的连接强度被存储，它是一个数据集学习这些权重时神经网络的工作所展示出来的。 D）推理方法：演绎与归纳传统方法：本质是演绎。使用该系统，包括一个演绎推理的过程，对于一个给定的情况下应用广义的知识。神经网络：本质是归纳。构建了它的数据的一种内在的知识基础。它概括了从数据，这样当它提出了一个新的数据集，它可以做出一个基于广义内部知识的决策。 E）知识表示：外显与隐式传统方法：它代表一个显式的知识。规则和关系可以被检查和修改。神经网络：知识在神经元之间的互连强度的形成时被存储。在系统中没有一个可以拿起一块计算机代码或一个数值作为一个可识别的知识。五、基于神经网络的数据挖掘 A、基于自组织映射的数据挖掘（SOM）自组织映射（SOM）在可视化的高维度中被认为是非常有效的一种先进的可视化工具，各种功能包括数据之间的内在关系，复杂的数据。SOM的输出强调数据的显着特征和随后导致类似的数据项群的自动生成。这种特殊的会议让他们有资格成为潜在的候选人完成数据挖掘任务，包括分类和聚类的数据项。“学”的SOM可以作为重要的可视化的援助，因为它给出了一个完整的图像数据；相似的数据项会自动组合在一起。自组织映射（SOM）已被证明在数据的可视化和探索领域内最强大的算法之一。应用领域包括各种领域的科学和技术，例如，复杂的工业过程，电信系统，文件和图像数据库，甚至是金融领域中的应用。SOM映射到高维输入向量的二维网格原型并且命令他们。对人类的翻译来说，有序的原型向量更易于原来的数据可视化和探索。SOM已在各种软件工具和库广泛实施。图3：SOM神经网络在数据挖掘中的应用如图3，处理后的SOM用于提取数据定性或定量的信息。可视化和聚类提供定性信息，同时监测定量的信息，从而得到系统的行为的深层理解。 B、基于神经模糊的数据挖掘一个神经模糊系统是基于一个模糊系统的学习算法接受来自神经网络理论。学习程序运行在本地信息，并在底层的模糊系统只造成局部修改。一个神经模糊系统可以被看作是一个三层前馈神经网络。第一层是输入变量，中间层是（隐藏的）模糊规则,第三层表示输出变量。模糊集被编码为（模糊）的连接权值。这是没有必要的代表这样一个模糊系统应用学习算法，它。然而，它可以方便的，因为它代表输入的数据流处理模型内的学习。有时用五层建筑，在模糊集的第二和第四层的单位。一个神经模糊系统总是可以解释为一个模糊规则系统。也可以创建系统的从零开始的训练数据，它可能初始化它的先验知识的模糊规则表。考虑到系统神经模糊系统的学习过程需要基本模糊语义性质。这个结果限制适用于系统参数的修改。神经网络在分类上准确度高，预测和许多其他应用在文献中提出。但这个系统是无法解释的知识嵌入在训练后的神经网络是该技术的一个主要缺点。多关注被用来从训练的神经网络规则解决这个问题。图4显示了基于神经模糊系统的数据挖掘过程。第一步是由神经网络构建系统建立神经网络预测模型。子系统的机制像是一个专家系统外壳。第二步是从训练的神经网络中提取规则。神经网络结构和权值空间用于我国的业务规则管理预测的规则提取机制。在第三步中隐藏的预测规则中提取的以前的步骤相结合，用神经网络构建系统生成的形成一个描述性的神经网络，动态神经网络。大多数研究人员提取的if-then型关联规则，因为相对其他的表示他们更能理解人类。图4：使用描述性的神经网络数据挖掘过程 C、基于ART2的数据挖掘聚类分析是数据挖掘领域的一个重要的研究课题，它是数据挖掘的一个主要任务。自适应共振理论（ART）神经网络是实现聚类的一种有效方法。但经典ART2网络在数据聚类分析应用中的一些缺点和不足。经典ART2网络在网络训练之前必须指定P警戒参数；这个参数的配置对网络的聚类结果有着直接的影响。经典ART2用“赢家通吃”的竞争规则，一般只考虑获胜神经元的信息，而忽略在输出层神经元的其他的有用信息。经典ART2网络输出本质上是一维结构在整个输入模式空间无法体现整体关系。通过改进的ART2结构，考虑挖掘对象的幅度信息丰富，可减少警戒参数的要求和层次结构获得的聚类结果。我们可以将在数据挖掘中的浏览模式的ART2神经网络记录在Web日志数据。 D、基于反向传播的数据挖掘在一些情况下，BP神经网络可能是一个好主意： 1．大量的输入/输出数据是可用的，但是你不知道如何将它与输出联系起来。 2．这个问题似乎有压倒性的复杂性，但是有一种明确的解决方案。 3．它很容易创建一批的正确行为的例子。输出可以是“模糊”，或非数字。反向传播算法可用于分类问题。六、结论与讨论在本文中，我们回顾了在数据挖掘技术中如何运用人工神经网络。神经网络由于其自身良好的鲁棒性，特征自组织自适应行，并行处理，分布式存储和高度容错性，适用于解决数据挖掘的问题。这个整体效益，人工神经网络供应了一个强大的和令人兴奋的工具，应用在数据挖掘领域内，来提高数据挖掘过程的能力。这样一个提供了有价值的洞察力和智慧的组合工具的用来指定所有领域的规划与决策。此外，粒子群优化，蚁群算法可以与人工神经网络结合，进一步提高人工神经网络在数据挖掘方向的性能。七、参考文献 [1] Data Mining: Concepts and Techniques Jiawei Han and Micheline Kamber, Morgan Kaufmann, 2001. [2] Data Mining:Practical Machine Learning Ian H. Witten, Eibe Frank, Morgan Kaufmann, 2000 [3] Fundamentals of Neural Networks,Laurene V. Fausett [4] Xianjun Ni,’Research of Data Mining Based on Neural Networks’World Academy of Science, Engineering and Technology 39 2008 [5] David Hand, Principles of Data Mining [M]. Massachusetts Institute of Technology,2001 [6] Feng Jiansheng. KDD and its applications, BaoGang techniques. 1999(3): 27-31. [7] Wooldrldge M J. Agent-Based software engineering. IEEE Transactions on Software Engineering [J]. 1999,144 (1): 26-27. [8] Lie Lu and Hong-Jiang Zhang, “Content analysis for audio classification and segmentation.”, IEEE Transactions on Speech and Audio Processing, 10:504–516, October 2002. [9] T. Tolonen and M. Karjalainen, “A computationally efficient multipitch [10] analysis model,” IEEE Transactions on Speech and Audio Processing,Vol. 8(No. 6):708–716, November 2000. [11] Kohonen, T., Self-Organizing Maps, Series in Information Sciences, second edn. 1997, Springer, Heidelberg 研究生一年级上半学期学过人工智能我所理解的是：人工智能就是给机器赋予人类的智能，让机器能够像人类那样独立思考。当然，目前的人工智能没有发展到很高级的程度，这种智能与人类的大脑相比还是处于非常幼稚的阶段，但目前我们可以让计算机掌握一定的知识，更加智能化的帮助我们实现简单或者复杂的活动。数据挖掘：数据挖掘是一门交叉性很强的学科，可以用到机器学习算法以及传统统计的方法，最终目的是要从数据中挖掘到为我所用的知识，从而指导人们的活动。所以我认为数据挖掘的重点在于应用，用何种算法并不是很重要，关键是能够满足实际应用背景。内容总结（1）人工神经网络在数据挖掘中的潜在应用摘要：随着存储在文件，数据库，和其他的库中的数据量巨大，数据正在变得越来越重要，开发用于分析或解释这些数据和用于提取有趣的知识的强有力的手段可以帮助决策（2） HYPERLINK " \l "##" SOM已在各种软件工具和库广泛实施（3）一个神经模糊系统总是可以解释为一个模糊规则系统

展开阅读全文