收藏 分销(赏)

大数据的挖掘.doc

上传人:xrp****65 文档编号:6267079 上传时间:2024-12-04 格式:DOC 页数:6 大小:31KB 下载积分:10 金币
下载 相关 举报
大数据的挖掘.doc_第1页
第1页 / 共6页
大数据的挖掘.doc_第2页
第2页 / 共6页


点击查看更多>>
资源描述
大数据的挖掘 摘要:大数据关注大量的,复杂的和增长的有多样的和自主来源的数据的集合。随着网络数据存储和数据收集能力的快速发展,大数据扩展到所有的科学和工程领域中去,包括物理学、生物学和生物医学。本文介绍了一个HACE理论,这个理论描述了大数据革命的特征,从数据驱动模型包括需求驱动的信息来源聚集,挖掘和分析,用户兴趣建模和安全隐私方面的考虑。我们将在数据驱动模型和大数据革命下分析这些挑战性的课题。 莫言博士获得了2012年的诺贝尔文学奖。这可能是这奖项最具争议的诺贝尔奖。在谷歌搜索“Yan Mo Nobel Prize”,结果有1,050,000条网络连接。最近莫言说“对于所有支持和批评,我都感谢。”在他31年的写作生涯中,事实上他收到的多少的支持和批评呢?在各种新媒体中评论仍然持续出现,我们总结在不同的实时媒体中所有种类的观点,包括通过批评更新的和互相参考的评论?这种摘要程序是一个非常好的大数据处理的例子,正如信息来自多样的、异构的和自治的来源,这些具有复杂和进化的关系以及持续的增长。 通过上面的例子,大数据时代已经来临,每天有大量字节的数据创造出来,世界上百分之九十的数据是过去两年中产生的。自从19世纪信息技术发明以后,我们的数据存储能力从来没有如此的力量和巨大。另外一个例子,在2012年10月4日,在奥巴马和罗姆尼第一次总统辩论在两小时内引起了超过一千万条的推特。在所有这些推特中,那些特别的被讨论最多的评论事实上透露了大众的兴趣,例如关于医保和付款凭单的讨论。这些网上讨论提供了一种新的方法去感受公众的兴趣并且实时给出反馈,这几乎对电视广播这些普通媒体的比较。另外一个例子是Flicker,一个公共图片分享网站,从2012年1月到3月间,平均每天收到180万张照片。假设每张照片是2MB,这就每天需要3.6TB的存储量。的确,正如一句谚语说的:“一张图胜过一千句话。”如果我们有能力来驾驭这些大量的数据,在Flicker的上百万张图片对我们来说就是一个财富宝库,用来探索人类社会,社会事件,公共事件和灾难等。 以上的例子表明了大数据应用的增长,在数据收集以惊人的速度增长和以超过一般应用软件能力来采集和管理,并在可允许的时间内完成。大数据应用最基本的挑战是探索广阔的数据并提取出对未来动向有用的信息和知识,在许多情况下,知识的提取过程一定是很有效率的并且趋于实时的,因为存储所有观察过的数据几乎是不可行的。比如,在射电天文学中的平方千米阵列在5公里范围内由1000—1500个15米直径的碟形天线构成。在解答基本的宇宙问题中,它提供超过任何存在射电望远镜100倍的灵敏视野。但是,每秒产生40GB的数据量,这些射电望远镜产生的数据集是相当大的。尽管研究人员确定从SKA数据中发现有趣的射电异常样本,现有的办法只能在挂线下工作,在实时处理这种大数据集市无计可施的。因此,这些空前的数据量需要有效地数据分析和预测平台来获得这种大数据的快速响应和实时分类。 本文剩余结构:在第二节中,中我们给出了一个建模大数据特征的HACE原理。第3节简单阐述数据挖掘中的重要挑战。一些重要研究方案和作者在这个领域的研究项目将在第4节给出。在第5节将讨论相关工作,最后将在第6节给出我们的结论。 2 大数据特征:HACE原理 大数据起始于大量数据,异构的,分散式的和离散控制的自治资源,从这些数据中追求去探索复杂和进化的关系。 这些特征使得大数据中发现有用的知识是个极端的挑战。从一个单纯角度看,我们能想象很多盲人努力估计一头大象的大小,在这背影下就是大数据。每个盲人的目标是根据在这过程中收集的那部分信息,来描述大象。因为每个人的视角局限在他自己的区域,所以每个盲人独立得出大象像绳子,水管或一堵墙的结论并不奇怪,这是取决于它的受限制的位置。为了使问题变得更复杂,让我们假设1)大象正在迅速生长,它的姿势也会不停地变化,2)每个盲人有他自己的信息资源(可能是不可信的和无准备的),这信息会告诉他关于大象的基本信息(例如,盲人之间交换他们对于大象的感觉,这基于固定的知识交换)。这种探索大数据的方案相当于从不同来源聚集异构性的信息来帮助描绘出一个最有可能的图景去揭示大象真正的实时姿势。当然,这个任务并不是像让每个盲人描述他们对于大象的感受那么简单,然后得到一个专家用组合的视角画出唯一的图像,包括每个人可能讲不同的语言(异构的和分散的信息源)并且他们可能在信息交换过程中慎重地考虑信息隐私问题。 2.1具有异构性的和不同维度的大数据 大数据的一个基本特征是由异构的和分散的大量数据代表。这是因为不同的信息收集者倾向于用他们自己的计划和协议来记录数据,当然不同的应用也会产生不同的数据表现。例如,在生物医学世界中,每个人都可以用简单的人口统计学的信息来代表,比如性别,年龄,家族病史等等。对一个人的X射线检查和CT扫描中,图像和视频被用来表示结果,因为他们为医生去仔细检查提供可视的信息。对于DNA和基因检测,显微镜成像和序列被用来表现基因代码信息,因为这是我们现在技术获取数据的方式。在这种情况下,异构的特征涉及对同一个体的不同方式描述,包括代表观察每个个体的不同特征参考的是特征多样性。想像出不同组织可能有他们自己的计划来表达每个病人,如果我们试图从所有的数据组合资源中完成数据聚合,那么数据的异构性和不同维度问题将变成主要的挑战。 2.2具有分布式和离散控制的自治资源 分布式和离散控制的自治数据资源是大多数应用的一个主要特征。自治是每个数据资源在不包括任何集中控制下产生和收集信息。这个类似于万维网的设置,每个网络服务器提供一定量的信息并且每个服务器不依赖其他服务器来完全实现功能。另一方面,如果整个系统不得不依赖任何集中控制模块的话,庞大的数据也会使一个应用变得易受攻击或失灵。对于主要的大数据相关应用,如谷歌,雅虎,脸谱,以及沃尔玛,大量的服务器设置在全球来确保当地市场的无停的服务和快速反馈。这种自治的资源不只是技术设计的解决方案,也是不同国家和地区立法和惯例的结果。比如,沃尔玛的亚洲市场在季节性促销活动,畅销商品及顾客行为方面不同于北美市场。更特别地是,当地政府条规也会影响整个销售管理的过程,使得针对当地市场的数据描述和数据库的重组。 2.3复合和进化的关系 当大数据的数量增长时,数据底层的复合关系也在增长,在数据聚集信息的初始阶段,重点是从每次观察中发现最有价值的特点。就和使用一些领域的数据一样,用来描述一个个体,比如年龄,性别,收入,教育和背景等。这种同样的内在表现方式,在没有考虑他们社会关系下展现出每个个体的独立实体,这也是人类社会持续不断增长的重要因素之一,我们的朋友圈可能通过共同爱好或者通过生物关系建立起来的。这种社会关系不仅普遍存在于我们日常的生活中,而且在虚拟世界中也很流行。比如,主流的社交网站,如脸谱或推特,都是以社交为主要特色的,比如朋友圈及伙伴关系。个体内在的相互关系式整个数据表达及任何在数据上的推理变得复杂化了。在这种刻板刻画的表现中,个体被认为相似的,如果他们分享了相同的特征值,然而在样板特色的表达中,两个个体可以联系在一起(通过他们的社交联系),尽管他们可能每一在特征方面没有任何共同点。在一个动态的世界里,用于描述个体的特征和用于描述我们关系的社交网也可能会随着时间和空间的及其他因素发展。如此的错综复杂正成为大数据应用的一部分,这是把复杂数据考虑进来的关键,从而从大数据聚集中能发现有用的模式。 3.大数据的数据挖掘挑战 对于一个智能数据库系统处理大数据来说,最基本的是通过上述的HACE理论为描述特征而按比例增加大量异常的数据来提供方法。图2展示出一个大数据处理的框架,它从里到外包括三层,第一层是数据访问和计算,第二层是处理数据隐私和区域知识,第三层是大数据挖掘算法。 第一层的挑战主要是数据访问和算法计算程序。因为大数据一般存储在不同的地方,而且数据量可能持续的增长,所以一个有效的计算平台将不得不在计算时将分布式的大量数据存储考虑其中。比如,经典的数据挖掘算法需要将所以的数据下载到硬盘中,然而这正成为大数据的一个明显的技术障碍,因为从不同地方移动这些数据代价是很昂贵的(比如,提供加强网络交流和IO成本),尽管我们确实需要一个超大的硬盘来保存所有的数据来计算。 第二层的挑战围绕在不同大数据应用的语义和领域知识这方面。这样的信息可以对挖掘过程提供额外的好处,但是也会增加大数据接收和挖掘算法带来技术障碍。比如,取决于不同领域的应用,数据隐私和在数据制作者和数据顾客间的分析的信息都显著地不一样。为应用分享网络传感数据,像水质监控,可能是不鼓励的,然而暴露和分享手机用户的地点信息对多数应用,如果不是全部的话,是显然不可接受的。另外对于以上隐私问题,应用的领域也可以为改善和指导大数据挖掘算法的设计提供额外的信息。例如,在市场中的菜篮子交易数据,每一次交易都被认为是独立的,这些发现的知识是通过找出最相关项目来经典表达的,可能还考虑到不同的时间和/或空间上的限制。在社交网络中,另一方面是,用户都联系在一起,分析从属结构。然后知识由用户团体,在每一个团队中的领导及社交影响模型等来表达。因此,明白语义和应用知识对低等级的数据接收和高等级的挖掘算法设计都是重要的。 在第三层,数据挖掘的挑战在于解决各种差异的算法设计,包括由大数据量引起的差异,分布在不同数据分布的差异及聚合和动态的数据特征引起的差异。在第三层的圈包含了三个阶段。首先,稀少的,异构的,不确定的,未完成的及多源的数据通过数据聚合技术进行预处理。第二,复合的和动态的数据在预处理后进行挖掘。第三,包含在局部学习中的全局知识被测试,其中包括局部学习和模型聚合,相关的信息被反馈到预处理阶段。然后,根据反馈,模型和参数将进行调整。在整个处理过程中,我们将迎接图2三层框架的尊敬挑战。 3.1第一层:大数据挖掘平台 在典型的数据挖掘系统中,挖掘程序需要为了数据分析和比较来加强计算单元。一个计算平台因此也至少需要2种有效的资源:数据和计算处理器。对于小型的数据挖掘任务,一个单独的包含硬盘和CPU的台式电脑,足以满足数据挖掘的目标。的确,许多数据挖掘算法是为这类型的问题设计的。对于中等规模的数据挖掘任务,数据都非常的大(有可能是分布的),且不能存放到主内存中。一般的解决方法是依靠并行计算或者集体挖来对不同来源的数据进行取样和聚集,然后用并行计算程序(比如消息传递接口)来执行挖掘过程。 对于大数据挖掘,因为数据规模已远远超出一个个人电脑课处理的能力范围,一个典型的大数据处理框架将依靠电脑群,这个群具有高性能的计算平台,一个数据挖掘任务正由一些在大量计算机节点上的并行程序工具来发展,如图分解或者企业控制语言(它的角色是确保一个单独的数据挖掘任务,如从一个有百万条记录的数据库中找出一个最匹配询问的而一个记录,能化为许多小任务,没一个小人运行在一个活多个计算机节点上。例如,在撰写本文是,设置在田纳西州橡树岭国家实验室世界最强的超级电脑Titan,包含18688个节点,每一个节点又有16核的CPU。 这样同时有硬件和软件元的大数据系统,没有重要的产业股东的支持是很难实现的。事实上,几十年来,元件已经基于存储在相关数据库的交易信息作出商业决断。大数据挖掘为传统相关数据提供机会来打破依靠弱结构数据的,如能挖掘出有用信息的微博,社交媒体,电邮,传感器及图片。多数商业智能公司,如IBM,甲骨文,天睿等等,都已经特色化他们自己的产品来帮助用户得到组织这些粉丝的数据源,结合用户现有的数据来调整以新的见解和利用隐藏的关系。 3.2第二层:大数据的语义和应用知识 大数据中的语义和应用知识涉及到很多方面的规定,政策,用户知识及领域信息。这一层两个最重要的问题是1)数据分析和隐私;2)领域和应用知识。前者为解决数据如何保持,访问和分享问题提供解答;然而后者重点在回答问题,类似于,“应用底层是什么?”以及“知识或者平台用户从数据中打算发现什么?”这样的问题。 3.2.1数据共享和数据隐私 信息分享对于所有涉及多个部分的系统而言,是非常重要的。当分享的动机很明确是 ,真实世界关注的是大数据应用与敏感的信息是相关的,如银行交易和药物记录。简单的信息交换或传递不能分解隐私的关注。比如,知道了人们的地点和他们的选择,一个人可以获得很多当地的服务,但是一个个体过时的地址/移动的曝光可能会有关于隐私的严重结果。未来保护隐私,通常有两个办法1)限制对数据的获取,比如增加认证或对数据入口的权限控制,这样敏感信息就只被有限的用户访问到,2)数据文件匿名,这样敏感信息精确到个人的记录。对于第一个方法,一般的问题是设计安全的认证或者访问权限机制,这样没有敏感信息可以被没有被认证的用户胡乱处理。对于数据匿名化,主要任务是在数据中加入随机处理,来保证大量的隐私目标。例如,最普通的k匿名隐私方法用来确保数据库中的每一个个体都必须不能被其他k-1个人识别出来。一般的匿名方法是用压缩,统一化以及置换来生产数据的另一个改变后的版本,事实上是一些不确定的数据。 信息共享方法的数据匿名化的一个重要好处是,一旦匿名化,数据可以在不同的平台自由地共享,而不需要涉及限制的访问权控制。这自然引起了一个研究领域叫着隐私保存数据挖掘,其中不同的团队,这每一个都拥有一些敏感数据,都尝试在不分析任何数据内部敏感信息的情况下,达到一个普通的数据挖掘的目标。在实践中,这个隐私保存挖掘的目标可以分解为来那个种方法,包括1)用特殊的交互协议,如YAO的协议,以获得整个数据记得分布,而不是获得每一个记录的实际值,2)从匿名的数据得来的知识设计特别的数据挖掘方法(这个与不确定的数据挖掘方法在内在是很相似的)。 3.2.2领域和应用知识 领域和应用知识为设计大数据挖掘算法和系统提供了重要的信息。在一个简单的案例中,领域知识可以为建模底层数据辨别正确的特征(例如,在诊断糖尿病中,血糖水平显然比身体素质是更好的特征)。领域和应用知识通过大数据分析工具还可以帮助设定可达到的商业目标。例如,股票市场数据是一个典型的领域,它每一秒都在持续产生大量的信息,如股价,买入和卖出。市场不停地进化,受不同隐私影响着,如领域和网络新闻,政府报道和自然灾害等。一个引人兴趣的大数据挖掘任务是设计一个大数据挖掘系统来预防在下一分钟或两分钟后的市场的变化。尽管这个预测的准确度比随意的猜测仅仅好了那么一点点,这个系统还将为开发商带领重要的商业价值。没有正确的领域知识,找到有效的模型或者方法来描述市场动向显然是一个挑战,而这类知识通常超出了数据挖掘者的能力范围,虽然最近的一些研究已经显示,利用社交网络,如推特,以高准确度预测股票市场的上涨/下跌的趋势还是有可能的。 3.3第三层:大数据挖掘算法 3.3.1局部学习和复合信息资源的模块聚集 就像大数据应用由自治资源和分散的控制刻画,因为潜在的传递成本和隐私问题,为了挖掘将分布的数据资源聚集到一个集中的点在系统上是昂贵的。另一方面,虽然我们可以再每一个分布的点落实挖掘活动,但是聚集在每一个点的数据的偏见导致决定和建模的偏见,正如盲人摸象案例。在这种情况下,一个大数据挖掘系统不得不可以进行信息交互和集合机制以确保所有的分布点(或者信息资源)可以合作来完成一个全局优化目标。对于确保从多样化的信息资源中发现的模型或平台可以统一化以满足全局挖掘目标,模型挖掘和统计是非常重要的步骤。更具体地,全局挖掘可以由两步(局部挖掘和全局统计)对数据,模型和知识层面的程序来完成。在数据层面,每一个当地的点可以根据当地的数据源计算数据的统计资源,不同点之间交互统计结果以获得一个全局的数据分布看法。在模型或平台层面,每一个点在考虑到当地的数据情况下,执行局部的挖掘活动以发行局部的模式。通过多样化资源间的交互,新的全局模式通过集合所有点的模式来合成。在知识层面,模型相关的分析研究了从不同数据资源集合来的模式间的关联,以确定数据资源相互之间怎样的关联关系,以及如何从自治资源构建的模板中,形成准确的决定。 3.3.2从稀少的,不确定和未完成数据中挖掘 稀少的,不确定的和未完成的数据是大数据应用的最典型数据。稀少的是指,数据量太少不足以作出可靠的结论。通常这是数据纬度问题的一个并发症,其中高维空间的数据不能清晰地给出趋势或分布。对于大多数的机器学习和数据挖掘算法,高纬少量的数据显著地使来源于数据的模型的可靠性降低了。一般的方法是实用降纬的方法或者用特征选择来减低数据纬度或者引入另外的样本来减轻数据的匮乏,例如数据挖掘中的类的无监督学习方法。 不确定数据是一种特别的数据,其中每一个数据领域都不再是确定的,但是是属于一定随机/错误的分布中。这主要关系到领域特别应用,具有不确定数据朗读和搜集的特点。例如,由GPS机制生产的数据内在地是不确定的,主要因为这种装备的技术障碍将数据的准确性限定在一定的水平(如1米内)。因此,每个记录地点由一个平均值和一个表示预期错误的变量来表达。对于数据隐私相关的应用,用户可能会故意地在数据中加入随意值/错误来保证匿名化。一个人可能不太愿意让你知道他/她的期望薪资,但是可以给出一个大概范围,这个与前面说的是类似的。对于不确定的数据,最大的挑战是每一个数据项目被表示成样本分布而不是一个单独的值,所以大多数现有的数据挖掘算法不能直接地应用。一般的解决方法是将数据分布引入到模型参数估计中。例如,包含错误的数据挖掘考虑到每一个数据项目利用平均值和变量为分类构建一个Naive Bayes模型。同样的方法也用在决定书或数据库序列中。不完整数据指对于一些样本而言,它丢失了部分属性值。丢失的值可能会引起不同的情况,如敏感节点的故障,或一些系统保险故意地跳过一些值(例如,去掉一些敏感节点的读入以保存能量来传递)。现在大部分的数据挖掘算法有内置的方法来解决丢失的数据(如忽略丢失值部分的数据),数据回归是一个确定的研究领域,它追求将丢失的数据回归来生产改良的模型(对应于有原始数据构建的模型)。许多回归模型从事这个方面,大多数的方法是填充观察中最可能的值,或通过所给实例的观察到的值构建一个学习模型,来预测每一个数据区间可能的值。 3.3.3挖掘复杂和动态的数据 复杂数据的极速增长和他们在数量和性质上的改变驱动着大数据的飞跃。WWW服务中的文件,英特网的主干网,社交网络,聊天网络及运输网络等等都由复合数据刻画的。在数据下面的复合的独立结构使得我们的学习系统增加了困难,他们也提供了令人兴奋的机会,简单的数据表达是可获得的。例如,研究者已经成功地使用了一个有名的社交网络推特来探测如地震事件和主要的社会活动,几乎是实时的速度和很高准却度的。另外,通过总结全世界用户在研究工程中提交的问题,现在有可能为探测快速扩散的流感爆发搭建一个提前预警系统。利用复合的数据是大数据应用的一个主要挑战,因为在复合的网络中任意两个团队都会对每个人的社交联系感兴起。这样的联系是关于网络节点数量的二次方程式,所以一个百万个节点的网络可能属于一个万亿的联系关系。对于一个大的社交网络,例如脸谱,活跃的用户数量已经达到十亿,分析这个庞大的网络对于大数据挖掘是个很大的挑战。如果我们将每天用户的活动都考虑在内,这个困难的规模将更为惊人。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 环境建筑 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服