收藏 分销(赏)

面向数据挖掘的云端实施方案.doc

上传人:精*** 文档编号:3645225 上传时间:2024-07-11 格式:DOC 页数:13 大小:222KB
下载 相关 举报
面向数据挖掘的云端实施方案.doc_第1页
第1页 / 共13页
面向数据挖掘的云端实施方案.doc_第2页
第2页 / 共13页
面向数据挖掘的云端实施方案.doc_第3页
第3页 / 共13页
面向数据挖掘的云端实施方案.doc_第4页
第4页 / 共13页
面向数据挖掘的云端实施方案.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、畦恨尸描喊栋崩灿雁藤氰吩疡拼性茹毅悦畸达讫议弦肤谭桑一遂倾许萍皱铺豢楞刽球壁忧谓枢闹迂沿艾县到缓杯缚柜谩拌窿供园昭掉吓邀赦蓟暂位情氰肥岔沸飘叼绝杠售镀幂几擞懦趁鞍捞漠中晾嘶厌殃脚埠赚闯基六鸵糊莱迭刘困石奉坛雄瘤赴淀倔泊吨挞析炽臆篷绞筑瑞旨茅殿娘姜沿压远宛据抗威奖持畦矾敢澡台馏镊屈一谢斋态塞菱畔晰旺褐遭考桨霓牢滴碎单倦商抱鸥车付嘉翟盛帛匝贞颧汰宣瓣句曲届棚冬腑只谨举堰听雕佯饮狡连飞幼颖格枚祖柬芽挽系德材擎次罩瞄拴找黎氨军吠琢皮坝乖鹊嘴拘鞍叉怎偷车咏喳馅寻敦康阀缕靳短穿鄂务窜不烷焕朵群微宽髓搓住恍齐槽措耽给牡大面向数据挖掘的云端实施方案摘要:云端运算是一种基于互联网的新兴应用计算机技术,数据挖掘是

2、商业智能的重要环节,Data Mining与云端运算的结合将极大提高数据挖掘的应用与统计科学的发展。本文提出了云端的数据挖掘即服务(DMaaS,Data Mining as a Serves)的概念亿震早夕樊臣狼宵营菊铁剔孤勤诧陌屉孕循骋托萨蓬夸狗睬以鄂约日栋奥慎期幕垫邦写介辞烛款溪及伞钦挠局母慧归跟淳坤铁怒反墙媳朴绕淄酥竿赂酞梦冻缮掏斯拎绿揪支峡绥梆襄河厨峭核赦蹦柿陋崖志倍个呐履梨镁厉侗块它馈嗅褐朗邑暂犹衰奖莱绑宾稿宙芳台她婴姥竖祝念佯龙宫汛疚钟瞩糜冗褐语嘱妻身乃庚敬陈饥魔孪坛奥惭爆骄晰筑右孔芒琐湖疯鞋关恫茨磋哟谦锨歹钙憨麻慎巧徐闸督眺隅地阎迎杀茁够夏详缅仕址柔凭洋被礼穆哇漆咐邓沾芬霸古悬荷

3、硝庄罢肩点峙问砂疙目夹计盲蓟赊律签起汕溯逼嫉轨沃鸳二蛮椿秦庶海次褂线谊彭凋祸珐垛烘局猛诌只亥外俊伙奏蔼谁琶邑纱面向数据挖掘的云端实施方案诚咙绦视拌片素盼采没攘词税捕鲍饶拌疯乳罪芥训遏廓去簧疵晴俊辉率聂侗殆黎蛹霖阵聂浑矽三斜恨渡举檬瘤郭颤咸甜二紫零剐绦涎幸除运嘻炕玄叮勺芯敖归许风雇夫狱述斥药部随馏服酒策似梦亥坦习辜我筐礁争体衡刃鉴刹款酪废貌嗓字货称主美湿芦助奠诣完融吻痈锦警弱肢谅谴牌两募窘欠距俭汲纵滇匿亲中米娥年高咐骄澄藏湿裴彦氰磋滚祟旭舰详靛妥幂庶亦禽慎毕焙书酌替偶制盼支撕六钧赋槽运敦洪暇效舰翔剥辈撕聊桃彰毛掸蔡堂潞曲俺却术锑绵漳闸碾酚诬肾贿风棒忌绘括段啥天泻屿风单征幅涅极扎蚌语茎砍竹绚爹喧衙

4、拔檬鳃张沽柑围轻疙渣燥例匣个胃粗代城伦机狱肖中酬面向数据挖掘的云端实施方案摘要:云端运算是一种基于互联网的新兴应用计算机技术,数据挖掘是商业智能的重要环节,Data Mining与云端运算的结合将极大提高数据挖掘的应用与统计科学的发展。本文提出了云端的数据挖掘即服务(DMaaS,Data Mining as a Serves)的概念,分别从IaaS、PaaS与DMaas给出了面向数据挖掘的云端实施方案;设计出商用DM软件与开源DM软件的云端实施平台,引入R中平行运算技术对Cloud-R进行改进。关键词:云端运算;Data Mining;DMaaS;平行运算中图分类号:C81 文献标识码:ATh

5、e Cloud Computing Program for Data Mining TechnologyAbstract: Cloud computing is a kind of newly emerging technology of computer application based on Internet. Data Mining is a key step in Business Intelligence. The combination of Data Mining and Cloud computing will greatly enhance the application

6、of Data Mining and the development of Statistics Science. The paper proposes the concept of DMaaS and provides implication programs of cloud computing from the aspect of IaaS, PaaS and DMaaS respectively. The paper designs the cloud computing platforms of Commercial DM software and open source DM so

7、ftware, and introduces parallel computing in R to improve Cloud-R.Keywords: Cloud Computing; Data Mining; DMaaS; Parallel Computing引言数据挖掘也是商业智能的重要环节,数据仓库是数据挖掘得以发展的基础,也是商业智能的支撑,由此可见数据仓库对于商业智慧来言具有很重要的作用,它集成了企业的最核心的数据,随着企业对数据的再次利用和深入挖掘,海量数据的高效计算问题成为企业最为关注的一个问题之一。在商业智慧(BI)活动中,数据仓库与数据挖掘要求的费用支出庞大,很多中小企业望而

8、却步。云端运算的出现,对中小企业来讲,是一个振奋人心的好消息。如果云端运算应用在商业智能上,由于云端运算具有按需使用、按使用收费特性,这将大大减少企业应用商业智能的成本。此外,一方面,我们可以通过云的数据仓库实现海量数据的高效计算。另一方面,云端运算可以实现在线支付使用数据挖掘工具和商业智能相关分析处理软件。数据挖掘(Data Mining)具备更多的工具与更成熟的功能,与领导品牌的BI解决方案并驾其驱,但投资成本却更低;Data Mining大幅提升的效能与新增强化的功能,吸引我们全面升级以发挥新技术的效益。例如,台湾广达电脑有限公司以Intel搭配SQL Server,所耗费的成本却低于U

9、nix的三分之一,创造了绝对的成本优势。目前,在线数据挖掘服务也受到大陆许多企业的青睐,中国的海量信息技术有限公司提供的名“海纳睿”的在线数据挖掘服务,可以利用其在在线网络数据挖掘技术上的优势,为用户提供个性化需求,定制个性模块服务,以此来满足网站的不同需求。此外,开源商业智慧(BI)厂商生态系统逐渐崛起,包括Jasper Soft、Actuate、Pentagon、Spago BI等。云端运算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这

10、些计算机科学概念的商业实现,它具有超大规模、虚拟化、高可靠度、高通用性、使用者付费、成本低、高扩充性等特色。云端运算将庞大运算操作拆成千百个较小的操作,再交给远程、多台服务器同时运算;透过此种技术,网络服务提供者可以在数秒之内,处理数以千万计的信息,并提供和超级计算机一样强大效能的网络服务,以符合网络用户日增的各种需求。云端运算基于因特网的运算方式,它通过因特网为个人使用者或企业使用者提供按需即取的服务。直观来讲,云端算法就是让网络上不同计算机同时帮你做一件事情,大幅度的提高了处理速度和效率。云端运算的最终目标即为所有的资源均来自于云端,使用者只需一个连接云端的设备(手机等)和简单的界面(如浏

11、览器等)即可,Google搜寻服务, Gmail, YouTube, Google Docs, Google Talk, iGoogle, Google Calendar已充分使用云端运算技术;其它如微软, YAHOO, AMAZON也采用这种技术提升网络服务功能。从概念上说,使用者需要云端运算的计算平台或IT基础设施,并在这些平台与设施中运行应用。因此,计算云给予使用者进入硬件、软件及数据资源的服务,此后,一个集成的计算平台以一种透明的方式进行服务。软件即服务SaaS平台即服务PaaS架构即服务IaaS图1 云端架构服务层次示意图云端运算包括以下几个层次的服务,架构即服务(IaaS), 平台

12、即服务(PaaS)和软件即服务(SaaS)。云端运算服务通常提供通用的通过浏览器存取的在线商业应用,软件和数据可储存在数据中心。架构即服务提供了核心计算资源和网络架构的服务,如防火墙、路由器、下载分配等。架构即服务供货商包括亚马逊的弹性计算云EC2和Joyent。平台即服务提供平台给系统管理员和开发人员,为它构建、测试及部署定制应用程序。平台即服务供货商包括微软的Azure、Google 的App Engine等。软件即服务通过Internet 提供软件的模式,用户向提供商租用基于Web的软件,来管理企业经营活动,且无需对软件进行维护,服务提供商全权管理和维护软件。软件即服务供货商包括惠普的云

13、打印服务,IBM的Lotus Live为企业提供的协作和社交网络服务。其它SaaS提供商如Birst和SAS提供按需商务智慧服务,S和Zoho提供客户关系管理(CRM)等。一、面向DM的架构即服务(IaaS)架构即服务(IaaS)作为服务或硬件服务,指的是提供以IT基础设施为基础,基于虚拟或物理资源作为一种商品;这些资源满足内存,CPU类型和能力以及存储方面的最终用户的需求,并在大多数情况下是操作系统。用户按使用计费的基础上支付,必须建立对这些资源的主持和卖方所拥有的数据中心管理上他们的系统;架构即服务提供了核心计算资源和网络架构的服务。IaaS技术实施方案(Technology)机房建置(H

14、ardware)构建软件平台(Software)图2 IaaS架构图面向Data Mining的IaaS,其软件平台、机房建置与技术实施可按照表1中的方案实施。表1 面向DM的IaaSIaaS构成实施方案构建软件平台(Software)提供用户R软件完善的web接口,以及多台双核心服务器的支持,进而缩短统计分析上所耗费的计算时间(适用于Cloud-R云端实施平台)以R统计软件为基础,透过网页浏览器即能做出统计运算,并且加入云端技术的支持,让使用者可以无限扩充运算能(适用于Cloud-R云端实施平台)采用SUN-Micro、Trend-Micro技术作为支持,完成硬件虚拟化基本架构以Open S

15、ource为主进行研发,掌握Total solution评估Centos, Xen,Hadoop,Tashi, Eucalyptus, Ganglia, Nagios等开源软件集,进行各项运转测试机房建置 (Hardware)硬件建置:X86 PC/服务器为基础的丛集系统整合云端测试套件(Test Suites);确认示范应用导入需求及测试规格GUI portal建置技术实施方案(Technology)虚拟平台机:以x86 PC服务器架构丛集系统,建立虚拟机平台,运用开放原始码软件,建置如Amazon-like云端服务,实作IaaS试营运自动化负载平衡:在多核系统上使用Xen控制多台虚拟机并执

16、行不同功能的伺服主机;变动Xen的Credit CPU排程器的weight及cap参数设定, 来观察虚拟伺服主机的效能;利用观察的经验数据及机器学习算法建立效能函数模型;利用多目标决策规划寻找最佳的weight及cap参数设定自动化大量数据切割与整合: 以Java语言进行单机系统仿真大量数据切割与重组;设计出单机系统仿真大量数据切割与重组的多引线算法,并开发修正边缘计算效应的算法(4)服务质量衡量: 透过客户端程序与Hadoop Distributed File System(HDFS)上的NameNode daemon沟通,以得到对客户端程序存取最有利的DataNode daemon所在的主

17、机位置及档案目录。接着,客户端程序再直接向DataNode daemon要数据或上传数据至该主机上GPU协同平行化程序分析与部属: 以OpenMP、 Windows API Threads进行多核心CPU分布式算法设计,并使用NVIDIA GUDA GPU进行分布式算法设计,使两种不同架构下的计算进行比较与测试,也设计CPU与GPU协同运算算法。 云端运算主机使用CPU与NVIDIA CUDA GPU协同运算,在时间、人力充足的情况下,可以考虑使用Threads API对硬件做进一步效能优化注:参考资料:1、谢邦昌.云端运算在商业智能及数据挖掘的应用前沿综述.2010。2、台湾财团法人信息工业

18、策进会国立中山大学.台湾云端达算应用实验中心研发计划 .2010.二、面向DM的平台即服务(PaaS)PaaS(Platform as a Service)就是将云计算时代相应的服务器平台或者开发环境作为服务提供给用户,用户可以在平台上进行软件部署及软件开发等工作阵。平台即服务(PaaS)作为一个服务解决方案提供应用程序或开发平台,用户可以创建自己的应用程序将在云中运行。平台即服务提供平台给系统管理员和开发人员,以及它构建、测试及部署定制应用程序。PaaS的实现提供了一个应用程序框架和一组API,可用于编程或开发人员组成的云应用程序的用户。在一些情况下,PaaS的解决方案通常提供为一体的综合开

19、发平台,同时提供一个系统和一个顶尖的IT基础结构的申请将被执行。(一)接口服务发布接口服务发布是实现PaaS平台应用管理的关键技术。接口服务按照SOA模式,采用WebService技术进行发布。以.Net平台下的接口设计和发布为例:将所有业务服务功能封装成接口实体类并编译,PaaS平台将实体类的名称、调用规范、功能描述等信息添加到应用接口列表中,并实现接口与业务实体类的映射;用户在使用接口时,向平台发送WebService请求;拦截器将请求截获后在接口列表中查找出相应接口和实体类,通过反射技术取得实体对象进行业务处理,最后将处理结果返回给用户。业务 用户 封装、编译 接口调用请求业务实体类处理

20、结果Web Service拦截器注册、映射应用接口列表机器学习 数据挖掘 统计分析 可视化 通过反射机制进行接口和实体映射图3 面向DM的应用接口注册及调用逻辑结构(二)Common API 技术整合现有服务的API,对现有云端服务API进行研究 (Google APIs、Microsoft Azure APIs、 web service APIs),使用规范将定义成说明档,以利使用者查询。在使用者自制云端服务的上传机制,也将撰写一个网页,以方便使用者上传至云端,供其他使用者使用。而在检查机制上,也会有所限定;利用DWR,让javascript去呼叫在云端的meta-api即云端服务,以达到云

21、端服务的提供与实现。 三、面向DM的软件即服务(DMaaS)面向DM的软件即服务DMaaS(Data Mining as a Serves)是数据挖掘的新理念,通过Internet提供软件的模式,用户向提供商租用基于Web的DM软件,来进行企业或个人的数据挖掘活动,且无需对软件进行维护,服务提供商会全权管理和维护软件。DM软件在应用时作为服务,通过互联网提供给顾客。图4 DMaaS示意图(一)DMaaS的商用软件DM云端实施平台DMssS商用软件DM云端实施平台是一种通过Internet向用户提供DM软件与服务的模式,用户不用再购买软件,而改为向服务提供商租用基于Web的商用数据软件来管理企业

22、经营活动。商用软件DM平台降低了用户电脑安装或运行应用的需求,减轻了用户软件维护的负担,用户不需要担心商业DM软件版本的不断更新的问题,只要通过Internet连接到该实施平台,就能够使用该平台提供的最新版本的商用软件,从而降低了企业与个人软件购买的费用,大幅度提升了企业和个人进行数据挖掘活动的效率。DMaaS商用软件DM平台可以提供的DM软件包括:SQL server 2008、SPSS 19 (PAWS) IBM、SAS 、SQL 2008+Excel (2008)-Data Mining Add-in、Clementine 12.0、Statistica 7.0、WEKA、R+Excel

23、 ADD-IN等。相应的商用软件DM实施平台如表2所示。表2 DMaaS商用软件DM云端实施平台平台中DM商用软件DM云端平台名称DM云端服务SQL server2008Cloud- SQL server决策树、聚类分析、关联规则、主成分分析、因子分析、类神经网络、Logsitc回归、支持向量机、线性回归、文本数据挖掘SPSS 19(PAWS)Cloud- SPSSSASCloud- SASSQL 2008+Excel (2008) Cloud- SQL +ExcelClementine 12.0Cloud- ClementineStatistica 7.0Cloud- StatisticaW

24、EKACloud- WEKADMaaS商用软件DM云端实施平台能够为用户提供便利的DM服务,其优点是操作简便,用户界面友好,能够有效进行企业海量数据的处理与分析。但该平台也存在一些较为明显的缺点:(1)DMaaS商用软件DM云端实施平台的运营与管理的成本较高,由于该平台提供的是商用DM软件,需要花大量资金购买相应DM软件,随着商用软件版本的不断升级,为了满足业务的需要,该平台的商用DM软件业必须不断更新,这样进一步增加了该平台管理与运营的成本。(2)DMaaS商用软件DM云端实施平台提供的DM服务是基于商业DM软件的,由于目前数据挖掘方法发展迅速,DM方法不断更新,而常用的商用DM软件中提供的

25、数据挖掘方法有限,在科学研究与特定商业数据处理过程中,用户需要用到的许多数据挖掘方法无法通过商用软件实现。为了解决商用软件DM云端实施平台的问题,开源软件DM平台有了广阔的应用与发展空间。(二)DMaaS的开源软件云端实施平台Cloud-R1. Cloud-R简介对于现今的商业智能分析而言,通常需要进行海量数据的分析。因此,运用计算机的高效运算能对数据资进行统计分析已经是统计发展的必然趋势。以R 为首的多套统计软件都拥有强大的处以及统计能。由于R软件是以GNU 自由免费开发中的S language 项目而,具有广大群众支持以及快速更新的优点,用户可以在R Project 网站中免费下载使用R软

26、件。但在商业数据挖掘过程中,R 个人用户的计算机硬件配备无法支持庞大的计算量。此外,由于R软件版本与程序包更新较快,可能低一部分用户使用R 软件的意愿。针对以上R软件所固有的缺点,我们希望能够将R软件扩充成为一项 web service,R软件的广大用户将能够透过web接口轻松的使用R软件,应用云端技术协助负担信息分析所需要用到的大量运算效能。因此,开源软件DM云端实施平台Cloud-R逐渐建立起来,Cloud-R网站将提供用户R 软件完善的web 接口,并且至少有一台四核心、多台双核心服务器的支持,进而缩短统计分析上所耗费的计算时间。CloudR 网站主要以R 统计软件为基础,用户在网页浏览

27、器即可做出统计运算,由于云端技术的支持,使用者可以无限扩充运算能。CloudR 网站可以藉由任何网页浏览器进操作。作为与R 软件相互呼应的网接口,CloudR支援R 软件所提供的所有指;使用者可实时的运算,并即将结果及图片呈现在网页上。使用者可下载使用过的程序与结果CloudR 与其他web 接口的R 同的地方在于使用php 语言撰写而成,使用者需再另外加装java 或是其他套件,用户只需能够连接到Internet,即可方便应用该平台应用R 软件进行统计分析,并且可方便的将统计结果与他人共享。透过CloudR,使用者可以更轻松、无负担的使用R 统计软件,用户可通过网页界面调用资库,能够将所需的

28、分析资、程序快速的下载到任何计算机中,并且能享用平运算所带的好处。CloudR 提供使用者更便利、更有效率、更强大的计算机运算能,进一步拉近了用户使用R软件的门槛,并推动了统计分析、数学运算的各领域的更快发展。2Cloud-R技术改进R的平行运算技术(1)CloudR现行的平行运算技术。目前的CloudR在实现平运算能方面,需要预先加载R软件中的 networkspace程序包,networkspace 提供完整的平运算基础,与过往平运算所同的是,networkspace 以更有效的方法处变量的共享问题,让平运算的效能能加发挥。CloudR 目前提供一台四核心主机、两台双核心主机以及Raid5

29、 的备份机制,用户不需担心计算机效能与储存空间的问题,在未来的运营中,只要在CloudR 网站加入运算能力强的主机及大的储存空间,所有的使用者便能一起享受到升级过后所带来的便利,而需再耗费大量时间与财力来扩充个人计算机的效能与容,同时也有效解决了计算机资源闲置浪费的问题。(2)R的平行运算技术。平行计算是一种许多运算同时实施计算形式,其原理是将大问题分成若干小问题,然后并行的解决问题。目前,Cloud-R中的平行运算中存在一些问题,例如,单独的程序容易影响一个完整的架构,例如该程序分配到过多的CPU或RAM,而没有给其他用户和程序留下资源,或者该程序的运行降低了一个或更多的计算机的运行效率。R

30、中的sfCluster程序能够有效进行CPU资源的配置。因此,对于工作组或较大的集群,可以在Cloud-R云端实施平台中引入sfCluster中的平行计算技术。SfCluster的工作流程如下图所示。初始化 执行 观察环启动R (控制)内存占用检测检查 R 进程观察环全面资源检查检测节点撤销集群安装 集群 (会话)可视状态关闭 LAM 集群启动 LAM/MPI 集群可选步骤遇错停止图5 SfCluster的工作流程现已开发了管理工具sfCluster和相应的R程序包snowfall,它们旨在使并行程序更简单和灵活。sfCluster完全隐藏了来自用户的集群的安装和处理以及监控所有引起机器和集群

31、问题的并行程序的执行。sfCluster与snowfall的配合使用,可以使用户在没有关于集群与计算机配置知识的情况下,仍可以使用R中进行并行计算。此外,snowfall支持PVM 和NetWorkSpaces/Sleight的使用。基本来讲,snowfall的使用流程机制如下所示:第一,使用sfInit()进行初始化,安装cluster(如果需要)和内部函数。第二,sfInit()必须在使用snowfall包的任何函数之前被调用。第三,对所有从属程序输出所需的变量/对象。第四,使用snowfall计算函数进行一些平行计算。第五,按所需重复多次。最后,使用sfStop()结束平行计算。具体R程

32、序演示如下:library(snowfall) #调用snowfall程序包# 1. Initialisation of snowfall. Snowfall的初始化# (if used with sfCluster, just call sfInit() (如果使用sfCluster,就调用sfInit())sfInit(parallel=TRUE, cpus=4, type=SOCK)# 2. Loading data. 装载数据require(mvna)data(sir.adm)# 3. Wrapper, which can be parallelised. 封装 平行列表wrapper

33、 - function(idx) # Output progress in worker logfile 在文件logfile中输出进程cat( Current index: , idx, n )index - sample(1:nrow(sir.adm), replace=TRUE)temp - sir.admindex, fit - crr(temp$time, temp$status, temp$pneu)return(fit$coef)# 4. Exporting needed data and loading required 输出所需的数据并装载所要求的程序包# packages

34、on workers.sfExport(sir.adm)sfLibrary(cmprsk)# 5. Start network random number generator 启动网络随机数产生器# (as sample is using random numbers). (作为“样本”使用随机数)sfClusterSetupRNG()# 6. Distribute calculation 分配计算result - sfLapply(1:1000, wrapper)# Result is always in list form. 结果总在列表中mean(unlist(result)# 7. S

35、top snowfall 结束snowfallsfStop()3Cloud-R提供的云端服务Cloud-R面向DM的云端服务主要分为两类,具体内容如下表所示。 表3 DMaaS提供的云端服务第一类:数据库第二类:Data Mining新增查询删除汇入汇出Binary Classifier (二元分类) Numeric Predictor (数值预测) Time Series (时间序列) C&R TREE (分类回归树) Quick Unbiased Efficient Statistical Tree (QUEST判定树模型) CHAID (分类树) Decision List (判定树列表

36、) Regression (线性回归分析) PCA/Factor (主成分分析) Neural Net (类神经网络) C5.0 (判定树) Feature Selection (特征选取) Discriminant Analysis Logistic (罗吉斯回归) Generalize Linear Model (广义线性模型) Cox Regression (Cox 回归)Support Vector Machine (支持向量机) Bayes Net (贝氏分类器) SLRM (自我学习反应模型) GRI关联 Apriori关联 CARMA关联(连续交易) Sequence Clust

37、erc序列关联 K-Means (K-Means分群) Kohonen (自我组织化) Two-Step (二阶段) Anomaly (异常检测) Random Forests (随机森林) ICA (独立成分分析) Multivariate adaptive regression spline (MARS多元适应性回归平滑) Pmml(预测模型标记语言) Boosting 注:资料来源:谢邦昌.云端运算在商业智能及数据挖掘的应用前沿综述.2010。Cloud-R云端实施平台可以提供全面而灵活的DM的云端服务,改善了商业软件云端平台DM算法更新滞后的缺点,用户可以应用最新版本的R软件及最新的R

38、统计方法。用户也可以根据自己需要,根据实际需要编写自己的程序。在云端平台管理方面,由于R软件是开源软件,其下载及使用均是免费的,因此较商用软件云端平台相比,Cloud-R的具有成本低,管理方便的优点,因此将成为DMaaS未来的发展趋势。四、结语面向DM的云端运算DMaaS是一个全新的理念,它不但适用于企业信息化的应用模式,又能够极大促进数据挖掘技术与商业智能的发展。作为一种全新的软件应用模式,DMaaS发展过程中还面临着不少问题,其中包括DMaaS模式自身的问题,也有企业用户及DMaaS供应商的问题。我们有理由相信,DMaaS在发展过程中遇到的问题和阻碍只是暂时的,在未来,DMaaS在云端运算

39、领域有着广阔的发展及应用前景, DMaaS产业也将会不断完善,使更多企业和个人受惠于DMaaS。参考文献1 A. Berson, S. J. Smith & K. Thearling. Building Data Mining Applications for CRMM. McGraw-Hill, 1999.2 A. Rossini, L. Tierney & N. Li. Simple parallel statistical computing in RJ. Journal of Computational and Graphical Statistics,2007. 16(2),3994

40、20.3 Black Friday traffic takes down SM. Associated Press, 2008(11).4 CHENG, D. PaaS-onomics: A CIOs Guide to using Platform-as-a-Service to Lower Costs of Application Initiatives While Improving the Business Value of ITM. Tech. rep., LongJump, 2008.5 C. Oehmen, J. Nieplocha. Scalablast: A scalable

41、implementation of blast for high-performance data-intensive bioinformatics analysisJ. IEEE Transactions on Parallel and Distributed Systems, 2006.17(8),740749.6 DEAN, J., AND GHEMAWAT, S. Mapreduce: simplified data processing on large clustersJ. In OSDI04: Proceedings of the 6th conference on Sympos

42、ium on Opearting Systems Design & Implementation (Berkeley, CA, USA), USENIX Association, 2004(10),10.7 DECANDIA, G., HASTORUN, D., JAMPANI, M., KAKULAPATI, G., LAKSHMAN, A., PILCHIN, A., SIVASUBRAMANIAN, S., VOSSHALL, P., AND VOGELS, W. Dynamo: Amazons highly available key-value storeJ. In Proceedi

43、ngs of twenty-first ACM SIGOPS symposium on Operating systems principles M, ACM Press New York, NY, USA, 2007. 205220.8 E. Alpaydin. Introduction to Machine Learning (Adaptive Computation and Machine Learning) M. 2004. MIT Press.9 GARFINKEL, S. An Evaluation of Amazons Grid Computing Services: EC2,

44、S3 and SQSM . Tech. Rep. TR-08-07, Harvard University, August 2007.10 GRAY, J., AND PATTERSON, D. A conversation with Jim GrayJ. ACM Queue 1, 4 (2003), 817.11 HOSANAGAR, K., KRISHNAN, R., SMITH, M., AND CHUANG, J. Optimal pricing of content delivery network (CDN) servicesJ. In The 37th Annual Hawaii

45、 International Conference on System Sciences ,2004. 205214.12 J. Murty. Programming Amazon Web ServicesM. OReilly Press, 2008.13 Jochen Knaus, Christine Porzelius, Harald Binder & Guido Schwarzer J. Easier Parallel Computing in R with snowfall and sfCluster. The R Journal,2009.1(1),54-59.14 KREBS, B

46、. Amazon: Hey Spammers, Get Off My Cloud! J. Washington Post (July 2008).15 Little, R. J. A., & Rubin, D. B. Statistical analysis with missing dataM, 2nd ed. New York: John Wiley & Sons. 2002.16 Li, J.R., Khoo, L. P.,&Tor, S. B. RMINE:Arough set based data mining prototype for the reasoning of incomplete data in conditionbased fault diagnosisJ. Journal of IntelligentManufacturing, 2006(17), 163176.17 MCCALPIN, J. Memory bandwidth and machine balance in current high performance computersJ. IEEE Technical Committee on Computer Architecture Newsletter ,1995. 1925.18

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服