收藏 分销(赏)

2022年数据挖掘技术介绍(共39张PPT).pptx

上传人:二*** 文档编号:5457499 上传时间:2024-11-06 格式:PPTX 页数:39 大小:1.25MB 下载积分:5 金币
下载 相关 举报
2022年数据挖掘技术介绍(共39张PPT).pptx_第1页
第1页 / 共39页
本文档共39页,全文阅读请下载到手机保存,查看更方便
资源描述
数数 据据 挖挖 掘掘 技技 术术 简简 介介 演讲人:钟云飞 Email:2002年7月19日大大 纲纲 什么是数据挖掘什么是数据挖掘 数据挖掘的标准流程:数据挖掘的标准流程:CRISPCRISPDMDM 数据挖掘工具数据挖掘工具SPSS ClementineSPSS Clementine简介简介第一部分:什么是数据挖掘?第一部分:什么是数据挖掘?数据挖掘都干了些什么?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以通过数据挖掘您可以用更小的成本发现欺诈现象通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘什么是数据挖掘电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健数据挖掘应用领域数据挖掘应用领域数据挖掘效益分析数据挖掘效益分析(直邮)直邮)(Big Bank&Credit Card Company)目的:发现新客户目的:发现新客户数据挖掘以前数据挖掘以前数据挖掘以后数据挖掘以后差别差别发信的数量发信的数量1,000,000750,000(250,000)成本成本$1,000,000$750,000($250,000)响应的数量响应的数量10,0009,000(1,000)每个响应的毛利每个响应的毛利$125$125$0总毛利总毛利$1,250,000$1,125,000($125,000)净利润净利润$250,000$375,000$125,000建模的费用建模的费用040,000$40,000最终的利润最终的利润$250,000$335,000$85,000第二部分:数据挖掘标准流程第二部分:数据挖掘标准流程 CRISP-DM CRISP-DMCRISPCRISPDMDM简介简介 CRISPDM是是CRoss-Industry Standard ProcessData Mining的缩写的缩写 由由SPSS、NCR、Daimler-Benz在在1996年制定年制定 CRISP是当今数据挖掘业界通用流行的标准之一是当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存在的它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域问题,而不是把数据挖掘局限在研究领域CRISPCRISPDMDM 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布商业理解(商业理解(Business Business Understanding)Understanding)找问题确定商业目标找问题确定商业目标 对现有资源的评估对现有资源的评估 确定问题是否能够通过数据挖掘来解决确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标确定数据挖掘的目标 制定数据挖掘计划制定数据挖掘计划数据理解数据理解(Data(Data Understanding)Understanding)确定数据挖掘所需要的数据确定数据挖掘所需要的数据 对数据进行描述对数据进行描述 数据的初步探索数据的初步探索 检查数据的质量检查数据的质量Perform the rest on a powerful server.把数据挖掘模型的结果送到相应的管理人员手中Model export高度的扩展性保证对数据库中大量的数据进行挖掘高度的扩展性保证对数据库中大量的数据进行挖掘确定数据挖掘所需要的数据对整个数据挖掘过程的前面步骤进行评估数据挖掘都干了些什么?电子商务:网站日志分析数 据 挖 掘 技 术 简 介英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。通过数据挖掘的方法使库存成本比原来减少了3.税务部门:偷漏税行为探测数据准备数据准备(Data(Data Preparation)Preparation)选择数据选择数据 清理数据清理数据 对数据进行重建对数据进行重建 调整数据格式使之适合建模调整数据格式使之适合建模建立模型(建立模型(Modeling)Modeling)对各个模型进行评价对各个模型进行评价 选择数据挖掘模型选择数据挖掘模型 建立模型建立模型模型评估模型评估(Evaluation)(Evaluation)评估数据挖掘的结果评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据挖掘过确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型程进行进一步的调整,产生新的模型模型发布(模型发布(DeploymentDeployment)把数据挖掘模型的结果送到相应的管理人员手中把数据挖掘模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护对模型进行日常的监测和维护 定期更新数据挖掘模型定期更新数据挖掘模型第三部分:数据挖掘工具第三部分:数据挖掘工具SPSS ClementineSPSS Clementine简介简介Make a difference with the predictive power of data mining应用应用ClementineClementine达到你数达到你数据挖掘的目标据挖掘的目标 图形化的界面、数据流的形式建立模型,保证了应用图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本进行数据挖掘关注商业更甚于关注技术本身身 开放式的技术是更好的保护您的投资的保障开放式的技术是更好的保护您的投资的保障 高度的扩展性保证对数据库中大量的数据进行挖掘高度的扩展性保证对数据库中大量的数据进行挖掘 业界领先的发布技术使数据挖掘结果更好的传递业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中到相应管理人员手中把你的商业经验溶入数据挖把你的商业经验溶入数据挖掘过程是数据挖掘成功的关掘过程是数据挖掘成功的关键键Better Better data mining data mining resultsresults!InsightInsightBusiness Business problemproblem?What What you knowyou know丰富的数据挖掘算法丰富的数据挖掘算法PredictionNeural net,C5.0ClassificationNeural net,C5.0SegmentationKohonen,Kmeans,C5.0AssociationApriori,GRI,Web graphSequenceCaprI,Neural Net,Regression与与SPSSSPSS及及AnswerTreeAnswerTree无无缝集成提供更多的算法缝集成提供更多的算法Logistic RegressionDiscriminant AnalysisFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在数据仓库上的投使你在数据仓库上的投资得到最大的回报资得到最大的回报SybaseDB2InformixOpenIngressOracleSQL Server+ODBC drivers for others+ODBC socket for native drivers开放的建模性能开放的建模性能在在Clementine中通过中通过CEMI加入新的算法加入新的算法ClementineClementineClementineClementine的系统结构的系统结构的系统结构的系统结构 1.Perform many operations in the database.2.Perform the rest on a powerful server.3.Use the client processor for viewing results.Clementine Server delivers huge Clementine Server delivers huge performance gainsperformance gainsGenerating a distribution graph995 seconds when processed on the desktop69 seconds when processed on the server19 seconds when pushed back into the database 用更小的成本发现欺诈现象银行:聚类(细分),交叉销售69 seconds when processed on the serverClementine Solution Publisher:领先的模型发布技术通过数据挖掘的方法使库存成本比原来减少了3.Model building模型评估(Evaluation)把数据挖掘模型的结果送到相应的管理人员手中与SPSS及AnswerTree无缝集成提供更多的算法(Big Bank&Credit Card Company)把数据挖掘模型的结果送到相应的管理人员手中数 据 挖 掘 技 术 简 介In-database processing delivers better performance as data sets get larger定期更新数据挖掘模型税务部门:偷漏税行为探测In-database processing delivers better performance In-database processing delivers better performance as data sets get largeras data sets get largerSelecting casesseconds required for millions of records when processed on the server v.in the database电子商务:网站日志分析ClassificationNeural net,C5.Model export演讲人:钟云飞Exhaustive CHAIDModel export用更小的成本发现欺诈现象确定问题是否能够通过数据挖掘来解决第三部分:数据挖掘工具图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身Discriminant AnalysisClementine Server cuts Clementine Server cuts model building time up to 90%model building time up to 90%Model buildingtime needed for building models on the server as a percentage of the time needed for building the model on the desktopClementine Solution Publisher:Clementine Solution Publisher:领先的模型发布技术领先的模型发布技术领先的模型发布技术领先的模型发布技术Model exportClementine Solution Publisher:model and processingSPSSSPSS为您提供全方位的服务,为您提供全方位的服务,帮助您获得商业成功帮助您获得商业成功 全方位的服务全方位的服务 全球性的公司全球性的公司 与业界领袖的伙伴与业界领袖的伙伴关系关系谢谢大家!谢谢大家!
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服