1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,Page,*,英文联系文字,:9-10pt,字体,:Arial,中文联系文字,:10-12pt,字体,:,华文细黑,首选颜色,:R255 G255 B255,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Page,*,大数据技术概述,Page,1,大数据概述,大数据平台架构,数据平台功能规划,大数据核心技术,Data Ming,目录,案例展示,Page,2,大数据,Page,3,Page,4,大数据时代的背景,QQ,、,facebook,社交网络,Google,baidu,淘宝、,eb
2、uy,电子商务,超级,TV,微信、微博、,Apps,移动互联,游戏,21,世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。,互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、,GPS,、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了,“,大数据,”,这个概念*。如
3、今,这个概念几乎应用到了所有人类智力与发展的领域中。,Page,5,大数据的产生,Page,6,大数据的,4V,特征,体量,Volume,多样性,Variety,价值密度低,Value,速度,Velocity,非结构化数据,的超大规模和增长,总数据量的,8090%,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务智能,(,咨询、报告等),实时分析,而非批量式分
4、析,数据输入、处理与丢弃,立竿见影而非事后见效,Page,7,大数据要解决的问题,Volume,海量的数据规模,Variety,多样的数据类型,Streams,Real time,Near time,Batch,TB,PB,EB,Structured,Unstructured,Semi-structured,All the above,Value,Velocity,快速的数据流转,巨大的数据价值,Page,8,大数据技术:,统计分析:,A/B test;top N,排行榜;地域占比等,数据挖掘:聚类;分类;关联规则;预测模型,机器学习:神经网络,支持向量机;,文本挖掘:自然语言处理技术,文本情
5、感分析,解决方案:,数据采集:日志、爬虫;,ETL,工具,,kettle,等,数据存储:,HDFS,HBASE,Hive,MongoDB,等,数据读取:,SQL,;,NoSQL,等,数据计算:并行计算:,MapReduce,技术,流计算:,twitter,的,storm,等,内存计算:,Spark,等,结果展现:标签云;关系图等,基础架构支持:分布式文件系统等(云存储),相关技术与解决方案,数据采集,数据储存,数据管理,数据分析与挖掘,Page,9,大数据应用,搜索引擎,推荐引擎,舆情系统,社交网络,知识管理,Page,10,大数据与云计算,云计算,的模式是业务模式,,本质是数据处理技术。,数
6、据是资产,云为数据资产提供存储、访问和计算。,当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏,盘活数据,资产的能力,,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。,Page,11,大数据赋予我们洞察未来的能力,机遇,鬼城?房屋空置率,电力公司,马云成功预测,2008,年经济危机,Mobo,的印度危机,“,2008,年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。,”,通常而言,买家在采购商品前,会比较多家供应商的
7、产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。,人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。,大数据时代,Page,12,挑战,诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!,更多的隐私、安全性问题,:我们的隐私被二次利用了,多少密码和账号是因为,“,社交网络,”,流出去的?,2011,年
8、,4,月索尼的系统漏洞导致,7700,万用户资料失窃,2011,年,4,月,,iOS,被发现会按照时间顺序记录用户的位置坐标信息,2011,年,CSDN,密码泄露事件,2013,年,斯诺登事件,2000,万开房数据,12306,数据,银行账户信息,Page,13,心得,你是,T,还是,P,?,数据越多越好,深度挖掘、精准营销,必须搞大数据,必须要懂技术,Page,14,心得,你是,T,还是,P,?,数据越多越好,深度挖掘、精准营销,必须搞大数据,必须要懂技术,你是,E,、,Z,又怎样?,价值才是王道!,中移动的教训,对大数据要宽容,容错性是大数据重要特征!,准确率与召回率,大数据不是万能的,没
9、有大数据也不是万万不能的!,移动互联网最赚钱的是谁?,懂点技术当然更好,但不要迷失在不靠谱的技术中!,知道自己想要什么更重要!,Page,15,大数据概述,大数据平台架构,数据平台功能规划,大数据核心技术,Data Ming,目录,案例展示,Page,16,大数据平台架构,Page,17,大数据概述,大数据平台架构,数据平台功能规划,大数据核心技术,Data Ming,目录,案例展示,Page,18,统计指标,Userid+,激活时间,+itemid+item,所属类别(可分多级),Userid+,使用时间,+itemid+item,所属类别(可分多级),用户留存分析,Page,19,产出,统
10、计新、老用户及所占比例,时间粒度包括年、季、月、周、日。,Page,20,用户留存分析,Page,21,统计指标,Userid+,使用时间,+itemid+item,所属类别(可分多级,:,频道、栏目、页面、模块),产出用户忠诚度分析模型,用户忠诚度分析,Page,22,统计指标,Userid+,消费时间,+,消费金额,+itemid+item,类别,产出,用户价值生命周期,用户价值分析,Page,23,统计指标,1,、,Userid+,消费时间,+,消费金额,+itemid+item,类别,2,、,Userid+,使用时间,+itemid+item,所属类别,产出,用户质量评价模型,用户综合
11、质量评价,Page,24,大数据概述,大数据平台架构,数据平台功能规划,大数据核心技术,Data Ming,目录,案例展示,Page,25,数据挖掘时代背景,信息匮乏时代,信息过载时代,Page,26,什么是数据挖掘?,数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势,Jiawei Han,(,University of Illinois at Urbana-Champaign,),数据挖掘不同的术语和定义:,data mining,knowledge discovery,pattern discovery,Page,27,数据挖掘的基本步骤,数据清理,:,消除噪音或不一致
12、数据,数据集成,:多种数据源可以组合在一起,数据选择,:,从数据库中提取与分析任务相关的数据,数据变换,:,数据变换或统一成适合挖掘的形式,数据挖掘,:,基本步骤,使用智能方法提取数据模式,模式评估,:,根据某种兴趣度度量,识别提供知识的真正有用的模式,知识表示,:,使用可视化和知识表示技术,向用户提供挖掘的知识,Page,28,数据挖掘涉及的技术,数据挖掘,数据库技术,统计学,机器学习,人工智能,信息科学,可视化技术,其他技术,Page,29,数据挖掘的功能类型,关联规则,序列模式,聚类挖掘,分类挖掘,预测挖掘,孤立点挖掘,文本挖掘,网络挖掘,Page,30,关联规则(Association
13、),反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测,可以用关联规则的形式表示,规则形式:,“,A,B,support,confidence,”,.,应用:,业务相关性分析,交叉销售,货架摆放位置,页面结构设计等,Page,31,挖掘顺序发生的事件中的模式,给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式,序列模式挖掘,Page,32,序列模式挖掘,应用:,用户访问模式预测,用户移动模式挖掘,用户点击流分析,DNA,序列分析,自然灾害预测,疾病病症预测,Page,33,聚类(Cluste
14、ring),最大化类内的相似性、最小化类间相似性的原则进行聚类或者分组,使得在一个类中的对象具有很高的相似性,而与其他类中的对象很不相似,簇(,Cluster,),:,一个数据对象的集合,在同一个类中,对象之间具有相似性,不同类的对象之间是相异的,聚类分析:,把一个给定的数据对象集合分成不同的簇,特点:一种无监督分类法,没有预先指定的类别,Page,34,Page,35,聚类挖掘的应用,用户细分与市场营销,:,帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;,土地使用,:,在一个陆地观察数据库中标识那些土地使用相似的地区;,保险,:,对购买了汽车保险的客户,标识那
15、些有较高平均赔偿成本的客户;,城市规划,:,根据类型、价格、地理位置等来划分不同类型的住宅,Page,36,聚类算法,Page,37,分类(classification),找出描述或识别数据类或概念的模型,(,或函数,),,以便能够使用模型预测未知对象的类别,模型是由训练数据集(即,其类标记已知的数据对象)训练得到,Page,38,Page,39,有监督和无监督学习,无监督学习,(,聚类,),训练集是没有类标签的,提供一组属性,然后寻找出训练集中存在类别或者聚集,有监督学习,(,分类,),训练集是带有类标签的,新的数据是基于训练集进行分类的,Page,40,分类的两个步骤,模型创建,:,对一个
16、类别已经确定的训练集创建模型,用于创建模型的数据集叫做训练集,每一条记录都属于一个确定的类别,使用类标签属性记录类别,模型可用分类规则、决策树或者神经网络的形式来表达,模型使用,:,用创建的模型预测未来或者类别未知的记录,模型测试,模型预测,使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较,测试集和训练集是独立的,使用靠谱的模型预测未知对象的类,常用分类算法,基本算法,决策树,贝叶斯,KNN,组合方法,随机森林,Bagging,adaboost,高级算法,神经网络,支持向量机,Page,41,预测,回归预测,时间序列预测,Page,42,数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这些对象称作孤立点,孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等,孤立点(,Outlier,)挖掘,Page,43,Page,44,搜索引擎,舆情系统,文本推荐,微博新闻线索发现,用户评论分析,文本挖掘,Page,45,Page,46,微博传播,话单网络,邮件网络,用户关系网络,用户搜索网络,用户兴趣网络,用户路径云图,网络挖掘,Page,47,大数据概述,大数据平台架构,数据平台功能规划,大数据核心技术,Data Ming,目录,案例展示,Page,48,用户行为路径,用户搜索网络,Page,49,