1、,单击此处编辑母版标题样式,成都,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,大 纲,“大数据”的时代背景,“大数据”对,社会发展,的影响,商务智能与数据解析学,概要,理论方法研究与,应用案例,从数据谈起,数据无所不在,2,“大数据”的时代背景,3,无所不在的数据(,1,),国家,(,省、市,),统计局(,),70,万家企业联网“直报”统计数据,从,2,月,18,日开始,全国,70,万家,三上,企业和房地产开发经营企业将在统一的数据采集和处理平台上,通过互联网直接向国家数据中心或国家认定的省级数据中心报送统计数据。,4,无所不在的数据(,2,),金融数据(,Everest
2、 Sized Opportunity,!,9,KMGTPEZY,K Kilo 1K,字节,=1,024,字节,M Meg 1M,字节,=1,048,576,字节,G Giga 1G,字节,=1,073,741,824,字节,T Tera 1T,字节,=1,099,511,627,776,字节,P Peta 1P,字节,=1,125,899,906,842,624,字节,E Exa 1E,字节,=1,152,921,504,606,846,976,字节,Z Zetta 1Z,字节,=1,180,591,620,717,411,303,424,字节,Y Yotta 1Y,字节,=1208,925,
3、819,614,629,174,706,176,字节,容量单位,:,从,K,到,Y,大数据现象,10,产业界与学术界的关注,麦肯锡,咨询公司,“大数据”研究报告,“Big data:The next frontier for innovation,competition,and productivity”,McKinsey Global Institute,May,2011,.,11,高德纳,(,Gartner,),研究与顾问咨询公司,产业界与学术界的关注,Data are becoming the,new raw material of business,:an economic input
4、 almost on a par with capital and labor.,数据,正逐渐变成商业所需的原材料之一:一项几乎和,资本,或,劳力,一样重要的经济原料。(,Feb.27,th,2010,),12,产业界与学术界的关注,20,世纪大萧条以来,美国作为世界强国的开放历史,数据技术浪潮的兴起过程,气势磅礴,波澜壮阔。,美国政府为什么能,中国到底缺什么?,“大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,,发现新的知识,创造新的价值,,带来“大知识”、“大科技”、“大利润”和“大发展”。,13,2012-7,产业界与学术界的关注,爆发:大数
5、据时代预见未来的新思维。,巴拉巴西的研究是在,人类生活数字化的大数据时代,基础上进行的,移动电话、网络以及电子邮件使人类行为变得更加容易量化,将我们的社会变成了一个巨大的数据库。,巴拉巴西揭开人类行为背后隐藏的模式“爆发”,提出,人类日常行为模式不是随机的,,而是具有“爆发性”的。,14,2012-6,新信息世界观:物理,世界、信息世界、人,类社会组成,三元世界,15,大数据,李国杰院士,“大数据”对,社会发展,的,影响,科学研究,第四种范式,公共管理,智慧城市,工业,生产,与商业经营,商务智能与,数据,解析,学,16,第四种范式,观察与经验描述与实验、理论建模、仿真与计算等科研模式之后,当代
6、又出现了数据密集型的科研范式。,微软公司于,2009,年,10,月发布了,The Fourth Paradigm:Data-Intensive Scientific,,首次全面地描述了快速兴起的数据密集型科学研究。,“,The Next Science Revolution,”,,Harvard Business Review,,,November 2010,17,18,自然,科学,大数据专刊,19,2011,年,2,月,11,日出版的,科学,杂志刊登专题,数据处理,2008,年,9,月,3,日出版的,自然,杂志刊登专题,大数据,公共管理,智慧城市,20,城市管理是个复杂学科,智慧城市建设是一
7、项复杂的系统工程。,对智慧城市的建设应该同时着眼于三个空间的整体。,大连建设智慧,城市,的,总体思路,21,基础设施智能化、产业发展现代化、公共服务普惠化和运营管理精益化,商务智能与数据解析学,目前决策制定者正在被大量的数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令企业的组织能力、分析能力和储存信息的能力捉襟见肘。,正如麦肯锡的报告揭示的那样,管理作为科学的一个特性正在越来越凸现出来。,22,决策需要信息与知识,情报阶段:,确定问题,设计阶段:,找出解决方案,选择阶段:,选出解决方案,实施阶段:,实施方案,返回情,报阶段,返回设,计阶段,返回选,择阶段,西蒙,决策过
8、程的四个阶段,决策的过程,发现那些需要引起注意的征兆并加以解释,例如销售滑坡、生产成本猛涨、老顾客对新产品的,需求、新竞争对手带来的威胁等。,最优,方案由多种因素决定,如成本、,实施的难易程度、对员工的要求、方案,实施的时间顺序等。,执行选中的方案,,检测实施的结果,,并作出必要的调整。,23,24,Volume,Value,EDP,MIS,DSS,Benefits of Knowledge Discovery,Generate,Rapid Response,Disseminate,EDP:Electronic Data Processing,MIS:Management Informatio
9、n Systems,DSS:Decision Support Systems,明确业务问题,收集数据和信息,商务智能的前世今生,起源:从数据到知识的挑战和跨越,结蛹:,数据仓库,之厚积薄发,蚕动:,联机分析,之惊艳,破茧:,数据挖掘,之智能生命的产生,化蝶:,数据可视化,的华丽上演,25,三类智能的融合,26,人的,智能,商业(业务)智能,机器智能,数据,什么是数据解析学?,简单的定义,the science of analysis.,一般的定义,Analytics is the process of,obtaining an optimal or realistic decision,bas
10、ed on existing data.,Analytics is the application of,computer technology,operational research,and,statistics,to solve problems in business and industry.,什么是数据解析学?,Data analytics(DA)is the,science,of examining raw,data,with the purpose of,drawing conclusions,about that information.,Data analytics is
11、used in many,industries,to allow companies and organization to,make better business decisions,and in the,sciences,to verify or disprove existing models or theories.,28,29,从,知识转化过程,看数据解析,数据解析学的方法体系,数据解析学是多种学科的交叉的产物。,30,商务智能,e-science,数据解析学,统计学,数据分析,机器学习,数据挖掘,知识发现,数学,概率论,计算机科学,人工智能,数据库,数据仓库,信息管理,知识管理,
12、OR/MS,数据解析学书籍,31,托马斯,H.,达文波特,,,珍妮,G.,哈里斯,,数据分析竞争法,:,企业赢之道,(competing on analytics),译者,:,康蓉,吴越,商务印书馆,,2009,埃森哲战略变革研究院主任,美国巴布森学院信息技术与管理领域的著名教授,数据解析学 杂志,32,数据解析学 报告与论文,Analytics:The real-world use of big data,How innovative enterprises extract value from uncertain data (2012),34,理论方法,研究,从,ANN,到,SVM,从,P
13、CA,到,ICA,从,K-means,到核聚类与谱聚类,图聚类与时间序列聚类,35,科研项目,2012-2015,国家自然科学基金项目,动态数据挖掘中的演化聚类模型与算法研究,2009-2011,国家自然科学基金项目,时间序列数据挖掘中的聚类模型与算法研究,2005-2008,国家自然科学基金项目,独立成分分析的有效算法及应用研究,2003-2004,中国博士后科学基金,支持向量机优化模型与算法研究,36,方法论,模块化,业务问题理解,知识表示(模式与模型),知识评价(目标与评分),搜索与优化方法,数据管理策略与技术,应用验证,问题,+,粒度,+,规律,+,异常,+,应用,分类与预测,从“人工
14、神经网络”,到“支持向量机”,38,分类任务,学习器(训练器),分类器,类,1,类,2,类,m,未被分类的数据,训练例,训练例,训练例,学习(训练)过程,分 类 过 程,模型,39,ANN,的优缺点,优点,通用性,(分类、回归、函数逼近),灵活性(黑箱原理),简单性,BP,算法(最速下降法),学习能力(万能逼近器),缺点,泛化能力,网络结构,局部极小,全局优化算法,不可解释,ANN,的设计者们用高超的工程技巧弥补了数学上的缺陷。,40,支持向量机(,SVM,),理论基础,统计学习理论,优化理论,泛函分析,计算技术,求解凸二次规划,应用,分类(模式识别),回归估计,密度函数估计,41,支持向量,
15、42,构造软间隔分类超平面,原优化模型,Minimize,Subject to,对偶优化模型,Maximize,Subject to,熵优化,特征提取,从“主成分分析”,到“独立成分分析”,44,x,2,x,1,e,主成分分析,(PCA),45,鸡尾酒会问题,Sources,Observations,s,1,s,2,x,1,x,2,Mixing matrix A,x=As,n,sources,m=,n,observations,46,Mixing,process,A,盲源分离问题,Independent,components,Blind,Source,De-mixing,process,W,O
16、bserved,sequences,Recovered independent components,47,独立成分分析基本模型,ICA,的目标就是找到一个线性映射,W,使得解混后的成分,u,彼此之间,统计独立,.,不确定性,其中,C,是对角矩阵,P,是置换矩阵,.,48,ICA,优化模型与算法,ICA=,模型,(,目标函数,)+,优化方法,目标函数,:,如何度量统计独立性,?,峰度、负熵等,优化方法,:,解混矩阵,W,如何迭代求解,?,梯度算法,(,自然梯度算法,),不动点算法,49,Left&right task-related to visual stimuli,Sensitive to
17、 changes in stimuli(Transiently Task Related),Non Task Related,聚类分析,从“,k-means”,到“核聚类与谱聚类”,51,聚类算法,52,核聚类,熵优化,53,54,0.1,0.2,0.8,0.7,0.6,0.8,0.8,0.8,E=w,ij,Set of weighted edges indicating pair-wise similarity between points,谱聚类,将数据集表示成加权图,G(V,E),1,2,3,4,5,6,V=x,i,Set of,n,vertices representing data
18、points,55,聚类的,优化,目标,2.Minimize weight of,between-group,connections,1.Maximize weight of,within-group,connections,0.1,0.2,0.8,0.7,0.6,0.8,0.8,0.8,1,2,3,4,5,6,图的划分问题,56,谱图理论,矩阵表示,Represent a similarity graph as a matrix,Analyse the“spectrum”of matrix representing a graph.,Spectrum,:The eigenvectors of
19、 a graph,ordered by the magnitude of their corresponding eigenvalues.,特征提取,特征值与特征向量,基于,谱,聚类的社区结构发现,57,空手道俱乐部成员间,社会,关系网络,时间序列数据挖掘,58,数据挖掘,分类,聚类,关联分析,其它,数据预处理,时间序列数据,隐藏的知识,潜在的信息,兴趣模式,异常发现,关联规则,数据归类,信息与知识,59,时间序列聚类,由于时间序列数据与静态数据有着极大的不同,故对其进行聚类分析有着很大的复杂性。,时间序列数据聚类方法,基于原始数据的聚类,基于特征的聚类,基于模型的聚类,60,基于,ICA,的
20、时间序列聚类,以,ICA,作为时间序列数据特征提取的新工具。,时间序列数据本身所具备的高维性、复杂性、动态性、高噪声特性以及容易达到大规模的特性。,为了解决大规模时间序列数据聚类过程中遇到的“维数灾难”问题和噪声干扰问题,提出以,ICA,作为时间序列数据特征提取的新工具,对时间序列数据进行有效的降维和去噪。,61,股票时间序列,聚类,咨询项目及典型应用,发动机试验时间序列数据挖掘,信用卡客户细分模型,汽车用户购买与维修行为分析,62,发动机试验时间序列分析,每秒,30,次采样,,2,小时以上,60,多个传感器,多次试验,63,训练,预测,基于特征数据的,发动机试验时间序列,预测,因变量,自变量
21、,信用卡客户细分模型,借助,CEM,平台,打通各业务系统,形成,360,度客户视图,提高客户转化,提升客户忠诚度及客户体验。,CEM,商务智能目标及任务,CEM,数据挖掘任务,模拟客户价值分群,车主流失模型,车主再购模型,66,客户群显著特征维度对照表,婚姻,性别,教育,收入,品牌,购车时间,行业,年均维修金额、次数、行驶里程,潜力股,稳重男,黄金,VIP,白银,VIP,白领丽人,平民百姓,大众女性,数值越大(线条越长)的变量对分类的贡献越大,设置,95%,的置信区间(红色虚线),超过红线的变量对该分类贡献大,67,68,商务智能与数据解析学展望,69,发展趋势,与行业应用相结合(金融,电信,,CRM,),与数据库、数据仓库、预测模型系统集成,分析、挖掘各种复杂类型的数据,研制和开发数据分析与挖掘标准,支持网络环境和移动环境,70,提高方法的可应用性,建立各种业务模型,应用到新的数据类型,提高算法的可扩展性,注重隐私保护与信息安全,所面临的挑战,谢 谢!,71,