1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,关于大数据技术与思路的介绍,从大数据思维谈起,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,大数据从改变我们的思维开始,“大数据开启了一次重大的时代转型。就像望远镜让我,们能够感受宇宙,显微镜让我们能够观测微生物一样,,大数据正在改变我们的生活以及理解世界的方式,成为,新发明新服务的源泉,,更多的
2、改变正蓄势待发。”,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,维克托迈尔-舍恩伯格,-作与思维的大变革摘自大数据时代生活、工,大数据时代的作者,是最早洞见大数据时代发展趋势的数据科学家,之一,也是最受人尊敬的权威发言人之一。,大数据正在改变我们的一切,其中最重要的是从改变我们的思维方,式开始,引发思维大变革,并带来所谓的,“大数据思维”,。,功能的价值,VS,数据的价值,功能的价值,数据的价值,静态的,传统与经验,创新与发现,动态的,产品,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,被动的,或,主
3、动的,服务,价值,价值,递减的,递增的,用户使用中留下了实用的信息痕迹产生了数据消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可,能告诉我们,每一个客户的,以被集合到一起来进行分类。,大数据思维重要特征是相关性思维,一些看起来不相关的东西,其实它们有其内在相关性。,传统的思维方式习惯于“因果”,往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分析按照我们既定的,目标进行,一切以业务驱动为主。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,大数据的思维是“相关性”思维,大数据没有必要找到原因,不需要证明这个事件和那个事件之
4、间有一个必然,不需要找到先,后关联发生的一个因果规律。,从“人找信息”到“信息找人”,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,人找信息信息找人,从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求,你需要什么信息,企业,和机器提前知道,而且主动给你提供你所需要的信息。,大数据应用需要大数据技术,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,一些看起来不相关的东西,其实它们有其内在相关性。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,分析算法
5、或模型的不足,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案产品创新、技术融合、业务完善等多方面有效解决了客户所面临的各种问题。,统和风险管理系统、桌面系统、新闻,以及为在法律、税务和会计、科学、医疗保健和媒体市场的专业人员提供智能信息及解决方案。,年收入只有的年金产品0.,自然语言处理之文章摘要度与强度的分析,Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。,并购、公开募股、私募股权、可转债、其它分类,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,需要支持开放式的数据结构,需要具备海量存
6、储的能力,海量历史数据,事务数据,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,分布式存储,磁盘阵列,容量可扩展单位存储成本低,适用于海量存储,单位存储成本高容量扩展有限,适用于关键交易系统,需要兼容全类别格式的数据,大数据平台,关系型数据,文本数据,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,二进制数据,需要具备分布式处理能力,大规模计算和处理任务,计算任务拆分,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,计算节点,随着节点数的增加,其处理能力线性提升
7、需要支持开放式的数据结构,矩阵,向量空间,邻接表,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,Key-Value,大数据,技术,JSon,关系模型,索引,GIS,需要具备多种数据处理的技术,流式处理,内存计算,数据统计,批量处理,大数据,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,数据检索,技术,(精确、模糊),图计算,自然语言识别,机器学习,Hadoop,技术是支撑大数据的最佳实践,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,从,Apache,软
8、件基金会讲起,Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,Apache软件基金会,荣获了著名IT杂志SD Times颁发的2013,SD Times 100奖项,位于“极大影响力”,分类第二位,仅次于亚马逊。,专门为运作一个开源软件项目的Apache,的团体提供支持的非盈利性组织。这个开源,软件项目就是Apache项目。,Hadoop,生态体系,提供类接口。SQL交互,Hadoop型数据库交互与关系,HadoopApache基金由,会于2005,数据实时计算,流式数据处理技
9、术。,可扩展的机器学,习领域经典算法的实现。,可伸缩的分布,式迭代图处理系统,大规模科学的计算,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,年秋天作为Lucene的子,项目的一部分正Nutch,式引入。,为海量数据提供了分布式处理.,Hadoop提供海量结构化数据库,高性能的全,存储。.,分布式内存计算技术,提供高性,能数据计算。,文搜索服务.,HDFS为分布式文件系统,为海量数据提供了存储服务。,Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。,Hadoop,开源生态发展法则,数据处理技术,MapReduce?,Spark?,
10、Kafka?,Storm?,Impala?,1:,计算框架多样性,在分布式计算环境中,成为事实,没有一种,框架适合所有计算,,,不同的场景使用多种,的计算框架组合。,Hbase,?,Solr?,Tez?,MPI?,Pregel?,Databus?,Ooize?,H,ive?,Falcon?,索引,技术,批处理,消息传递,图计算,数据库,内存,计算,流处理,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,任务调度框架:YARN,2:,核心成为一种标准,,Hadoopcore,开源,成为众多计算框架彼,此合作的基础,.,Hadoop,Core,数据存储框
11、架:HDFS,Google,Facebook等获得巨大商业化成功的,公司,将研发的部分计算框架开源回馈社区;,分享与迭代创新精神,推动社区不断出现,新的计算框架;,没有任何商业实体能够拥有核心;hadoop,任何对hadoopcore的优化改进,如,果采用商业形式的封装say NO;,都是对行业,!,丰富的生态体系满足专业化的需求,数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别,服务器,游戏主机,办公电脑,移动设备,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,不同的应用场景,对组件的选择要求不同,丰富的生态技
12、术满足专业化需求,显示器,至强处理器,i7处理器,光驱,主板,内存,显卡,MR?,Solr?,Spark?,Tez?,MPI?,Storm?,Impala?,Databus?,H,ive?,Kafka?,Pregel?,用户选择视角,Ooize?,Falcon?,与似类技术对比,MPP数据库,分布式存储,是,是,是,分布式处理,是,是,是,数据库,nosql,sql,数据处理技术(包括nosql),智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,内存计算否否是,流式处理,否,否,是,数据结构,单一,单一,丰富,数据挖掘,否,否,是,统计计算,是,是,
13、是,数据采集,DB2,Oracle,。,Mysql,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,日志系统,console(Thrift(控制台)、-RPC)、text(文RPC,件)、tail(UNIX tail)、,syslog支持TCP(syslog和UDP日志系统,等2种模式),,exec(命令执行)等,HDFS,Hadoop,支持所有类型数据的导入与存储,关系型,Flume,实时,数据存储(分布式),Hadoop分布式存储系统满足大规模的全数据数据存储,HDFS节点,HDFS节点,HDFS节点,节点扩展,HDFS节点,HDFS节点,。,智
14、慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,Oracle,实时日志数据,数据处理(分布式),关系型数据库,MPP,数据模型创建,。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,科学计算,清洗、归整、转换、计算、建模,。,结构化数据提取,查询统计,备份归档,数据应用(分布式),数据应用,查询、统计报表、机器学习、自然,语言识别、复杂网络,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,数据结构,Key-Value全文索引,、模型,文本,JSon,向量空间,矩阵
15、邻接表,Hadoop,Core,Hadoop,如何组建大数据团队,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,大数据团队的组成,业务分析,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案算法研究,大数据,开发测试,团队,实施维护,团队组织,业务专家,开发,理解业务,梳理数据,应用场景沟通规划功能点,制定开发计划,模型构建,算法编码,业务,分析,挖掘分析场景,确定分析目标场景抽象,算法,算法训,功能开,功能测试,功能验证,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解
16、决方案,算法研究匹配,研究,练发,业务验,证,算法实,现验证,业务验证,用户,系统实施,系统交,付,使用培训,代码交,付,实施培训,测试,实施,岗位角色,总经理,主管,主管,主管,主管,主管,业务分析师,算法工程师,后端开发工程师,测试工程师,实施运维工程师,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,业务分析师,算法工程师,后端开发工程师,测试分析师,实施运维分析师,前端开发工程师,前端开发工程师,关于大数据平台规划,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,大数据典型场景分类,查询,查询统计类
17、处理,离线批量处,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,理类,计算,挖掘计算类,不同的场景对硬件资源的要求,CPU,磁盘,网络,内存,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,查询统计类应用,离线批量处理类应用,科学计算类应用,不同类大数据应用场景,对硬件资源的偏好有所不同。,不同的场景对软件资源的要求,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,YARN,查询统计类应用,离线批量处理类应用,科学计算类应用,不同类大数据应用场景,对生态技术资
18、源的偏好有所不同。,大独立,小集中,(查询统计类)Hadoop集群,(批处理类)Hadoop集群,(挖掘计算类)Hadoop集群,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,配置适合的硬件资源,资源充分利用。,计算框架专业,避免部署大而全的臃肿计算框架。,维护难度低,节点数量不是很大,降低了运维的技术难度。,技术风险小,独立资源,物理隔离,不会出现大面积事故。,小集中,VS,大集中,小集中,大集中,成本,较高,低,硬件资源利用,充分,低,计算组件,专业,大而全,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决
19、方案,运维难度低高,运维量,高,低,技术风险,低,较高,Hadoop,技术为什么要企业化,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,企业就绪大数据能力所面临的问题,陡峭的学习曲线,Hadoop,技能不能快速就绪,计算框架的丰富性,带来众多的,编程接口(API)、操作、部署以,及维护管理方式,增加了学习成,本,抬高了技术人员入行的门槛。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,Oracle,SQL,JAVA,JDBC,企业就绪大数据能力所面临的问题,不具有企业友好性及通用性,例如,黑屏命令行操作
20、维护方式,,增加了运维开发人员的工作难度、,操作量,降低的工具的友好性。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,企业就绪大数据能力所面临的问题,分析算法或模型的不足,机器学习,复杂网络,决策树,聚类,最短路径PageRank,贝叶斯,协同过滤K-核,BFS,DFS,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,逻辑回归词频统计K-壳度值统计,语义图谱分词标注,摘要提取,文本分类,语义提取情感分析,。,自然语言,正确性,时间成本,支持与服务,开源社区,互联网,已编,企业就绪大数据能力所面临的问题,
21、运维难度,大数据集群数量众多的服务器,不便于整体的部署与管理。,1.,2.,资源监控,组件部署,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,3.资源分配,4.,辅助工具,企业就绪大数据能力所面临的问题,版本的选择,哪个框架最适合,需要分析。,哪个版本最稳定,需要测试。,框架升级是否兼容,需要研究。,HBaseHBasevv0.98.171.1.3、,Hbasev1.0.3v1.2.0、Hbase,。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,支持与服务,优化与故障处理。,专业的运维培训。,组件选型
22、的方案级建议。,公司的主要大数据产品,自然语言处理引擎,机器学习引擎,复杂网络引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,天云大数据平台(简称,BDP),解决了企业使用Hadoop遇到的困境,天云大数据产品,BDP介绍,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,天云,BDP,产品简介,天云大数据的BDP企业级平台产品是业界第一个实现了Hadoop技术落地的商业版产品。在体系架,构、功能组件、外围工具、科学算法、客户友好、运维管理、应用开发支撑等多方面都在与国,内外友商的竞争中占据明显强势地位
23、在大量落地项目中展现了产品、服务、交付能力、经验知识储备和技术发展前瞻性的优势。在,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,产品创新、技术融合、业务完善等多方面有效解决了客户所面临的各种问题。,天云大数据产品体系架构,HadoopApplications,Hadoop Middleware,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,Open source Infrastructure,天云大数据产品体系架构,目标市场分析(预测),HadoopApplications,精准推荐,机器学习,行
24、为分析/规律发现,日志处理及分析预警,ComputingTemplate,结构检索,模糊查询,文档检索,流数据,机器日志,关联计算,语义分析,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,NoSQ,Framework&Instance,BATCH,L,Ad-Hoc Query,Index,Stream,NLP,Graph,In-memory,ML,Ingress/egress/compression/schema,数据管理,数据处理,seriaiization/retention/dual-active cluster,Data Pipeline/
25、Consistence/Residence,Deployment,Provisioning,Orchestration,Security,Governance,HadoopCore,Cloudera CDH,Apache,Hortonworks HDP,Linux System,Red hat,CentOS,Suse,Debian,红旗,Ubuntu,Mandriva,BDP产品的价值,降低了学习和维护成本,灵活组件升级,统一的编程接口、操作、部署,以及维护管理和状态监控。,局部组件升级,而不用整体,大的版本升级。,图形化操作界面,模板化实施,提供丰富的场景技术模板,,智慧小区云服务平台整体解
26、决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,帮助用户快速平台就绪。,安全访问控制,丰富的企业版算法包,安全授权、细粒度访问控制、,基于角色的管理、多租户管,理、机器级别的安全认证。,决策树、聚类、贝叶斯、逻,辑回归、最短路、PageRank。,稳定可靠的Hadoop组件版本,每个组件在出厂之前会进行,严格测试,保证其兼容稳定。,多元计算框架模板,计算模版架构,模版实例:实时数据服务,REST接口,FilesLog,资源与权限管理,流采集,分布式消息队列,模版策略&流程,配置,NoSQL,分布式流引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云
27、服务平台整体解决方案,Hadoop框架服务实例部署模版实例:模糊查询数据服务,监控,管理,硬件资源服务插件,插件管理模块,Plugin1,Plugin2,Plugin3,Plugin4,公司的主要大数据产品,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,备注,复杂网络引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,(BDCN),什么是复杂网络,钱学森,给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中,部分或全部性质的网络称为复杂网络。,结构复杂,网络进化,连接多样性,节
28、点数目巨,节点或连接,节点之间的,连接权重存,在差异,且,有可能存在,方向性。,大,网络结,构呈现多种,的产生与消,失。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,不同特征。,动力学复杂性,多重复杂性融合,节点多样性,节点集可能,属于非线性,动力学系统。,多重复杂性,相互影响,,导致更为难,以预料的结,果.,节点可以代,由节点和边构成,的图。,表任何事物.,复杂网络研究的领域,只要能抽象出网络结构的客观事务,都可以作为复杂网络的研究的对象。,经济物理学科学家合作网,神经网络,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云
29、服务平台整体解决方案,城市公共交通网,朋友关系网,航空网,道路交通网,天云复杂网络引擎简介,天云大数据的复杂网络引擎(BDCN)是一款对网络科学研究及应用的专业数据处理引擎。用户可,以快速方便的实现对关联数据的加载、建模、存储、计算以及可视化展示。在实现数据分布式存,储的同时提供了如最短路径、Ranking、随机游走、子图发现等诸多复杂网络的算法实现。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,复杂网络理论的丰富算法分析能力,闭环PR值,发现,相似性,分析,中心,性,BFS,分析,关系性,节点重要,性分,权,威性,DFS,分析,析,智慧小区云服
30、务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,最短枢纽,路径,网络特,征分析,社团分,性,基于复杂网络算,法帮助我们从新,的视角观察分析,事物的本质规律。,析,聚类,系数,幂率分布,连通性,度分,稀疏与稠,平均,路径,布,密,某金融机构企业关联关系查询,单纯的财务报表,企业经营,状况检查很难揭示企业风险,,需要更深一步的信息挖掘,,才能发现潜在的金融风险,,保证金融市场的安全。,基于企业之间的各种关联关,系构建出来的复杂关系网络,,商业银行A,商业银行B,放贷,企业1,担保圈形成,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整
31、体解决方案,从新的分析视角分析金融风企业1企业1,险。,企业2,商业银行C,商业银行D,商业银行不能看到担保链条全部。,放货,担保,担保,放货,某金融机构企业关联关系查询,互联网,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,关系型数据库,(核心系统),结构化数据,文本数据,网络爬取,某金融机构企业关联关系查询,数,据汇,总,构建,企,业关,系,络网,01110011001101,0101110,11110011101111,1101111,担保关系对,家族关系对投资关系对,集团关系对,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智
32、慧小区云服务平台整体解决方案,模1101111,型,文本数据,邻接矩阵,复杂网络平台,某金融机构企业关联关系查询,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,担保圈发现企业关联关系查找,技术与算法支撑,Warshall算法,Breath-FirstSearch,BFS算法,Deep-FirstSearch,DFS算法,企业关联关系查询系统,投资总额:¥38,234,532,投资额排名:,投资企业,被投资企业,投资额度,所查企业,企业1,¥3,000,000,所查企业,北京市京东林元养殖场,¥2,300,000,企业5,企业6,¥1,000,000
33、智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,所查企业北京东豪德利经贸¥500,000,企业名称特广告有限责任公司:山东东方伊,投资总额:¥1,000,000,被投资额投资企业数:¥:300,00010家,被投资企业数:6家,投资比例,15%10%20%,按,投资关系,展示查询结果,25%30%,机器学习引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,(BDML),什么是机器学习,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、,凸分析、算法复杂
34、度理论等多门学科。以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。专门研究计算机怎样模拟或实现人类的学习行为,,机器学习,有监督学习,半监督学习,无监督学习,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,对具有概念标记(分,类)的训练样本进行学习,以尽可能对训,练样本集外的数据进,行标记(分类)预测。这里,所有的标,记(分类)是已知,的。,介于有监督和无监督,之间。,对没有概念标记(分类)的训练样,本进行学习,以发,现训练样本集中的结构性知识。这,里,所有的标记,(分类)是未知的。因此,训练样,本的岐义性高。聚,类就是典型的无监
35、督学习,天云机器学习引擎简介,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,,包括分类、协同过滤、聚类分析、统计分析等理论方法。天云大数据的机器学习引擎基于分布式,平台,为数据挖掘提供了算法支撑,能够处理海量数据深度挖掘。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,基于有监督机器学习技术的客户流失分析,清洗、转换规整、建模,客户,基本信息,1,购买数据,客户2,理赔数据,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案客户3,健康数据,HDFS,客户,缴费数据,4
36、呼叫数据,成熟的算法模型,算法模型训练有监督学习,已流失客户,基于有监督机器学习技术的客户流失分析,客户1,客户,基本信息,1,购买数据,客户2,客户2,理赔数据,流失预警,客户3,健康数据,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案客户,缴费数据稳定客户,4,成熟的算法模型,呼叫数据,客户3,客户经理,现有客户,客户4,基于无监督机器学习技术的客户流失分析,年收入上,高达4.87.6万,总标保万的年金产品,2.6万以,产品覆盖面齐全,年收入上,高达2.99万,总标保万的两全产品,产1.5万以,品覆盖面齐全,年收入高达有1万,寿险和年金金额较高
37、18万,总标保只,,无投连产品,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,年收入能产品,产品覆盖面齐全2.9万,高达6.3万的万,年收入只有的年金产品0.8万,高达2.9万,年收入只有的投连产品0.3万,高达7.7万,年收入9.7万,标保只有0.5万,自然语言处理引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,(BDNLP),什么是自然语言处理,自然语言处理在海量文本数据之上进行处理,通过机器实现了文本分类、情感分析、主题模型、摘要,抽取等多个模型。,抽取、词向量、依存文法、简繁转换、自动注音、
38、摘要提取、文本聚类分词标注、实体抽取、词频统计、新词识别、文本分类、情感分析、关键词,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,汤森路透上市公司公告处理,汤森路透(Thomson Reuters)成立于2008年4月17日,是由加拿大汤姆森公司(The Thomson,Corporation)主要为专业企业、金融机构和消费者提供财经信息服务,例如电子交易系统、企业管理系与英国路透集团(Reuters Group PLC)合并组成的商务和专业智能信息提供商。,统和风险管理系统、桌面系统、新闻,以及为在法律、税务和会计、科学、医疗保健和媒体市场的专
39、业人员提供智能信息及解决方案。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,上市公司公告,内容抓取,自然语言分类和摘要提取,并购、公开募股、私募股权、可转债、其它分类,汤森路透上市公司公告处理,并购,公开募股,私募股权,可转债,其它分类,有监督机器学习算法模型,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,上市公司公告,分词,新词发现,专业词库,通用词库,汤森路透上市公司公告处理,并购,公开募股,私募股权,可转债,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方
40、案,其它分类,(涵盖摘要信息70%信息量),章摘要提取基于复杂网络技术的文,自然语言处理之文章摘要,随着信息时代的发展,大量文本涌现出来,包括新闻、咨询、论文、小说等,面对如此大的信息量,,如何快速提取文本中心思想并评价文本内容,是当今信息处理领域的关键研究领域。,本场景主要介绍的是如何基于复杂网络技术对文本进行摘要信息的提取。,复杂网络,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,句子,节点,文章,句子间共有词,边,数据实时计算,流式数据处理技,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,智慧小区
41、云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,需要支持开放式的数据结构,辑回归、最短路、PageRank。,天云大数据产品体系架构,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,,统一的编程接口、操作、部署,功能的价值VS数据的价值,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案(BDCN),往往只能够想到“前应后果”“多因一果”“一因多果”。,Google,Facebook等获得巨大商业化成功的,为海量数据提供了分布式处理.,不同的场景对硬件资源的要求,大数据思维重要特征
42、是相关性思维,自然语言处理之文章摘要,矩阵A,矩阵W,仅表示节点与节点关系,含权,表示节点与节点共有词数,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,句子,1,句子,2,子句,3,句子,4,子句,5,句子,6,句子,7,子句,1,子句,2,子句,3,句子,4,子句,5,子句,6,句子,7,句子1,句子2,句子3,句子4,句子5,句子6,句子7,01110011001110,0101110,1101011,11110011111111,1101111,句子1,句子2,句子3,句子4,句子5,句子6,句子7,10610071001110,010111
43、0,1803031,11110011101111,3102111,自然语言处理之文章摘要,度与强度的分析,度描述一个句子与其它句子是否有关系,一个句子的度分布越高,则表明与该句子有联系的句子就越多。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,度分布高,度分布低,度强度描述一个句子与其它句子它有关系的句子共有词的频度就越高。的关系的紧密度,一个句子的度强度分布越高,则表明该句子与其,自然语言处理之文章摘要,根据句子节点度和节点强度的部分排名,选出度值和强度值都比较大的节点,一般来说,根据统计,,前10名左右的句子基本上覆盖全文60%的信息量,因此
44、根据排名提取文本的中心思想和摘要。,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,实时查询引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,(BDTQ),BDTQ特性,与态圈紧密结Hadoop合。生,数据查询的秒级、毫秒,Hbase的有效整与solr,级响应。,合。,基类支持,通过solr实,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,MapReduceHBase作业。表的,BDTQ,现级索引。Hbase二,读写严格一致。,强大的一致性支持。,线性扩展
45、能力。,软件系统架构,应用1,应用2,应用3,应用4,应用5,应用6,读写接口层,BDTQ,事务控制层,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,存储索引层,Cassandra,HBase,BerkeleyDB,Solr,Lucene,HDFS,后端存储,后端索引,BDTQ适用场景,数据量不断增,大,需要高速,的在线读写,,用户使用频率,非常高,重要,程度接近核心,帮助开发者简,化使用搜索服,务的复杂度,,降低开发成本,,加快产品迭代,需要从海量的,历史、实时数,对数据有ACID,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,据中快速获取更需要应用,对数据的要求。,有用信息,count/groupby等复杂应,丢失以及服务,用。,中断是零容,速度。,忍。,SQL,引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,大数据,SQL,引擎架构图,应用接口,SQL,引擎,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,存储插件,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,谢谢你的观看,






