收藏 分销(赏)

关于大数据技术与思路的介绍.pptx

上传人:精*** 文档编号:10581749 上传时间:2025-06-03 格式:PPTX 页数:79 大小:10.29MB
下载 相关 举报
关于大数据技术与思路的介绍.pptx_第1页
第1页 / 共79页
关于大数据技术与思路的介绍.pptx_第2页
第2页 / 共79页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/7/7,#,智慧楼宇智慧安防一体化管控平台建设方案,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/7/7,#,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,关于大数据技术与思路的介绍,关于大数据技术与思路的介绍,第1页,从大数据思维谈起,关于大数据技术与思路的介绍,第2页,大数据从改变咱们思维开始,“大数据开启了一次重大时代转型。就像望远镜让咱们能够感受宇宙,显微镜让咱们能够观察微生物一样,,大数据正在改变咱们生活以及了解世界方式,成为新创造新服务源泉,,更多改变正蓄势待发。”,维克托,迈尔,-,舍恩伯格,大数据时代作者,是最早洞见大数据时代发展趋势数据科学家之一,也是最受人尊敬权威讲话人之一。,-,摘自大数据时代,生活、工作与思维大变革,大数据正在改变咱们一切,其中最主要是从改变咱们思维方式开始,引发思维大变革,并带来所谓,“大数据思维”,。,关于大数据技术与思路的介绍,第3页,功效价值,VS,数据价值,功效价值,数据价值,产品,或,服务,静态,被动,价值,递减,动态,主动,价值,递增,创新与发觉,传统与经验,用户使用中留下了实用信息痕迹产生了数据,能告诉咱们,每一个客户消费倾向,他们想要什么,喜欢什么,每个人需求有哪些区分,哪些又能够被集合到一起来进行分类。,关于大数据技术与思路的介绍,第4页,大数据思维主要特征是相关性思维,一些看起来不相关东西,其实它们有其内在相关性。,大数据没有必要找到原因,不需要证实这个事件和那个事件之间有一个必定,不需要找到先后关联发生一个因果规律。,传统思维方式习惯于“因果”,大数据思维是“相关性”思维,往往只能够想到“前应后果”“多因一果”“一因多果”。数据分析按照咱们既定目标进行,一切以业务驱动为主。,关于大数据技术与思路的介绍,第5页,从“人找信息”到“信息找人”,人找信息,信息找人,从人找信息到信息找人,是交互时代一个转变,也是智能时代要求,你需要什么信息,企业和机器提前知道,而且主动给你提供你所需要信息。,关于大数据技术与思路的介绍,第6页,大数据应用需要大数据技术,关于大数据技术与思路的介绍,第7页,需要具备海量存放能力,磁盘阵列,分布式存放,海量历史数据,事务数据,容量可扩展,单位存放成本低,适合用于海量存放,容量扩展有限,单位存放成本高,适合用于关键交易系统,关于大数据技术与思路的介绍,第8页,需要兼容全类别格式数据,关系型数据,文本数据,二进制数据,大数据平台,关于大数据技术与思路的介绍,第9页,需要具备分布式处理能力,计算节点,大规模计算和处理任务,计算任务拆分,伴随节点数增加,其处理能力线性提升。,关于大数据技术与思路的介绍,第10页,需要支持开放式数据结构,Key-Value,JSon,索引,向量空间,矩阵,邻接表,关系模型,GIS,大数据,技术,关于大数据技术与思路的介绍,第11页,需要具备各种数据处理技术,数据检索,(准确、含糊),数据统计,流式处理,内存计算,批量处理,图计算,机器学习,自然语言识别,大数据,技术,关于大数据技术与思路的介绍,第12页,Hadoop,技术是支撑大数据最正确实践,关于大数据技术与思路的介绍,第13页,从,Apache,软件基金会讲起,专门为运作一个开源软件项目标,Apache,团体提供支持非盈利性组织。这个开源软件项目就是,Apache,项目。,Apache软件基金会,荣获了著名IT杂志SD Times颁发 SD Times 100奖项,位于“极大影响力”分类第二位,仅次于亚马逊。,Apache,软件基金会自成立,15,年来,已经拥有超出,150,个世界顶级项目。,关于大数据技术与思路的介绍,第14页,Hadoop,生态体系,Hadoop由 Apache基金会 于 年秋天作为Lucene子项目Nutch一个别正式引入。,Hadoop,意义不但在于其本身,而且它具备丰富生态技术体系。,HDFS为分布式文件系统,为海量数据提供了存放服务。,为海量数据提供了分布式处理.,Hadoop,数据库,提供海量结构化存放。.,分布式内存计算技术,提供高性能数据计算。,高性能全文搜索服务.,数据实时计算,流式数据处理技术。,可扩展机器学习领域经典算法实现,。,可伸缩分布式迭代图处理系统,提供类,SQL,交互接口。,Hadoop,与关系型数据库交互,大规模科学计算,关于大数据技术与思路的介绍,第15页,Hadoop,开源生态发展法则,批处理,数据库,消息,传递,内存,计算,索引,技术,流处理,图计算,Tez?,Impala?,Storm?,Kafka?,Spark?,Ooize?,Hbase?,Solr?,任务调度框架:,YARN,数据存放框架:,HDFS,Hadoop,C,ore,Falcon?,Databus?,Pregel?,H,ive,?,M,apReduce,?,MPI?,1:计算,框架多样性在,分布式计算环境中成为事实,没有一个框架适合全部计算,,不一样场景使用各种计算框架组合。,Google,Facebook,等取得巨大商业化成功企业,将研发个别计算框架开源回馈小区;,分享与迭代创新精神,推进小区不停出现新计算框架;,2:Hadoop,core,开源关键成为一个标准,成为众多计算框架彼此合作基础,.,没有任何商业实体能够拥有,hadoop,关键;,任何对,hadoop core,优化改进,假如采取商业形式封装,都是对行业,say NO;,数据处理技术,关于大数据技术与思路的介绍,第16页,丰富生态体系满足专业化需求,用户选择视角,互联网程序猿视角,i7,处理器,光驱,主板,至强处理器,内存,显示器,显卡,不一样应用场景,对组件选择要求不一样,丰富生态技术满足专业化需求,服务器,游戏主机,办公电脑,移动设备,数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别,Tez?,Impala?,Storm?,Kafka?,Spark?,Ooize?,Solr?,Falcon?,Databus?,Pregel?,H,ive,?,MR?,MPI?,关于大数据技术与思路的介绍,第17页,与似类技术对比,MPP,数据库,分布式存放,分布式处理,数据库,内存计算,流式处理,数据结构,数据挖掘,统计计算,是,是,是,是,是,是,nosql,sql,数据处理技术(包含nosql),否,否,是,否,否,是,单一,单一,丰富,否,否,是,是,是,是,关于大数据技术与思路的介绍,第18页,数据采集,Oracle,DB2,Mysql,。,HDFS,Flume,日志系统,console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等,Hadoop,导入,实时,关系型,二进制,Hadoop支持全部类型数据导入与存放,关于大数据技术与思路的介绍,第19页,数据存放(分布式),HDFS,节点,HDFS,节点,HDFS,节点,HDFS,节点,HDFS,节点,。,Oracle,实时日志数据,Hadoop分布式存放系统满足大规模全数据数据存放,节点扩展,关于大数据技术与思路的介绍,第20页,数据处理(分布式),清洗、归整、转换、计算、建模,。,。,MPP,关系型数据库,结构化数据提取,数据模型创建,查询统计,科学计算,备份归档,关于大数据技术与思路的介绍,第21页,数据应用(分布式),Hadoop,YARN,Hadoop,C,ore,数据结构,、模型,Key-Value,文本,JSon,全文索引,向量空间,矩阵,邻接表,数据应用,查询、统计报表、机器学习、自然语言识别、复杂网络,关于大数据技术与思路的介绍,第22页,怎样组建大数据团体,关于大数据技术与思路的介绍,第23页,大数据团体组成,算法研究,开发测试,实施维护,大数据,团体,业务分析,关于大数据技术与思路的介绍,第24页,团体组织,业务,分析,算法研究,业务,教授,了解业务,梳理数据,开发,模型构建,算法编码,算法训练,测试,挖掘分析场景,确定分析目标,场景抽象,算法研究匹配,功效开发,功效测试,功效验证,应用场景沟通,规划功效点,制订开发计划,算法实现验证,业务验证,实施,代码交付,实施培训,业务验证,用户,系统实施,系统交付,使用培训,关于大数据技术与思路的介绍,第25页,岗位角色,总经理,主管,业务分析师,业务分析师,主管,算法工程师,算法工程师,主管,后端开发工程师,后端开发工程师,前端开发工程师,前端开发工程师,主管,测试工程师,测试分析师,主管,实施运维工程师,实施运维分析师,关于大数据技术与思路的介绍,第26页,关于大数据平台规划,关于大数据技术与思路的介绍,第27页,大数据经典场景分类,查询,查询统计类,处理,离线批量处理类,计算,挖掘计算类,关于大数据技术与思路的介绍,第28页,不一样场景对硬件资源要求,查询统计类应用,CPU,磁盘,网络,离线批量处理类应用,科学计算类应用,内存,不一样类大数据应用场景,对硬件资源偏好有所不一样。,关于大数据技术与思路的介绍,第29页,不一样场景对软件资源要求,查询统计类应用,离线批量处理类应用,科学计算类应用,不一样类大数据应用场景,对生态技术资源偏好有所不一样。,YARN,关于大数据技术与思路的介绍,第30页,大独立,小集中,配置适合硬件资源,资源充分利用。,计算框架专业,防止布署大而全臃肿计算框架。,维护难度低,节点数量不是很大,降低了运维技术难度。,技术风险小,独立资源,物理隔离,不会出现大面积事故。,Hadoop,集群,(查询统计类),Hadoop,集群,(批处理类),Hadoop,集群,(挖掘计算类),关于大数据技术与思路的介绍,第31页,小集中,VS,大集中,小集中,大集中,成本,较高,低,硬件资源利用,充分,低,计算组件,专业,大而全,运维难度,低,高,运维量,高,低,技术风险,低,较高,关于大数据技术与思路的介绍,第32页,Hadoop,技术为何要企业化,关于大数据技术与思路的介绍,第33页,企业就绪大数据能力所面临问题,陡峭学习曲线,计算框架丰富性,带来众多编程接口(,API,)、操作、布署以及维护管理方式,增加了学习成本,抬高了技术人员入行门槛。,SQL,JAVA,Oracle,JDBC,Hadoop,技能不能快速就绪,关于大数据技术与思路的介绍,第34页,企业就绪大数据能力所面临问题,不含有企业友好性及通用性,比如,黑屏命令行操作维护方式,增加了运维开发人员工作难度、操作量,降低工具友好性。,关于大数据技术与思路的介绍,第35页,企业就绪大数据能力所面临问题,分析算法或模型不足,决议树,贝叶斯,逻辑回归,协同过滤,聚类,最短路径,DFS,BFS,K-,壳,K-,核,度值统计,PageRank,分词标注,词频统计,文本分类,语义图谱,摘要提取,语义提取,情感分析,机器学习,复杂网络,自然语言,。,自己编,互联网,开源小区,正确性,时间成本,支持与服务,关于大数据技术与思路的介绍,第36页,企业就绪大数据能力所面临问题,运维难度,大数据集群数量众多服务器不便于整体布署与管理。,资源监控,组件布署,资源分配,辅助工具,关于大数据技术与思路的介绍,第37页,企业就绪大数据能力所面临问题,版本选择,支持与服务,HBase v,0.98.17、,HBase v,1.1.3、,Hbase,v,1.2.0、,Hbase,v1.0.3,。,哪个框架最适合,需要分析。,哪个版本最稳定,需要测试。,框架升级是否兼容,需要研究。,优化与故障处理。,专业运维培训。,组件选型方案级提议。,关于大数据技术与思路的介绍,第38页,企业主要大数据产品,天云大数据平台(简称,BDP,),处理了企业使用,Hadoop,碰到困境,自然语言处理引擎,机器学习引擎,复杂网络引擎,关于大数据技术与思路的介绍,第39页,天云大数据产品,BDP,介绍,关于大数据技术与思路的介绍,第40页,天云,BDP,产品介绍,天云大数据BDP企业级平台产品是业界第一个实现了Hadoop技术落地商业版产品。在体系架构、功效组件、外围工具、科学算法、客户友好、运维管理、应用开发支撑等多方面都在与我国外友商竞争中占据显著强势地位。,在大量落地项目中展现了产品、服务、交付能力、经验知识贮备和技术发展前瞻性优势。在产品创新、技术融合、业务完善等多方面有效处理了客户所面临各种问题。,关于大数据技术与思路的介绍,第41页,天云大数据产品体系架构,Open source Infrastructure,Hadoop Middleware,Hadoop Applications,关于大数据技术与思路的介绍,第42页,天云大数据产品体系架构,Hadoop,Core,Linux System,Red hat,CentOS,Suse,Debian,红旗,Ubuntu,Mandriva,Apache,Cloudera CDH,Hortonworks HDP,Computing,Template,数据管理,Ingress/egress/compression/schema,seriaiization/retention/dual-active cluster,数据处理,Data Pipeline/Consistence/Residence,Framework&,Instance,BATCH,NoSQL,Index,Stream,NLP,Graph,ML,In-memory,Ad-Hoc Query,Security,Governance,Deployment,Orchestration,Provisioning,结构检索,机器日志,语义分析,流数据,含糊查询,文档检索,关联计算,Hadoop Applications,行为分析,/,规律发觉,日志处理及分析预警,目标市场分析(预测),机器学习,精准推荐,关于大数据技术与思路的介绍,第43页,BDP,产品价值,降低了学习和维护成本,统一编程接口、操作、布署以及维护管理和状态监控。,图形化操作界面,决议树、聚类、贝叶斯、逻辑回归、最短路、,PageRank,。,丰富企业版算法包,稳定可靠,Hadoop,组件版本,每个组件在出厂之前会进行严格测试,确保其兼容稳定。,灵活组件升级,局部组件升级,而不用整体大版本升级。,模板化实施,提供丰富场景技术模板,帮助用户快速平台就绪。,安全访问控制,安全授权、细粒度访问控制、基于角色管理、多租户管理、机器等级安全认证。,关于大数据技术与思路的介绍,第44页,REST,接口,资源与权限管理,硬件资源服务插件,模版策略,&,流程,Hadoop,框架服务,实例,配置,布署,监控,管理,插件管理模块,Plugin1,Plugin4,Plugin2,Plugin3,计算模版架构,Log Files,NoSQL,流采集,分布式消息队列,分布式流引擎,模版实例:实时数据服务,模版实例:含糊查询数据服务,多元计算框架模板,关于大数据技术与思路的介绍,第45页,企业主要大数据产品,备注,关于大数据技术与思路的介绍,第46页,复杂网络引擎,(BDCN),关于大数据技术与思路的介绍,第47页,什么是复杂网络,钱学森,给出了复杂网络一个较严格定义:含有自组织、自相同、吸引子、小世界、无标度中个别或全部性质网络称为复杂网络。,结构复杂,节点数目巨大,网络结构展现各种不一样特征,。,网络进化,节点或连接产生与消失。,连接多样性,节点之间连接权重存在差异,且有可能存在方向性。,节点多样性,节点能够代表任何事物,.,多,重复杂性融合,多重复杂性相互影响,造成更为难以预料结果,.,动力学复杂性,节点集可能属于非线性动力学系统,。,由节点和边组成图。,关于大数据技术与思路的介绍,第48页,复杂网络研究领域,城市公共交通网,经济物理学科学家合作网,航空网,朋友关系网,神经网络,道路交通网,只要能抽象出网络结构客观事务,都能够作为复杂网络研究对象。,关于大数据技术与思路的介绍,第49页,天云复杂网络引擎介绍,天云大数据复杂网络引擎(BDCN)是一款对网络科学研究及应用专业数据处理引擎。用户能够快速方便实现对关联数据加载、建模、存放、计算以及可视化展示。在实现数据分布式存放同时提供了如最短路径、Ranking、随机游走、子图发觉等很多复杂网络算法实现。,关于大数据技术与思路的介绍,第50页,复杂网络理论丰富算法分析能力,节点主要性分析,中心性,权威性,枢纽性,PR,值分析,相同性分析,关系性分析,BFS,DFS,最短,路径,闭环,发觉,社团分析,网络特征分析,连通性,度分布,稀疏与稠密,平均路径,聚类系数,幂率分布,基于复杂网络算法帮助咱们从新视角观察分析事物本质规律。,关于大数据技术与思路的介绍,第51页,某金融机构企业关联关系查询,商业银行,A,企业,1,放贷,担保,企业,1,企业,2,担保,商业银行,B,放贷,企业,1,担保,担保,商业银行,C,放贷,商业银行,D,放贷,担保圈,形成,商业银行不能看到担保链条全部。,单纯财务报表,企业经营情况检验极难揭示企业风险,需要更深一步信息挖掘,才能发觉潜在金融风险,确保金融市场安全。,基于企业之间各种关联关系构建出来复杂关系网络,从新分析视角分析金融风险。,关于大数据技术与思路的介绍,第52页,某金融机构企业关联关系查询,关系型数据库,(关键系统),结构化数据,文本数据,互联网,网络爬取,关于大数据技术与思路的介绍,第53页,某金融机构企业关联关系查询,文本数据,担保关系对,家族关系对,投资关系对,集团关系对,0,1,0,1,0,1,0,1,1,0,1,0,1,1,0,1,0,1,1,1,0,1,1,0,1,0,1,1,1,1,0,1,1,1,1,1,1,0,1,1,1,1,1,1,0,1,1,1,1,邻接矩阵,复杂网络平台,数据汇总,构建模型,企业关系网络,关于大数据技术与思路的介绍,第54页,某金融机构企业关联关系查询,BDCN,计算引擎,BDCN,复杂网络,Warshall,算法,Breath-First,Search,,,BFS,算法,Deep-First,Search,,,DFS,算法,担保圈发觉,企业关联关系查找,技术与算法,支撑,关于大数据技术与思路的介绍,第55页,企业关联关系查询系统,企业名称,:,山东东方伊特广告有限责任企业,投资总额,:,¥,1,000,000,被投资额,:,¥,300,000,投资企业数,:,10,家,被投资企业数,:,6,家,投资总额,:,¥,38,234,532,投资企业,被投资企业,投资额度,所查企业,企业,1,¥,3,000,000,所查企业,北京市京东林元养殖场,¥,2,300,000,企业,5,企业,6,¥,1,000,000,所查企业,北京东豪德利经贸,¥,500,000,投资额排名,:,按,投资关系,展示查询结果,关于大数据技术与思路的介绍,第56页,机器学习引擎,(BDML),关于大数据技术与思路的介绍,第57页,什么是机器学习,机器学习(Machine Learning,ML)是一门多领域交叉学科,包括概率论、统计学、迫近论、凸分析、算法复杂度理论等多门学科。,专门研究计算机怎样模拟或实现人类学习行为,以获取新知识或技能,重新组织已经有知识结构使之不停改进本身性能。,机器学习,有监督学习,无监督学习,半监督学习,对含有概念标识(分类)训练样本进行学习,以尽可能对训练样本集外数据进行标识(分类)预测。这里,全部标识(分类)是已知。,对没有概念标识(分类)训练样本进行学习,以发觉训练样本集中结构性知识。这里,全部标识(分类)是未知。所以,训练样本岐义性高。聚类就是经典无监督学习,介于有监督和无监督之间。,关于大数据技术与思路的介绍,第58页,天云机器学习引擎介绍,机器学习是人工智能关键,是使计算机含有智能根本路径,其应用遍布人工智能各个领域,包含分类、协同过滤、聚类分析、统计分析等理论方法。天云大数据机器学习引擎基于分布式平台,为数据挖掘提供了算法支撑,能够处理海量数据深度挖掘。,关于大数据技术与思路的介绍,第59页,基于有监督机器学习技术客户流失分析,客户,1,客户,2,客户,3,客户,4,基础信息,购置数据,理赔数据,健康数据,缴费数据,呼叫数据,HDFS,已流失客户,清洗、转换,规整、建模,有监督学习,算法模型训练,成熟算法模型,关于大数据技术与思路的介绍,第60页,基于有监督机器学习技术客户流失分析,成熟算法模型,客户,1,客户,2,客户,3,客户,4,基础信息,购置数据,理赔数据,健康数据,缴费数据,呼叫数据,现有客户,客户,1,客户,2,客户,3,客户,4,流失预警,稳定客户,客户经理,关于大数据技术与思路的介绍,第61页,基于无监督机器学习技术客户流失分析,年收入,2.9,万,总标保,1.5,万以上,高达,9,万两全产品,产品覆盖面齐全,年收入高达,18,万,总标保只有,1,万,寿险和年金金额较高,无投连产品,年收入,2.9,万,高达,6.3,万万能产品,产品覆盖面齐全,年收入只有,0.3,万,高达,7.7,万投连产品,年收入,9.7,万,标保只有,0.5,万,年收入只有,0.8,万,高达,2.9,万年金产品,年收入,4.8,万,总标保,2.6,万以上,高达,7.6,万年金产品,产品覆盖面齐全,关于大数据技术与思路的介绍,第62页,自然语言处理引擎,(BDNLP),关于大数据技术与思路的介绍,第63页,什么是自然语言处理,分词标注、实体抽取、词频统计、新词识别、文本分类、情感分析、关键词抽取、词向量、依存文法、简繁转换、自动注音、摘要提取、文本聚类,自然语言处理在海量,文本数据,之上进行处理,,经过机器,实现了,文本,分类、情感分析、主题模型、摘要抽取等多个模型。,关于大数据技术与思路的介绍,第64页,汤森路透上市企业公告处理,汤森路透(Thomson Reuters)成立于4月17日,是由加拿大汤姆森企业(The Thomson Corporation)与英国路透集团(Reuters Group PLC)合并组成商务和专业智能信息提供商。主要为专业企业、金融机构和消费者提供财经信息服务,比如电子交易系统、企业管理系统和风险管理系统、桌面系统、新闻,以及为在法律、税务和会计、科学、医疗保健和媒体市场专业人员提供智能信息及处理方案。,上市企业公告,内容,抓取,自然语言分类和摘要提取,并购、公开募股、私募股权、,可转债、其它分类,关于大数据技术与思路的介绍,第65页,分词,汤森路透上市企业公告处理,通用词库,专业词库,新词发觉,有监督机器学习,算法模型,上市企业公告,并购,公开募股,私募股权,可转债,其它分类,关于大数据技术与思路的介绍,第66页,汤森路透上市企业公告处理,并购,公开募股,私募股权,可转债,其它分类,基于复杂网络技术文章摘要提取,摘要信息,(涵盖,70%,信息量),关于大数据技术与思路的介绍,第67页,自然语言处理之文章摘要,伴随信息时代发展,大量文本涌现出来,包含新闻、咨询、论文、小说等,面对如此大信息量,怎样快速提取文本中心思想并评价文本内容,是当今信息处理领域关键研究领域。,本场景主要介绍是怎样基于复杂网络技术对文本进行摘要信息提取。,复杂网络,节点,边,文章,句子,句子间共有词,关于大数据技术与思路的介绍,第68页,自然语言处理之文章摘要,0,1,0,1,0,1,0,1,1,0,1,0,1,1,0,1,0,1,1,1,0,1,1,0,1,0,1,1,1,1,0,1,1,1,1,1,1,0,1,1,1,1,1,1,0,1,1,1,1,句子,1,句子,2,句子,3,句子,5,句子,6,句子,7,句子,4,句子,1,句子,4,句子,2,句子,3,句子,5,句子,6,句子,7,0,6,0,1,0,1,0,1,1,0,7,0,1,1,0,1,0,1,1,1,0,1,8,0,3,0,3,1,1,1,0,1,1,1,1,1,1,0,1,0,1,1,3,1,0,2,1,1,1,句子,1,句子,2,句子,3,句子,5,句子,6,句子,7,句子,4,句子,1,句子,4,句子,2,句子,3,句子,5,句子,6,句子,7,矩阵,A,矩阵,W,仅表示节点与节点关系,含权,表示节点与节点共有词数,关于大数据技术与思路的介绍,第69页,自然语言处理之文章摘要,度与强度分析,度描述一个句子与其它句子是否相关系,一个句子度分布越高,则表明与该句子有联络句子就越多。,度分布高,度分布低,度强度描述一个句子与其它句子关系紧密度,一个句子度强度分布越高,则表明该句子与其它相关系句子共有词频度就越高。,关于大数据技术与思路的介绍,第70页,自然语言处理之文章摘要,依据句子节点度和节点强度个别排名,选出度值和强度值都比较大节点,普通来说,依据统计,前,10,名左右句子基础上覆盖全文,60%,信息量,所以,依据排名提取文本中心思想和摘要。,关于大数据技术与思路的介绍,第71页,实时查询引擎,(,BDTQ,),关于大数据技术与思路的介绍,第72页,BDTQ,特征,BDTQ,与,Hadoop,生态圈紧密结合。,Hbase,与,solr,的有效整合。,通过,solr,实现,Hbase,二级索引。,强大的一致性支持。,线性扩展能力。,读写严格一致。,基类支持,HBase,表的,MapReduce,作业。,数据查询的秒级、毫秒级响应。,关于大数据技术与思路的介绍,第73页,软件系统架构,Cassandra,HBase,Berkeley,DB,HDFS,Solr,Lucene,后端存放,后端索引,BDTQ,应用,1,应用,2,应用,3,应用,4,应用,5,应用,6,存放索引层,事务控制层,读写接口层,关于大数据技术与思路的介绍,第74页,BDTQ,适用场景,需要从,海量的历史、实时数据中快速获取有用信息,数据量不断增大,需要高速的在线读写,更需要,count/group by,等复杂应用。,用户使用频率非常高,重要程度接近核心应用,对数据丢失以及服务中断是零容忍。,对,数据有,ACID,的要求。,帮助开发者简化使用搜索服务的复杂度,降低开发成本,加快产品迭代速度。,关于大数据技术与思路的介绍,第75页,SQL,引擎,关于大数据技术与思路的介绍,第76页,存放插件,SQL,引擎,应用接口,大数据,SQL,引擎架构图,关于大数据技术与思路的介绍,第77页,关于大数据技术与思路的介绍,第78页,谢谢你观看,关于大数据技术与思路的介绍,第79页,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服