1、 中国大数据分析行业研究报告|中国大数据分析 行业研究报告 中国大数据网 2022 年 4 月 中国大数据分析行业研究报告|目录 1 研究背景.1 2 大数据产品概念和分类.3 2.1 大数据发展的驱动力.4 2.2 大数据产品分类.7 2.2.1 大数据基础设施.8 2.2.2 大数据分析.10 2.2.3 大数据应用.19 2.2.4 大数据开源项目.20 2.2.5 数据源和数据资源.22 2.3 大数据分析的价值.22 3 大数据分析市场规模和发展趋势.24 3.1 大数据分析市场规模.24 3.2 大数据分析市场趋势.25 3.2.1 国产化产品蓬勃发展.26 3.2.2 云化部署持
2、续增长,公有云、非公有云部署同步发展.26 3.2.3 大数据分析平民化.26 3.3 大数据分析技术趋势.27 3.3.1 增强分析步入人工智能阶段.27 3.3.2 湖仓一体成为新的数据基础设施底座.29 3.3.3 流批一体将两种架构模式融为一体.30 4 大数据分析三大细分市场主要厂商分析.31 4.1 商业智能和数据可视化.33 4.2 流批一体.39 4.3 智能运维.45 5 结论.51 6 研究机构简介.52 中国大数据分析行业研究报告|图表目录 图表 1、全球生成、获取、复制、消费的数据量(单位 ZB),Statista 2022.3 图表 2、大数据产品分类.7 图表 3、
3、传统编程与机器学习模型对比.13 图表 4、批量计算与流式计算对比.16 图表 5、指标平台架构(来源:Benn Stancil).17 图表 6、典型的大数据行业应用.20 图表 7、开源大数据项目.22 图表 8、中国大数据市场支出预测 2021v2(来源:IDC).24 图表 9、中国大数据软件市场支出分布(来源:中国大数据网).25 图表 10、增强分析的演进(来源:Gartner).28 图表 11、数据仓库、数据湖、湖仓一体架构对比(来源:).29 图表 12、批量分析与流式分析(来源:flink.apache.org).30 图表 13、大数据分析市场厂商类型.32 图表 14、
4、大数据分析市场主要厂商.33 图表 15、商业智能和数据可视化市场主要厂商.34 图表 16、新兴型行业智能化和数据可视化厂商 2020 年相对市场份额(主营业务收入口径).34 图表 17、新兴型行业智能化和数据可视化厂商综合科技创新能力评价.35 图表 18、中国商业智能软件市场规模(来源:IDC).35 图表 19、中国商业智能和数据可视化软件市场厂商份额(来源:IDC).36 图表 20、帆软的商业智能产品.37 图表 21、微软的 Power Platform.38 图表 22、流批一体市场主要厂商.39 图表 23、新兴型流批一体厂商 2020 年相对市场份额分布(主营业务收入口径
5、).40 图表 24、新兴型行业流批一体化厂商综合科技创新能力评价.40 图表 25、广义流批一体的三个板块.41 图表 26、阿里的流批一体架构.42 图表 27、滴普科技 FastData 的实时湖仓引擎.43 图表 28、Kyligence 的流批一体解决方案.44 图表 29、智能运维市场主要厂商.46 图表 30、新兴型智能运维厂商 2020 年相对市场份额分布(主营业务收入口径).46 图表 31、新兴型智能运维厂商综合科技创新能力评价.47 图表 32、Splunk 智能运维平台.47 图表 33、新炬网络的全栈一体化智能运维平台.48 图表 34、博睿数据智能运维监控产品.49
6、 图表 35、基调听云智能运维产品.49 图表 36、擎创科技智能运维平台.50 中国大数据分析行业研究报告|1 1 研究背景 在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新,推动经济转型发展。紧密围绕数据资源开展的基础设施建设、数据集聚整合、数据分析处理、数据开放共享和数据安全,铸就了大数据产业发展的核心要素。这些要素所构筑的“内层齿轮”的转动直接带动了“外层齿轮”大数据融合应用的蓬勃发展,衍生出政府大数据、互联网大数据、健康医疗大数据、金融大数据、电信大数据和工业大数据等热点场景,持续驱动经济增长和转型升级。“十三五”时期,我国大数据产业快速起步
7、。据测算,产业规模年均复合增长率超过 30%,2020 年超过 1 万亿元,发展取得显著成效,逐渐成为支撑我国经济社会发展的优势产业。政策体系逐步完善。党中央、国务院围绕数字经济、数据要素市场、国家一体化大数据中心布局等做出一系列战略部署,建立促进大数据发展部际联席会议制度。有关部委出台了 20 余份大数据政策文件,各地方出台了 300 余项相关政策,23 个省区市、14 个计划单列市和副省级城市设立了大数据管理机构,央地协同、区域联动的大数据发展推进体系逐步形成。产业基础日益巩固。数据资源极大丰富,总量位居全球前列。产业创新日渐活跃,成为全球第二大相关专利受理国,专利受理总数全球占比近 20
8、%。基础设施不断夯实,建成全球规模最大的光纤网络和 中国大数据分析行业研究报告|2 4G 网络,5G 终端连接数超过 2 亿,位居世界第一。标准体系逐步完善,33 项国家标准立项,24 项发布。产业链初步形成。围绕“数据资源、基础硬件、通用软件、行业应用、安全保障”的大数据产品和服务体系初步形成,全国遴选出 338个大数据优秀产品和解决方案,以及 400 个大数据典型试点示范。行业融合逐步深入,大数据应用从互联网、金融、电信等数据资源基础较好的领域逐步向智能制造、数字社会、数字政府等领域拓展,并在疫情防控和复工复产中发挥了关键支撑作用。生态体系持续优化。区域集聚成效显著,建设了 8 个国家大数
9、据综合试验区和 11 个大数据领域国家新型工业化产业示范基地。一批大数据龙头企业快速崛起,初步形成了大企业引领、中小企业协同、创新企业不断涌现的发展格局。产业支撑能力不断提升,咨询服务、评估测试等服务保障体系基本建立。数字营商环境持续优化,电子政务在线服务指数跃升至全球第 9 位,进入世界领先梯队。中国大数据产业发展受宏观政策环境、技术进步与升级、数字应用普及渗透等众多利好因素的影响,市场需求和相关技术进步成为大数据产业持续高速增长的最主要动力。中国大数据产业呈现集成创新和泛在赋能的新趋势。新一轮科技革命蓬勃发展,大数据与 5G、云计算、人工智能、区块链等新技术加速融合,重塑技术架构、产品形态
10、和服务模式,推动经济社会的全面创新。各行业各领域数字化进程不断加快,基于大数据的管理和决策模式日益成熟,为产业提质降本增效、政府治理体系和治理能力现代化广泛赋能。随着“互联网+”的 中国大数据分析行业研究报告|3 不断深入推进以及数字技术的不断成熟,大数据的应用和服务持续深化,中国大数据产业将继续保持高速增长,创新力强、附加值高、自主可控的现代化大数据产业体系将基本形成,持续促进传统产业转型升级,激发经济增长活力,助力新型智慧城市和数字经济建设。2 大数据产品概念和分类 大数据是数据的集合,以容量大、类型多、速度快、精度准、价值高为主要特征,是推动经济转型发展的新动力。图表 1、全球生成、获取
11、、复制、消费的数据量(单位 ZB),Statista 2022 大数据应用的蓬勃发展是社会进步的必然结果,互联网普及之后,数据的生成、获取、复制、消费呈现出指数级发展的趋势,这些数据来自气象卫星、交通摄像头、车联网、电力/能源/工业/环保行业的数控设备和传感器、社交媒体动态、音频视频消费习惯、移动应用的 中国大数据分析行业研究报告|4 用户使用行为、购物平台的浏览和购买记录、服务器的事务记录及安全日志等等,企业和政府利用这些数据制定决策,完善流程和政策,并打造以用户为中心的产品、服务和体验。通过挖掘和分析这些数据,企业能够提高自身的竞争力和抗风险能力,把握新机遇,革新业务模式;政府能够洞察趋势
12、、制定出更科学的决策和政策。在现代社会环境下,不进行大数据分析,就会“耳聋眼瞎”。2.1 大数据发展的驱动力 大数据在业务需求和技术创新的结合中蓬勃发展。许多以大数据为核心战略的公司取得了巨大的成功,阿里巴巴、腾讯、亚马逊、苹果都是大家耳熟能详的例子。大数据的迅速发展有六个主要的驱动因素:社会数字化、物联网、技术成本快速下降、云计算的快速发展、数据科学的普及、人工智能的崛起。1.1.社会数字化社会数字化 消费者驱动和面向消费者的大数据是最重要的大数据应用,“永远在线”的消费者生产了大量的数据。据 2021 年 2 月中国互联网络信息中心(CNNIC)发布的 中国互联网络发展状况统计报告,中国有
13、 9.9 亿网民,平均每天的上网时间为 3.7 小时。网民与网民之间、网民与企业之间、网民与政府之间的每一次交互,每次点击、滑动或处理消息,都会在各大平台的数据库中创建新数据,巨大的人口基数创建出了巨量的数据。新冠肺炎疫情加速推动了从个体、企业到政府全方位的社会数字 中国大数据分析行业研究报告|5 化转型浪潮。疫情的隔离使个体更加倾向于使用互联网连接,用户上网意愿、上网习惯加速形成。网民个体利用流媒体平台和社交平台获取信息,借助网络购物、网上外卖解决日常生活所需,通过在线政务应用和健康码办事出行,不断共享互联网带来的数字红利。在企业方面,疫情的出现为企业数字化转型按下了“加速键”,在线办公、在
14、线交易等线上化运营方式为企业在特殊时期保持正常运转提供了支撑。在政府方面,政府的数字化应急能力和在线政务服务能力在疫情下不断“淬炼”,在线服务指数由全球第 34 位跃升至第 9 位,迈入全球领先行列。2 2、物联网、物联网 物联网(IoT)是指通过传感设备、按照标准通讯协议,把物品与互联网连接,实现智能化服务的网络。物联网大致诞生于 2008 年到 2009 年,互联网上连接的物的数量超过了人的数量时,物联网诞生了。工业、商业和公共设施领域很早就开始了物联网应用,智能汽车市场也开始爆发,一辆普通家用轿车上大约有近百个传感器,而且传感器数量还在不断增长之中,更有大量的智能设备开始走入家庭,家庭里
15、的 IP 地址数量急剧增长。据 Business Insider,IoT Analytics,Gartner,Intel,Statista 联合预测,2025 年全球将有309 亿设备接入物联网。这些物联网设备能够以更高的速率不知疲倦地生产数据,对这些设备的运营、监控以及安全保障,离不开大数据技术的支撑,反过来也推动了大数据技术的进步。3 3.技术成本技术成本快速快速下降下降 中国大数据分析行业研究报告|6 大数据相关的技术变得越来越便宜,数据存储和处理的成本不断下降,使小型企业甚至个人都能够参与大数据应用。摩尔定律在大数据领域适用,计算能力的性价比每两年翻番,存储密度以及容量也每两年翻一番。
16、相较于世纪之初的 2000 年,在造价相同的情况下,现在我们可以获得超过 1000 倍的计算性能和超过 1000 倍的存储容量。除了计算和存储成本的下降之外,影响大数据系统成本的另一个关键因素是开源大数据软件。与价格高昂的数据仓库时代相比,这些开源软件以及基于开源软件快速成长、扩散的技术服务能力,极大地降低了大数据项目的成本。4 4.云计算的云计算的快速发展快速发展 云计算以及云计算环境下大数据技术的成熟,使构建一套大数据系统从高投入、高风险的项目(需要大量专家长时间进行系统搭建),变为低门槛、快速启动的项目(基础软件可以在若干分钟之内搭建完成),而且能够随着业务的增长进行无缝的技术增长,只需
17、为实际使用的计算和存储资源付费。云计算大幅降低了大数据系统的技术门槛、时间成本和使用成本。5 5.数据科学的普及数据科学的普及 新世纪以来,数据科学和数据科学家这两个词变得非常流行。哈佛商业评论称数据科学家为“二十一世纪最性感的工作”。近年的职场上,对数据科学家和类似职位的需求急剧增加,许多人积极投身到数据科学领域。对数据科学的教育更加专业化,统计和数据分析专业,正在变为学生和工作人群中的热门专业。数据科学的普及为大数 中国大数据分析行业研究报告|7 据的发展贮备好了智力资源。6 6.人工智能的崛起人工智能的崛起 大数据发展的早期阶段,具有数据科学知识是进入大数据行业的基本门槛。进入 2020
18、 年代,随着人工智能带来的革命性变化,数据分析的技术门槛已经大大降低,大量未经数据科学训练的业务人员也可以方便地使用大数据系统了,实现了数据分析“平民化”的效果,大大促进了大数据技术的应用深度和广度。2.2 大数据产品分类 图表 2、大数据产品分类 大数据市场经过 20 多年的长足发展,形成了丰富的市场生态,从产品、服务供应端的视角大致可分为如下领域:大数据基础设施、存储Hadoop数据湖数据仓库湖仓一体流式/内存数据库关系型数据库NoSQL数据库NewSQL数据库实时数据库图数据库MPP数据库ETL/数据转换反向ETL数据集成数据治理/访问隐私/安全数据可观察性数据质量管理/监控无服务器集群
19、服务大数据基础设施商业智能平台数据可视化数据分析师平台增强分析数据目录与发现指标平台流批一体化日志分析查询引擎搜索大数据分析销售客户体验/服务企业市场营销消费市场营销人力资本法律合规财务自动化和RPA安全广告互联网房地产政府与情报电信金融投资金融借贷保险卫生健康生命科学交通农业工业教育大数据应用框架数据格式查询/数据流数据访问数据库编排基础设施数据运营流与消息统计工具和语言AI/机器学习 ML运营/基础设施搜索日志与监控可视化协同安全大数据开源项目数据市场和发现财经数据天空海数据人员/实体数据位置智能数据源和API数据服务孵化器与学校研究机构数据资源 中国大数据分析行业研究报告|8 大数据分析
20、、大数据应用、大数据开源项目、数据源和 API、数据资源。下面我们对各个领域择要讨论,并对数据分析相关部分着重展开。2.2.1 大数据基础设施 大数据技术的高速发展期开始于本世纪初,其前身是数据库技术。随着数据规模持续的高速增长,主流的技术覆盖范围从“数据”变成了“大数据”,其基础技术的演化大致有如下脉络:1、数据库 2、数据仓库 3、数据湖 4、湖仓一体 这些技术彼此之间并没有淘汰或取代的关系,他们各自有自己的定位和擅长的业务场景,共同构成了大数据时代的技术基础设施。数据仓库是个诞生于数据库时代的概念,早期服务于超大型企业的决策支持,并且也在不断地与时俱进,云上数据仓库服务获得了更多的大中小
21、型客户,是对结构化数据进行分析的大数据技术。数据湖源自于大数据时代开源技术体系的开放设计,经过云计算服务商的积极推广,在新兴公司中大量被采用。通常是由一系列云产品或开源组件共同构成大数据解决方案,可以处理一系列格式不同的结构化、半结构化、非结构化数据。数据仓库和数据湖是大数据架构的两种设计取向,两者在设计的根本分歧点是存储系统访问、权限管理、建模要求等方面的不同。中国大数据分析行业研究报告|9 数据湖和数据仓库作为大数据系统的两条不同演进路线,有各自特有的优势和局限性。数据湖对初创用户友好但成长性不佳,而数据仓库则刚好反之,对初创用户不友好但成长性较好。历史较长的用户一般都成长于数据库时代,数
22、据仓库(如果有建设需求的话)是当时唯一的选择。进入互联网时代,云上的半结构化、非结构化数据越来越多,也需要进行处理的时候,传统的数据仓库就遇到挑战。相当一部分新型企业(尤其是新兴的创业公司)从零开始架构的大数据技术栈,正是伴随开源大数据软件的流行,天然地选择了数据湖架构。随着业务的不断发展,数据湖架构的问题开始显现,它太过灵活而缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加、数据治理效率降低,企业落入了“数据沼泽”的境地,即数据湖中汇聚了太多的数据,反而很难高效率的提炼真正有价值的那部分。湖仓一体的架构应运而生,兼顾数据湖的灵活性和数据仓库的成长性/事务性。湖仓一体的实现路径有两种
23、。第一种,在数据仓库上支持数据湖,一般方案是在数仓中建外部表;第二种,在数据湖中支持数仓能力,一般方案是做一些开发,比如多版本并发控制、自适应schema、提供文件级事务等等。两种实现路径都需要解决一些共性问题,如数据打通问题、元数据一致性问题、湖和仓上不同引擎之间数据交叉引用的问题、湖仓开发工具缺乏问题等等。湖仓一体的架构是新一代大数据分析的基础设施。中国大数据分析行业研究报告|10 2.2.2 大数据分析 大数据分析领域有商业智能平台、可视化、数据分析师平台、增强分析、数据目录与发现、指标平台、流批一体、日志分析、查询引擎、搜索等细分领域。2.2.2.1 商业智能 商业智能(BI,Busi
24、ness Intelligence)是大数据分析最典型应用领域,指以大数据基础设施系统为基础,运用各种数据分析手段进行数据分析以实现商业价值,部分商业智能的输出结果会以可视化的方式展现。商业智能不是严格意义上的一种技术,它是数据库、数据仓库、数据湖、湖仓一体、ETL、OLAP、数据挖掘、机器学习和人工智能、资料展现等技术的综合运用,把它视为一套配合业务的流程和解决方案更为合适。商业智能的关键是从许多来自不同的数据源中提取出有用的资料并进行清理,以保证资料的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即 ETL 过程,合并到数据仓库里,从
25、而得到企业资料的一个全局视图,在此基础上利用合适的查询和分析工具、数据捕捞工具、OLAP 工具、机器学习和人工智能技术等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。人工智能在商业智能里开始扮演越来越重要的作用。中国大数据分析行业研究报告|11 2.2.2.2 数据可视化 数据可视化把抽象的数据以人类容易理解的形式进行展现,常见的展现形式包括:图形图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性和动画的显示。数据可视化可以大幅度提高人们对数据涵义的沟通效率。2.2.2.3 数据分析师平台 数据分析师通常来自业务领域(
26、相当一部分是商业智能系统的用户),通过洞察数据发现背后的业务趋势,数据分析师使用的最经典的工具可能是 Excel 电子表格,以图形化的方式操纵各种工具获得结果。数据分析师平台正是这种易于使用的图形界面平台,不要求用户具备编程能力,大大降低了数据分析师的人员技术门槛,使人们更多的精力投入到业务领域。数据分析师平台通常具备对各种格式的原始数据进行数据转换的能力,支持工作流,支持简单代码或无代码处理方式,可以直接输出结果进行展现,或者把处理结果输送到更复杂的工具中进行进一步处理和展现。2.2.2.4 增强分析 增强分析是指使用机器学习和人工智能等提升能力的技术来协助进行数据准备、洞察生成和洞察解释,
27、从而增强人们在分析和 BI 平台中探索和分析数据的能力。增强分析可以将内部数据与外部数据相结合,并自动执行重要且 中国大数据分析行业研究报告|12 耗时的任务,例如数据准备、可视化、预测和报告。使用机器学习的增强分析平台,可以使数据分析更智能、更准确。技术是自动化和增强的,可以更快、更智能地获得对所有数据可视化、企业报告、场景建模和移动分析的洞察力。增强分析中应用了人工智能技术,通常以机器学习(ML)和自然语言处理(NLP)的形式嵌入到分析中。它与传统的分析或商业智能(BI)工具有很大不同,因为机器学习技术始终在幕后工作,以不断学习和增强结果。增强分析可以更快地访问从大量结构化和非结构化数据中
28、获得的洞察,并提供基于机器学习的建议。这种智能有助于发现数据中隐藏的模式和偏差,消除人为偏见,并启用预测能力来告知组织下一步该做什么,引导用户发现他们原本无法看到或发现的洞察。增强分析的价值具体体现在如下三个方面:AI 使得大量的业务人员快速获得数据分析能力,不需要数据科学的专业知识,也不需要技术人员的支持,而且数据的使用也在统一的数据架构和安全架构之下,在大大降低了使用者的技术要求之后,业务人员更容易获得数据之下的业务洞见。AI 可以使用自然语言与人交互,并在交互中进一步学习,可以对数据洞察进行个性化处理。由自然语言处理(NLP)和自然语言生成(NLG)组成的自然语言界面(NLI),使用户可
29、以用简单的语言提出问题并以简单的语言得到答案。用户能够使用直观的探索工具更深入地了解他们的数据。在用户问题的指导下,系统会推荐可视化图表、仪表板和其他易于理解的指标,展现出令 中国大数据分析行业研究报告|13 人信服的数据。AI 可以自动地进行数据清理和准备,自动完成繁琐的数据准备工作,让 IT 工程师和业务分析人员能够更高效地从事他们的本职工作。人工智能(AI)是指计算机系统模仿人类的认知活动,能够“思考”和解决问题,并且不断学习进步。机器学习是人工智能的子集,利用数学模型和大量的数据来生成新的认知,不需要人类告诉它规则,它可以从数据中找出规则。机器学习是计算机的“智能”能够不断进步的根本原
30、因。机器学习与传统编程有极大的不同,在传统编程中,我们按照既定规则来编写代码,接收数据输入,然后产生正确输出。但对于许多认知智能领域的任务来说,制定规则是十分困难的。例如,区分是猫还是狗对人类而言是很轻松的任务,但描述其区分规则却相当困难,更不用说把它变成程序代码了。图表 3、传统编程与机器学习模型对比 而机器学习另辟蹊径,它从一些输入数据和正确的输出开始(“图 1、2、3 是猫,图 4、5、6 是狗”),以此为基础的机器学习算法会生成规则,包括人类不知道的规则,这些规则汇聚在一起称为计算机规则数据输出计算机输出数据规则传统编程机器学习 中国大数据分析行业研究报告|14 机器学习模型,经过足够
31、大数据量的训练之后,机器学习模型就能够有效地反映现实世界中的规则了(可以有效地区分猫和狗了)。换句话说,机器学习通过一组自定义的学习规则分析复杂的数据集来增强模型。机器学习模型从大数据和重复的人类交互中学习,直到它可以输出足够好的结果。随着数据的极大丰富、算法的不断进步和机器算力的大幅提升,人工智能在部分智能领域近年已经达到或超过了人类的能力,到达了“可以用了”的水平。机器学习可以从数据中构建出规则,这正是历史悠久的数据分析工作梦寐以求的目标。人工智能与机器学习在大数据分析领域中开始扮演越来越重要的角色,也代表着未来,它在商业智能和增强分析中已经成为不可或缺的部分。2.2.2.5 数据目录与发
32、现 数据目录是关于数据资产的一个有序清单,它使用元数据来帮助组织管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。数据目录之于数据,正如图书目录之于图书。它可以提供一个整体视图,提供所有数据的深度可见性,而不仅仅是一次只查看某一项数据。与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑 中国大数据分析行业研究报告|15 战。不仅要了解当前所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免
33、数据因太难使用而毫无用处。数据目录可以使用元数据来实现比传统数据管理更丰富、更强大的功能。2.2.2.6 流批一体 流批一体是指将流式计算与批量计算两种不同架构的数据处理模式融合到一起。流式计算与批量计算模式的选择,是由用户使用场景决定的。流式计算适合于有实时或准实时需求的场景,将数据流连续地送入分析工具并快速地得到分析结果,如欺诈实时检测、社交媒体情感分析、安全日志监控、客户行为分析、实时推荐等;而批量计算则适合于非实时的场景,将一段时间内产生的大块数据一起送入分析工具,经过较长运行时间得到结果,如工资单计算、计费、客户订单、清算对账、指标分析、离线报表等。下表对比了两种计算模式的不同:特性
34、 批量计算 流式计算 数据时间范围 有界数据集,数据在某个时间范围内起始和结束 无界数据集,一直有持续不断新产生的数据 任务执行 分批执行、有终止 持续执行、无终止 处理延迟 小时级、天级 秒级、分钟级 中国大数据分析行业研究报告|16 数据场景 数据量超大数据、无法以流的形式交付 数据以流的形式交付 业务场景 工资单计算、计费、客户订单、清算对账、指标分析、离线报表 欺诈实时检测、社交媒体情感分析、安全日志监控、客户行为分析、实时推荐 关注点 可扩展性、大吞吐量、容错 可扩展性、低延迟、容错、消息一致性、消息持久性 图表 4、批量计算与流式计算对比 对于用户而言,只要数据量达到一定规模,对流
35、式计算和批量计算就会产生业务需求,两种模式需要同时存在,随之而来的是一系列问题:重复的资源,存储和计算都要双份,系统的成本高。两套系统,组件不同,需要技能不同的人员维护,人员的成本高。两套开发体系无法统一,表结构不同,开发环境不同。缺乏数据一致性,对于相同的指标,两种模式算出来的结果不一样,虽然最前端输入都来自同一份源数据。为了解决以上问题,流批一体成为新热点,目标是建立起一套统一的架构,可以同时支持流式计算和批量计算,对混合的有界数据和无界数据能够统一进行支持,提供更一致的、更广泛的编程环境,以较少资源浪费,降低维护成本,获得更好的数据一致性。目前,流批 中国大数据分析行业研究报告|17 一
36、体的产品和服务正在快速发展和完善之中。2.2.2.7 指标平台 这里的指标(Metrics)是指业务上或技术上关注的量化信息,例如销售部门关注的销售额完成率、人事部门关注的员工离职率、管理人员被考核的 KPI(关键绩效指标)等等,指标是企业管理中核心的、重要的数据资产。下图清楚地展现了当今的指标报告所存在的问题,如果没有集中的指标平台,指标逻辑将在不同的工具中重复定义,导致指标不一致。图表 5、指标平台架构(来源:Benn Stancil)一位数据工程师描述了缺少统一指标平台的痛苦:“每两天都需要手动创建新表,但无法判断是否已经存在类似的表。我们数据仓库的复杂性不断增加,数据的来源和变换过程变
37、得无法追踪。当上游发现并修复数据问题时,无法保证修复会传播到所有下游作业。结果是,数据科学家和工程师花费了大量时间来修复数据差异,到处灭火,还非常郁闷。”中国大数据分析行业研究报告|18 指标平台是上游数据源和下游业务应用程序之间的中间层,它被称为指标平台(Metrics Platform)、无头商业智能(Headless BI)、指标层(Metrics Layer)或指标存储(Metrics Store),都是指同一个东西。与传统的 BI 报告不同,指标平台将指标定义与 BI 报告和可视化分离。拥有指标的团队可以在指标平台中定义他们的指标,形成单一的事实来源,并能够在 BI、自动化工具、业务
38、工作流以及高级分析中一致地重用这些指标。2.2.2.8 日志分析 日志分析主要服务于 IT 运维。IT 运维是一项庞杂的系统工程,包括网站的运维、系统的运维、网络的运维、数据库的运维、应用系统的运维、桌面端的运维,以及运维开发、运维安全。运维工作需要借助监控软件,但由于系统庞杂和需求众多,没有任何一款监控软件能够覆盖所有的运维需求,现在大量的运维团队需要通过日志来进行运维管理。日志的类型很多,主要包括系统日志、应用程序日志、网络设备日志、数据库日志、安全日志等等。每条日志都记载着时间戳、相关设备名称、系统名称、应用名称、使用者及操作行为等相关的描述,系统运维和开发人员可以通过日志了解软硬件信息
39、、检查配置过程中的错误及错误发生的原因。随着设备、系统、应用、用户数量的增多,设备 7x24 地持续运行,很快就会产生海量的日志数据,一套基于大数据和人工智能技术 中国大数据分析行业研究报告|19 的智能运维体系成为必需。鉴于 IT 运维市场有着庞大的体量,代表着 IT 运维未来的智能运维市场将会有巨大的增长空间。2.2.3 大数据应用 大数据应用,是建立在大数据基础设施之上,综合运用大数据分析和人工智能工具,结合应用场景和垂直行业需求的应用实践。经过20 多年的发展,大数据应用已经深入社会的各个领域,水平场景应用涉及的领域有:销售、客户体验/服务、企业市场营销、消费市场营销、人力资本、法律、
40、合规、财务、自动化和机器人流程自动化 RPA、安全、广告等,垂直行业应用涉及的领域有:互联网(电商、社交、生活服务等)、金融(借贷、投资、保险等)、电信、政府、卫生健康、工业、交通、教育、房地产、商务、生命科学、农业等。大数据应用的真正落地,需要结合每个特定用户的特定需求,不是简单的产品堆砌,要做好与用户既有应用环境的结合,并建立新的业务流程。下表举例说明典型的垂直行业大数据应用:行业 行业挑战 大数据应用 大数据应用价值 互联网 业务场景复杂,数据来源多;业务快速变化,时效性要求高;数据量巨大但数据价值低。用户行为分析、转化分析、留存分析、活跃分析、渠道分析、个性化推荐、精准营销、广告投放
41、提升客户满意度、快速获客/留客、提升收入、指导产品开发/迭代 中国大数据分析行业研究报告|20 金融 证券 资金成本高,惠普信贷竞争激烈,信用卡欺诈,证券欺诈,超高频交易。风险分析,隐私计算,交易前决策支持分析,情绪测量,预测分析,交易数据分析 高度依赖大数据进行风险分析,包括反洗钱,企业风险管理,了解客户和减少欺诈 政府 政府数据资产的整合、管理和开放,政府部门及附属机构之间数据的互联互通。行程大数据辅助防疫,气象大数据服务于救灾,工商企业大数据检测企业异常等 数据多跑路群众少跑腿,更高效的社会化服务,更卓越的营商环境 图表 6、典型的大数据行业应用 2.2.4 大数据开源项目 大数据技术门
42、槛和项目成本的快速下降,开源大数据项目功不可没。至今,这些开源项目也依然是引领大数据技术发展和创新的重要策源地。领域 开源项目 框架 Hadoop HDFS,Spark,Hadoop MapReduce,Flink,YARN,TEZ,Kubernetes,Apache Kylin,MESOS,Docker,CDAP,RedHat,HELIX 数据格式 ICEBERG,Parquet,Apache Hudi,ORC,Arrow,DELTA LAKE 查询/数据流 Spark SQL,Pig,Hive,Presto,Apache DRILL,SLAMDATA,GraphQL,Trino,Googl
43、e Cloud Dataflow,HAWQ,Apache Trafodion 中国大数据分析行业研究报告|21 数据访问 Uber Databook,Aundsen,Magda,Ckan 数据库 PostgreSQL,MySQL,MongoDB,GreenPlum,Redis,CockroachDB,MariaDB,Influxdb,Presto,Druid,Cassandra,Airbnb Dataportal,SciDB,DataHub,Apache Flume,Cloud Spanner,CouchDB,Riak,OpenTSDB,Apache Accumulo,ClickHouse,P
44、inot,EdgeDB,Apache HBase 编排 Apache Airflow,Prefect,Dagster,Flyte,MetaFlow,Kedro,Spotify Luigi 基础设施 Apache Zookeeper,Apache Ambari,Apache MESOS,Argo 数据运营 MARQUEZ,Great Expectations,Open Lineage,LakeFS,Project Nessie 流与消息 Spark Streaming,Kafka,beam Pulsar,Flink,Storm,Apex,Apache NiFi,Apache RocketMQ,S
45、amza 统计工具 和语言 Python,R,Scala,NumPy,Pandas,SciPy,RStudio,Pyro,Julia,Tidyverse AI/机器学习 TensorFlow,Torch,Transformers,OpenCV,Apache MADlib,Scikit-learn,Keras,BERT,XGBoost,Caffe,Microsoft Cognitive Toolkit,DMTK,OpenAI,PyTorch Lightning,Theano,PaddlePaddle,Apache Singa,DIMSUM,FeatureFU,VELES,Mxnet,Neon,C
46、hainer,Uber Michelangelo,ONNX,WEKA,Ludwig,CoreNLP,DSSTNE,MLlib,DL4J,Mahout,Aerosolve,fast.ai,MLR,OpenML,MindsDB,spaCy,Kubeflow,AllenNLP,CatBoost 机器学习运营/基础设施 Pachyderm,MLflow,Kubeflow,mleap,DVC,Seldon,Snorkel,Polyaxon,BentoML,MediaPipe 搜索 ElasticSearch,Apache Solr,Apache Lucene,Sphinx,Sonic,MeiliSear
47、ch,Toshi Search,Tantivy,Typesense 日志与监控 ElasticSearch,Logstash,Kibana,Sentry,Prometheus,Fluentbit,Fluentd,Grafana,Vector,Open Telemetry 中国大数据分析行业研究报告|22 可视化 D3,Superset,matplotlib,Metabase,Redash,TensorBoard,Seaborn,Bokeh,ggplot2 协同 Beake,Jupyter,Zeppelin,Anaconda 安全 Apache Ranger,Knox,Sentry,Apache
48、 Accumulo,Snyk 图表 7、开源大数据项目 2.2.5 数据源和数据资源 数据是新时代重要的生产要素,是大数据应用的基础,数据与应用的相互促进推动了大数据产业更快地发展。多维度的数据接入是大数据应用提升效能的根本保证,而应用的丰富则能更快地提升数据的获取和积累。在增强分析中,实现数据的自动补充和技术准备,维度丰富的数据接入是基础,包括公开领域的媒体信息、社交动态、气象数据、财经数据、统计信息等等,以及需要协议接口的企业信息、人员信息、财税信息、金融信息、信用信息、地图数据、地理信息、天空海洋数据、环境数据等等。据工业与信息化部 2021 年 11 月发布的“十四五”大数据产业发展规
49、划,我国的数据资源极大丰富,总量位居全球前列。这其中,政府拥有大量高质量的数据,这些数据资产的整合和安全地开放,是正在持续开展的重要工作。2.3 大数据分析的价值 大数据分析是大数据产业的重要组成部分,核心的价值就是从海 中国大数据分析行业研究报告|23 量的数据中找出隐藏的模式、相关性和其他规律,为业务决策提供依据。在企业界常见的大数据分析的价值场景包括:客户获取和保留客户获取和保留 从维度丰富的消费者数据,可以分析出当前消费者的各种不同类型、个性化的特征以及各自的业务潜力,能够更好地理解不同客户的不同需求,使得企业可以制定有针对性的措施获取新客户,以及提升老客户的满意度。精准营销精准营销提
50、升营业额提升营业额 从消费者的购物订单、产品浏览历史、页面停留时间等信息,大数据分析可以描绘出不同的用户画像,进而向消费者推送精准的广告信息,与传统的非精准广告相比,精准广告能够大幅提高成交率。产品开发产品开发 大数据分析可以提供洞察力,指导产品可行性、开发决策、进度评估。大数据分析能力让产品迭代形成闭环,通过不断地对产品指标进行测量和分析,使产品团队能够知道:新功能是否值得做,用户是否喜欢这些功能、新功能是不是反而给用户添乱。供应链和渠道分析供应链和渠道分析 预测分析模型可以帮助进行抢先补货、构建智能的供应商网络、库存管理、路线优化和潜在交货延迟通知等等。风险管理风险管理 大数据分析可以从数