中国数智融合发展洞察.pdf

资源描述

2022.7 iResearch Inc.中国数智融合发展洞察22022.7 iResearch I摘要来源：艾瑞咨询研究院自主研究及绘制。VUCA时代，市场变化加速。企业需要更加敏捷而准确的数智化决策，这些决策应当是分钟级的而非天级的，应当是基于全量数据的而非局部数据的，应当是基于准确数据的而非基于“脏数据”的，应当是业务人员和数据分析人员任意发起的而非是通过复杂流程和多部门配合才能实现的。传统的数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难：数据孤岛存在，决策无法基于全量数据；数据来回流转，成本高、周期长、时效差。基于存储-缓存-计算分离，湖-仓-AI数据统一元数据管理的Serverless，可在数据量、成本、效率、敏捷方面取得最优解。开源为数智生态贡献重要力量，但这不预示所有企业需通过开源产品自建数智平台。实际上，大多企业聚焦自己核心业务，选择性能稳定、无须运维、数智融合、端到端自动化与智能化的商业化数智平台，ROI会更高。当然，平台应与主流开源产品具有良好继承性，如此，更加灵活开放，企业的IT人才补给成本也更低。qRtQqQpQtNpMwPtOrRtPnObR8Q8OoMoOsQtReRmMtMiNmNpM8OsQoMxNsQqMxNnQyQ3中国数智融合发展背景1企业数智融合的痛点及应对2数智融合典型实践342022.7 iResearch I2022.7 iResearch I数据量和非结构化数据占比上升统一管理，统一查询使用，成为新的挑战全球数据量以59%以上的年增长率快速增长，其中80%是非结构化和半结构化数据，中国数据量的上升较全球更为迅速。数据量和非结构化数据的上升，使得基于对象存储的数据湖越来越为普及。此时，如何使用统一管理，统一查询使用，成为新的挑战。来源：中国电信招股说明书，艾瑞咨询研究院整理及绘制。来源：艾瑞咨询研究院自主研究及绘制。2015-2030年中国数据量规模及全球占比企业内结构化数据与非结构化数据占比及使用情况在企业的数据中，结构化数据仅占20%，其余80%都是以文件、语音、图片等形式存在的非结构化数据。且非结构化数据的增速远远高于结构化数据，随着时间的推移,非结构化数据所占的比例将会越来越高。企业长期以来，受技术影响，对结构化数据的利用率均高于对非结构化数据的利用率。但实际上，非结构化数据的体量与其包含的信息量都更多，是企业未得到充分利用的宝贵资产。结构化数据,70%非结构化数据,30%3124917523.2%23.6%27.8%28.8%201520202025e2030e中国年数据量（ZB）中国年数据量全球占比（%）非结构化数据,80%结构化数据,20%52022.7 iResearch I2022.7 iResearch I数据多源异构成为常态数据从“汇聚才可被用”到“链接即可被用”在传统数仓中，多源数据经ETL过程并集中入仓，方可被使用。该方式有许多不足：第一，因有复杂的ETL过程及大量数据的传输，数据实时性难以保障，因此分析常必须T+1才可完成；第二，数据的全量存储和存储成本之间难以取舍，因此必须提前抉择保留哪些数据，随着数据种类的逐渐增多，这很难做到；第三，对于异常值的下钻、回溯等，无法回溯到最为原始的数据。随着应用场景的增多，数据库的种类也逐渐丰富，如更适应物联网场景的时序数据库、更适应知识谱图应用的图数据库，等等。综上，多源异构、分布存储、现用现传、统一查询与应用的架构，逐渐被敏捷型企业认可。来源：艾瑞咨询研究院自主研究及绘制。来源：艾瑞咨询研究院自主研究及绘制。数据仓库vs数据湖vs湖仓一体数据库的多源性BI报表结构化/半结构化数据ETL数据仓库结构化/半结构化/非结构化数据数据处理BI报表数据湖数仓集群数湖集群统一资源池计算层存储层计算层存储层存算分离，弹性扩展接口BI报表数据仓库vs湖仓一体数据湖vs湖仓一体“湖仓一体”作为数据处理统一底座，提供实时处理多引擎、多数据类型能力，避免数据移动建模，降低数据处理的成本。“湖仓一体”弥补Hadoop下数据湖实时数据处理的缺失，降低事后数据治理难度，提升了大数据应用性能。公有云1公有云2私有云虚拟机物理机OracleDB2达梦开源OpenGaussMySQLPostgreSQLReids关系型非关系型部署资源管理监控巡检性能容量高可用安全性一站式数据库管理62022.7 iResearch I大数据的5V价值有待进一步释放可从平台性工具入手，进而解决思维和技能的问题来源：艾瑞咨询研究院根据公开资料整理。大数据5V特性大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业，提供全链条技术、工具和平台，孕育数据要素市场主体，深度参与数据要素全生命周期活动，是激活数据要素潜能的关键支撑，是数据要素市场培育的重要内容。目前，大数据产业仍存在数据壁垒突出、碎片化问题严重等瓶颈约束，大数据容量大、类型多、速度快、精度准、价值高的5V特性未能得到充分释放。这其中既有思维、技能的要素，又有工具的要素，三者也并非割裂存在，一般来说，性能稳定、简单易用的全链条平台工具有助于消除思维的“不敢”和技能的“不会”，化解掉5V特性释放的原始阻力，使得大数据更加普适化。大数据5V特征数量（Volume）l TB级l 记录/日志l 事务l 表&文件种类（Variety）速度（Velocity）l 批处理l 实时l 多进程l 数据流价值（Value)l 统计学l 事件性l 相关性l 假设性l 结构化l 非结构化l 多因素l 概率性真实性（Veracity）l 可信性l 真伪性l 来源&信誉l 有效性l 可审计性72022.7 iResearch I2022.7 iResearch I云原生：从微服务走向Serverless从PaaS到FaaS，基础设施被更深层次地托管和“屏蔽”当前，微服务的生态和实践已经比较成熟，其设计方法、开发框架、CI/CD工具、基础设施管理工具等，都可以帮助企业顺利实施，然而其仍有许多不足：（1）粒度仍然比较大。（2）开发仍有较高门槛。（3）微服务基础设施管理、高可用和弹性仍然很难保证。（4）基础设施的成本依然较高。而Serverless中，开发者不再需要将时间和资源花费在服务器调配、维护、更新、扩展和容量规划上，这些任务都由平台处理，开发者只需要专注于编写应用程序的业务逻辑。如果再结合低零代码，则“编写应用程序”的难度也大为降低，企业内的技术人员更加贴近业务。来源：华为serverless核心技术与实践，艾瑞咨询研究院整理及绘制。来源：华为serverless核心技术与实践，艾瑞咨询研究院整理及绘制。微服务中，大量运维仍未被托管微服务开发/DevOpsKubernetes集群DevOps虚拟机基础设施运维团队计算，存储，网络云供应商典型的serverless架构HTTP请求API网关消息列队定时器IoT触发器事件FaaS控制器事件异步/同步函数实例容器FaaS平台def handler(event,context)函数编程模型event context云存储消息队列消息队列身份认证API网关.BaaS平台82022.7 iResearch I人工智能：需要大规模准确数据哺育人工智能应用引发数据治理需求企业在部署AI应用时，数据资源的优劣极大程度决定了AI应用的落地效果。因此，为推进AI应用的高质量落地，开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系，目前多停留在对于结构性数据的治理优化，在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质效落地，企业仍需进行面向人工智能应用的二次数据治理工作。来源：艾瑞咨询研究院自主研究及绘制。AI应用对数据治理需求AI应用的数据要求数据治理的需求传导基于AI应用的数据治理需求数据规模挖掘企业内外部信息，纳入结构化数据、半结构化数据和非结构化数据，提升与AI模型相关的数据积累。数据训练规模扩张，数据类型异构，数据噪声指数级增加，对此建立针对性的数据治理体系特征工程AI模型需纳入实时数据，构建批流一体的数据聚合计算模式传统数据治理多以人为面向对象，基于有限数据容量进行聚合类信息展示，AI可接纳数据量远远大于人所接纳的数据量和信息量，且可用高质量数据越多，模型质量和准确性越好。AI应用，尤其是知识图谱搭建，需要大量半结构化和非结构化数据支持来开展工作。因此AI应用在结构化数据基础上，将半结构化或非结构化数据纳入数据源并支持上层分析应用。AI模型对数据高度敏感，其质量优劣极大程度影响AI模型的应用效果，因此AI数据源需极力规避“garbage in，garbage out”的问题发生，多维度的质量检查成为必修课。AI模型对实时性要求高，大部分应用需基于实时数据实现分析、推荐和预警等目的，支持AI应用的数据源更强调具备实时性接入能力。接入实时性数据多个数据源下的数据内容不一致等问题；缺失值、缺失字段；错误值、异常样本；数据融合&质量优化融合结构化数据、半结构化数据和非结构化数据，进行以AI应用为目的特征工程接入多源异构数据源数据类型数据质量数据实时性92022.7 iResearch I业务敏捷需要IT架构“去过程化”通过抽象解耦、水平扩展、自动化与智能化实现去过程化VUCA时代，市场变化加速，通过数据来分析和决策的需求，也有了更高的不确定性。当这些需求提出，通过一套复杂的IT流程和漫长的等待，变得不再现实，IT架构的去过程化变得极为重要。去过程化是指减少或完全去掉原始数据/原子能力与业务需求之间的中间数据/步骤，或使中间数据/步骤无须人为干预，自动化、智能化完成。其可实现架构的简单化、扁平化，同时可对业务需求实时响应，以进一步实现敏捷和创新。架构一开始就放弃“精细梳理方可使用”以及“梳理完成千万别动”思想，用全量原始数据保障读时模式，有助于打破“僵”与“乱”的悖论，使得企业用更少的“能量”便可以维持数字化系统的持续运行。来源：艾瑞咨询研究院自主研究及绘制。敏捷的展现交互层/应用层去过程化四大支撑原始非结构化数据结构化数据处理原子能力数据模型低/无代码应用人用数/产数物联网应用设备用数/产数敏捷BI人看数/用数智能的计算层/处理层统一的数据层/存储层-低代码/无代码敏捷BIGraphQL/JsonAPI-统一查询语言统一接口统一角色与权限-微服务泛化模型智能决策-冷热温数据分层RDMA存算分离-对象存储/数据湖数据仓库湖仓一体-抽象与解耦将IT架构抽象成存储、处理、应用三层，处理层又拆分成原子能力和数据模型，当不确定的需求来临，现将数据、能力、展现与应用形式进行组合进行处理。稳定且可水平扩展的基础设施应用的敏来自于基础的稳，上层的简来自于底层的繁，基础设施稳定性更加重要。高性能计算与网络存算分离和读时模式往往存在更多的重复数据传输与计算，对网络和计算要求更高。自动化与智能化通过智能化完成基础性能优化，降低硬件压力或硬件成本；通过智能化完成部分过程的自动化，从而屏蔽“人”视角下的该过程。去过程化分层示例相关标签1012数智融合典型实践3企业数智融合的痛点及应对中国数智融合发展背景112022.7 iResearch I痛点一：数据量-成本-效率难以兼得不可能三角需要更高维的技术去打破在传统架构中，数据量、存储成本和计算效率是一组不可能三角。如果不考虑数据量和数据类型，那么一个传统的数仓或者单体的DBMS即可满足；不考虑计算效率，那么基于HDFS或者公有云对象存储即可满足，当下价格仅约0.1元/G/月，并持续下降，归档存储等价格更低；不考虑存储成本，可使用非易失性存储，其拥有一般硬盘的无限容量和断电保护特性，却有接近于内存的性能。来源：艾瑞咨询研究院自主研究及绘制。传统架构下数据量、存储成本和计算效率的不可能三角存储成本数据量对象存储计算效率数仓SCM？122022.7 iResearch I2022.7 iResearch I应对一：存储-缓存-计算三层分离以内存为中心的架构，在大数据量下降低成本、保持性能为了使数据充分共享，降低均摊成本且打破数据孤岛，存算分离架构产生，存储和计算各自弹性伸缩，按需使用。但此时，因存储拉远，IO成为瓶颈，性能有所下降，因此需要缓存层来存储高IO的热数据，并最终形成以内存为中心的架构。从必要性看，以计算为中心架构已经无法适应当前数据生态发展：数据方面，大数据、人工智能等以数据为中心的工作负载快速发展；云方面，数据湖存算分离架构存储访问性能低，不支持实时分析。从可行性看，介质、网络、协议的高速发展驱动架构转型：SCM填补了内存纵向扩展的介质空白；缓存一致性标准的争夺进入白热化；高速内存直连协议及技术（如华为1520，InfiniBand，Converged Ethernet）使得内存的远程直接访问不再是障碍。来源：艾瑞咨询研究院自主研究及绘制。来源：艾瑞咨询研究院自主研究及绘制。以内存为中心的系统架构示意图以内存为中心的架构技术优势计算（内存中心架构）CPUCPUCPU存储池磁盘磁盘缓存缓存缓存内存内存RDMA，加载/存储内存核心价值与技术优势性能：内存密集型和分布式应用减少数据搬运/拷贝、提升性能l HPE以内存为中心系统提升Spark性能15倍l HPE分布式图计算场景性能提升128倍l MemVerge分级大内存提升深度学习性能20倍成本：内存池化和升级l 内存池化提升内存资源利用率l 通过更低成本的SCM获得大容量内存扩展能力故障解耦合：CPU和内存的故障不相互影响弹性增强：CPU和内存可独立扩缩容132022.7 iResearch I2022.7 iResearch I痛点二：仓-湖-AI数据形成新孤岛要么隔离，要么迁移，均无法适应全量、敏捷、低成本需求数据分析和AI分析经过多年的发展，出现了很多面向不同任务的专用数据系统：数仓系统处理结构化数据，规模不够大；基于对象存储的大数据系统处理海量数据和非结构化数据；AI系统一般是数据存储在本地。这些专用系统要么无法打通，形成新的数据孤岛，要么不同业务的开发要迁移数据，耗费存储和网络资源，数据准备慢、等待周期长，且面临后期数据不一致的风险，发现异常时数据的下钻、溯源等也相对困难，无法适应市场环境快速变化下敏捷数据分析的需求。来源：艾瑞咨询研究院自主研究及绘制。来源：艾瑞咨询研究院自主研究及绘制。数仓、数据湖和AI数据形成新的数据孤岛数仓数据湖AI数据隔离数仓数据湖AI数据网络成本时间成本数据迁移导致副本增多、资源浪费、管理困难142022.7 iResearch I应对二：统一元数据到中心节点Master-Slave架构，以集中管理代替集中存储把数仓、数据湖、AI数据的目录、数据权限、事务一致性、多版本管理等能力都统一到一个中心点，依赖于这个中心点来访问数据，这样数据的利用就不会被孤立的系统束缚。这种分布式存储，统一管理的Master-Slave架构，类似于计算领域的Mapreduce。这种方式：首先，可以打破数据孤岛、让一份数据在多个引擎间自由共享，例如同一个表格可以被不同的分析工具做分析，既可以跑数仓任务，也可以做大数据和机器学习任务，不同的用户角色不管用什么工具访问数据，都有一致的权限，一致的事务控制；其次，可以避免数据来回迁移而造成资源的浪费；再次，任何环节都可以看到自己权限下的全量数据，例如ML工程师可以利用整个数据湖的数据做特征训练；最后，所有模型均基于唯一事实来源（原始数据），避免不同团队基于不同数据分析造成结果不一致，且一旦发现异常可以便捷地下钻、回溯。来源：艾瑞咨询研究院自主研究及绘制。基于数据库的数仓关系型非关系型图型时序型数据湖基于Hadoop HDFS的基于公有云对象存储的Master节点：统一元数据(目录/数据权限/事务一致性/多版本管理）AI数据大数据任务机器学习任务其他应用和任务统一元数据示意图152022.7 iResearch I痛点三：开源产品丰富，但开发运维难开发成本高，运维成本高，技术与时俱进难，风险大尽管在云、数、智体系下，开源产品极为丰富，但企业安全、稳定地驾驭，TCO并不低。在开发上，企业一般需花费20-1000人力年的时间，不能满足业务敏捷性；在运维上，人工运维，事后补救，宕机频繁，耗时耗力；在技术更新上，开发人员难以与时俱进，资源浪费严重；在IT风险上，企业将面对IT团队自身的风险（复杂架构下，团队离职无人接手）以及开源产品的漏洞风险（如log4j4漏洞事件），还可能面对因经验不足选型错误的风险；在体验上，因产品自产自用，复用率低，技术团队一般只保障基础需求，对于降低业务人员使用难度、提升使用体验的附加性需求响应度低。并且，这些基础的开发、运维等，与企业核心业务常无必然联系，并不会带来企业核心竞争力的提升，导致企业数智化的ROI较低。来源：艾瑞咨询研究院自主研究及绘制。企业利用开源产品自行搭建数智平台面临的困难开发运维技术更新IT风险体验花费20-1000人力年时间，不能满足业务敏捷性人工运维事后补救宕机频繁耗时耗力开发人员难以与时俱进，资源浪费严重IT团队自身风险；开源产品漏洞风险；经验不足选型错误风险产品复用率低；只保障基础需求，附加性需求响应度低162022.7 iResearch I应对三：DataOps和MLOps融合享受成熟产品的红利，兼顾与开源产品的继承和包容性企业在数智化选型中，应首先明确自身的核心竞争力和能力边界，摒弃“重即好”思想，以更加轻盈的Serverless、Lowcode/Nocode、SaaS等方式享受社会分工和先进技术的红利。以数智融合为例，抛开IaaS层，企业自研还需掌握Kubernetes+Docker生态、Java+Hadoop生态、Python+Pytorch/Tensorflow生态、SQL生态即便成功对接，往往也离好用、敏捷相去甚远，最终往往只形成指标长期不变的静态报表。而与此同时，业界已存在较为领先的一站式数智平台，让数据工程师甚至业务人员以简单、熟悉的工具/语言，甚至拖拉拽即可在全域数据内使用预置AI算法，打通大数据和人工智能，使得DataOps和MLOps融合，使数据和模型的开发成本大为降低，周期大为缩短。企业选择基于开源产品自研，不少时候是出于一种怕被“绑架”的防御心态，以化解供应商倒闭或涨价等风险。为此，企业可从供应商综合实力，与开源产品的包容度和继承性等方面综合考虑，做到可组可分，灵活装配。来源：艾瑞咨询研究院自主研究及绘制。将大数据和人工智能打通的DataOps和MLOps简单、易用、全局能力调用ServerlessLowcodeNocodeSaaS灵活装配产品与开源产品包容度产品与开源产品继承性供应商综合实力实现可组可分，抵抗供应商倒闭或涨价等风险172022.7 iResearch I痛点四：数据准备工作复杂低效数据长生命周期决定了其复杂性数据质量至关重要，错误数据致使企业做出错误决策。数据的生成、采集、存储、加工、分析、服务、安全、应用长生命周期，使得数据的准备工作复杂、低效。例如，数据工程师开发大量的ETL任务，依赖大量算力资源，运行成本高，作业管理复杂，时间周期长，而此时数据分析师和AI开发者都需要等待ETL任务执行完，才能做相应的分析工作和建模工作。Cognilytica调研显示，机器学习中，超过80%的时间都用于数据的准备，预示着大量的数据工作其实与企业的经营目标并不相关，只是不得以而为之。并且，当任务不能便捷地执行和即时的反馈，偏业务侧的数据分析师常主动放弃“不太重要的”需求和对数据的深入探索。显然，这些都不符合企业数智化转型的真正目标。来源：Data-preparation-labeling-for-ai-2020,Cognilytica.机器学习中数据准备工作的时间分配数据清洗,25%数据标签,25%数据增强,15%模型训练,10%数据集,10%模型调优,5%数据识别,5%算法优化,3%模型运行,2%182022.7 iResearch I应对四：端到端的自动化与智能化低零代码实现自动化，AI反哺数据实现智能化实现数据应用的敏捷化和去过程化，需要在整个数据链条的端到端实现自动化和智能化。自动化一般用低/零代码实现：一方面可以屏蔽软硬件差异和复杂的底层技术，以便于理解的拖拉拽和少量代码，来降低使用门槛；另一方面，可以基于规则，配置自动化的工作流，以ifttt的方式减少重复工作量。智能化是指基于半监督或无监督的学习，自动发现数据管理中的规则，在Data4AI的同时，实现AI4Data，目前人工智能已经用于数据集成、数据质量、数据建模、数据安全与访问控制、数据关联、数据洞察等多个场景中。另外，低/零代码常和人工智能结合使用：将人工智能的统计意义上的规则，融入到低/零代码的逻辑化的流程中。来源：艾瑞咨询研究院自主研究及绘制。人工智能在数据管理中的应用（AI4Data）人工智能帮助企业识别主数据。人工智能帮助定义和维护数据匹配规则。主数据管理隐私级自动标注。数据传输监控。数据安全基于机器学习，确定数据阈值。对完整性、规范性、一致性、准确性、唯一性、时效性进行检查。脏数据自动识别订正。数据质量检查人工智能实现对非结构化数据的采集和关键信息的提取。人工智能帮助维护元数据。人工智能帮助实现元数据的整合。元数据管理利用聚类和知识图谱确定实体间关系。利用知识图谱等进行数据血缘分析。数据模型管理19123中国数智融合发展背景企业数智融合的痛点及应对数智融合典型实践202022.7 iResearch I2022.7 iResearch I华为云DataArts+ModelArts独家创新架构：兼顾成本与性能，实现统一管理、一数多用，数智融合实现敏捷用数，全流程实现自动化与智能化华为云通过DataArts和ModelArts融合架构，打通了大数据和人工智能。统一了元数据，使得一数多用，打破数据孤岛，同时避免数据来回迁移。存储-缓存-内存三层分离，兼顾存储成本和计算性能。DataQps和MLOps结合，让企业不同部门、不同角色可以以擅长的方式敏捷用数。低零代码和人工智能反哺数据（AI4Data）,使得全流程实现自动化与智能化。来源：华为云，艾瑞咨询研究院整理及绘制来源：华为云，艾瑞咨询研究院整理及绘制华为云数智融合平台创新架构华为云数智融合平台核心价值核心痛点核心价值数据持有成本高，业务响应不及时数据系统不互通，数据孤岛现象严重数据使用仍有门槛高、碎片化等技术瓶颈约束统一元数据，架构简单，一数多用数据治理难度大、耗时长，最终效果不佳DataOps和MLOps融合，不同角色各用所长，各取所需全流程的自动化和智能化，让繁重的数据治理变得简单三层分离，兼顾成本与性能表格OBS数据湖存储数据集模型DataArts LakeFormation数仓、数据湖、AI的元数据统一管理统一目录统一权限统一事务统一索引DataArts生产线ModelArts生产线数据集成数据架构数据开发数据质量数据目录数据服务数据安全MRSHadoop生态数据分析DLIServerless数据分析DWS数据仓库数据标注数据处理模型训练模型评估应用生成应用评估推理部署服务检测数据校验特征计算模型训练（MA内置算法）模型编译SQL中嵌入训练，入库触发AI生产线SQL中嵌入推理，提供预测型分析212022.7 iResearch I2022.7 iResearch I华为云DataArts+ModelArts软硬融合，行业实践经验和开源生态结合另外，华为云在软硬融合、行业实践经验和开源生态方面，也具有一定优势：在软硬融合方面，华为云对计算、存储和网络的底层技术更为擅长，例如，在内存池化的关键技术之一RDMA的专利申请数量上，华为具有明显优势。在行业实践经验上，华为云一直秉承“一切皆服务”的原则，深扎行业，在互联网和传统政企方面均积攒了大量实践经验，并把这些经验返回、沉淀到产品中。在开源生态方面，华为云在Hadoop和Spark社区中贡献度均较高，这使得华为云对这些开源产品在安全、稳定性等方面有着更深的技术理解，同时使得DataArts对这些开源产品的主流版本的兼容性更好。来源：华为云，艾瑞咨询研究院整理及绘制。来源：智慧芽专利数据库，艾瑞咨询研究院整理及绘制。高性能RDMA网卡技术专利数量118225321213922211919华为亚马逊阿里浪潮腾讯新华三百度海量数据华为在开源社区的贡献度7218765.55.5554.54.5ClouderaHuaweiIntelYahooincSalesforceMicrosoftDuboceXiamoiWandouNttdata2015-2021.04 Hadoop社区贡献全球No.2，国内No.1288432.52.521.81.51DatabricksClounderaIntelHuaweiIBMNtt DataAppierMeituanHotmailAlpinedata2015-2021.04 Spark社区贡献全球No.4，国内No.1222022.7 iResearch I2022.7 iResearch IIT服务业（1/2）数智融合助力IT服务商降本增效提质IT服务行业范围较广，包括前期的IT咨询与培训，中期的定制开发、系统集成、部署实施，后期的IT运维升级、IT运营管理，以及贯穿全程的IT安全保障等。对于IT服务企业而言，随着业务量增长，普遍面临“数据基数庞大，搬迁上云难”“数据持有成本高”“数据治理不佳，形成数据孤岛”“产品开发技术门槛高，运维成本高，存在安全隐患”“数据准备工作复杂，难以聚焦业务本身”等问题。数智融合下的存算分离、元数据统一、DataOps 和 MLOps融合、端到端的自动化与智能化等创新技术，帮助开发人员实现所想即所得，助力IT服务企业实现降本增效、业务创新、提升客户满意度，从而在产业发展转折点抓住市场机会，实现企业品牌质的飞跃。来源：艾瑞咨询研究院自主研究及绘制。来源：艾瑞咨询研究院自主研究及绘制。IT咨询前期：包括需求定义、产品选型、方案设计、落地培训等咨询服务。IT培训IT服务业环节定制开发中期：根据客户需求提供二次开发、集成、测试等具体的实施服务。运维升级后期：基础架构及软硬件产品的维护和升级迭代；数据处理等面向业务的 IT运营服务。运维管理系统集成部署交付IT服务业发展痛点vs数智融合1.数据体量大，存储成本高，算力要求高，运维开销大“存储+缓存+计算”三层分离架构提供存算性能的弹性伸缩和按需使用，通过serverless模式实现秒级弹性扩缩容和管理运维全托管，满足IT服务业存算性能的同时降低运维开销。2.数据治理不佳，数据在系统间流转不畅，形成数据孤岛人工智能算法模型应用到数据全生命周期治理，通过对元数据的统一管理，解决传统数据分析和AI模型之间“数据搬家”的问题，实现数据在不同引擎间的自由流动，消除数据孤岛。3.产品开发门槛高，数据准备耗时长，难以聚焦业务本身低/无代码的集成开发平台，为使用者屏蔽底层技术，同时将AI能力植入到数据开发过程，将能力服务化、技术组件化，通过分层解耦和复用，即插即用，敏捷交付，降低开发与运维成本。232022.7 iResearch IIT服务业（2/2）数智融合在IT服务企业的落地梦饷集团定位于新电商基础设施提供商，提供基于SaaS店铺工具外加一体化商品与服务结合的供应链解决方案，旗下饷店以去中心化的品牌特卖平台，拥有超百万店主，月交易总额达10亿人民币；爱库存提供国际化库存交易供应链平台。随着业务增长，公司遇到“云迁移难，数据持有成本高、数据治理差、产品开发门槛高，开发周期长且后期运维成本高“等难题。依托华为云在行业市场的云迁移经验和丰富的服务和工具，实现高效、稳定、可靠的云迁移；通过存算分离技术，实现秒级弹性扩缩容，降低用数成本；通过端到端的自动化和智能化，将AI算法模型应用到数据全生命周期治理，为AI开发提供高质量数据；通过DataOps 和 MLOps融合，使大数据开发和AI开发协同，降低开发门槛，聚焦业务本身。华为云一体化解决方案为梦饷集团带来“资源高效”、“应用敏捷”、“业务智能”、“安全可信”等多方面的智能升级。来源：梦饷集团，艾瑞咨询研究院整理及绘制。云原生数据智能一体化解决方案50%实时分析秒级Severless扩容缩下降TCOOBS存算分离资源利用率：70%流批交互一体 100万QPSDLIDWSCSSModelArts数据管理专题分析挖掘建模实时报表浏览轨迹推荐排序活动预测稳流量爆发式成长秒杀大促拥海量数据长持数据自主数据开发容器化改造自主创新引流聚数促销量l 在业务无感知下，优化性能，降低延时l 数据分析支撑从报表统计到实时可预测l 降低存储、计算、运维成本，降低开发门槛企业需求解决方案l 基于MySQL内核优化进行优化改进l 云原生容器化改造和lakehouse存算分离l AI能力调用，AI开发与数据开发协同实现价值l QPS吞吐量提升1倍，时延降低约33%l TCO下降30%，实时分析能力提升近50%l 运维效率提升50%242022.7 iResearch I2022.7 iResearch I网约车行业（1/2）业务模式灵活创新，数智融合赋能网约车行业个性化开发网约车经营服务依托互联网技术构建服务平台，整合供需信息，匹配最优的车辆和驾驶员，提供预约出租汽车服务。网约车产业链包括上游车辆及技术服务供应商，中游网约车服务商以及下游应用场景。受国家政策鼓励，中国获许的网约车平台数量从2020年底的214家增长至2022年3月底的267家，未来市场空间广阔。作为互联网时代产物，网约车行业与车联网、大数据等密不可分，面临数据安全、客户需求、数据打通、应用创新等层面的众多挑战。存算分离技术提供性能的弹性伸缩，满足用车高峰的算力高并发，统一元数据打破大数据、数仓、AI的“数据孤岛”，增强网约车企业数据洞察，DataOps 与 MLOps的融合降低开发技术门槛，方便企业开发人员聚焦业务创新，敏捷交付。来源：艾瑞咨询研究院自主研究及绘制。来源：艾瑞咨询研究院自主研究及绘制。车辆供应商上游：车辆及技术供应商。技术供应商网约车行业产业链第三方网约车平台中游：网约车服务商。网约快车下游：应用场景聚合网约车平台网约专车网约出租网约拼车网约车行业发展痛点vs数智融合1.传统数仓存算弹性不足，难以应对高峰期高并发需求网约车服务场景先天具备波峰波谷特性，除资源利用率要求外，还具有实时性和长时执行的要求。数智融合下的”存储+缓存+计算”三层分离具备弹性伸缩、持续服务和节省成本等优势，与网约车行业场景需求天然契合。2.多平台数据难以打通复用，“数据孤岛”现象严重网约车行业是车联网、大数据、人工智能等新技术的融合产物。具备强互联网和大数据属性，网约车企业运营需对接多个数据平台，数据难以连接互动造成“数据孤岛”。数智融合统一元数据，让数据在多个引擎间流动共享，充分发挥数据资产价值。3.业务模式创新多样，多源数据、技术等导致系统“熵增”为提升市场竞争力和市占率，网约车行业下游应用场景不断推陈出新，业务模式的创新多样必然导致数据体系的“熵增”。数智融合下的DataOps 与 MLOps深度融合，数据工程师可使用熟悉的工具调用AI能力，协同数据开发与AI开发，支撑行业业务模式的不断创新。252022.7 iResearch I2022.7 iResearch I网约车行业（2/2）数智融合在网约车企业的落地T3出行是南京领行科技股份有限公司打造的智慧出行生态平台，公司以“科技引领愉悦出行”为使命，致力于成为能够为用户提供“安全、便捷、品质”出行服务的科技创新型企业。截止2022年7月，T3出行登陆全国91个城市，累计注册用户超1亿，单日订单峰值破300万单。随着业务扩张和用户数量增加，T3出行原系统在支撑海量数据和提供出行服务方面出现“传统数仓难以解决“长尾支付”、“AI架构无法为行车安全提供支撑”、“存算一体架构无法应付订单峰值”等问题。为满足业务发展，提供安全高效的出行服务，T3出行不断对出行产品迭代更新，而华为云数智融合产品在这段升级之旅中发挥了巨大作用。来源：T3出行，艾瑞咨询研究院整理及绘制。来源：T3出行，艾瑞咨询研究院整理及绘制。T3出行+华为云智能数据湖MRSOBSHudi湖仓一体（对象储存+数据湖格式+存算分离）RedisHBaseMongoDBElasticsearchKafka 服务层数据层ClickHousePrestoKylinPandasPytorchSparkYARNKyuubiBI域域AI域域计算层痛点三：业务不停机，系统持续平稳运行华为云通过RDS适配canal能力，结合DRS高可靠和自动化运维能力，大大提高数据订阅稳定性。痛点一：数据库种类多，迁移难度大华为云DRS支持其他云、本地IDC、ECS自建数据库等不同平台之间的迁移，支持60+类不同的数据库链路，充分满足T3出行的不同数据库迁移需求。华为云DRS针对不同实例，通过优化参数、同步方式和架构，并结合其特有的限流能力，确保迁移期间源端业务正常平稳运行，成功在指定时间内完成全量数据同步。痛点二：时间紧任务重，要在30h内完成T3出行+华为云DRS数据迁移解决方案262022.7 iResearch I2022.7 iResearch I社交网络行业（1/2）数智融合赋力社交网络行业向兴趣化、垂直化创新发展来源：艾瑞咨询研究院自主研究及绘制。来源：艾瑞咨询研究院自主研究及绘制。社交网络源于互联网服务，为拥有相同兴趣与活动的用户提供各种联系、交流的交互通路。目前中国社交网络行业基于5G通信、人工智能、虚拟现实等先进技术，为用户提供沉浸式的社区服务。随着行业的内容生态向兴趣化和垂直化方向演进，用户群体的进一步泛化以及用户数量的爆发式增长，社交网络行业面临用户数据安全、后台数据治理效果不佳、存储资源紧张、算力不足以应对业务敏捷相应等诸多挑战。此时，数智融合提供的存算架构分离、基于人工智能算法模型的数据全生命周期治理、产品的低门槛敏捷开发等先进技术，满足了社交网络行业对于如VR虚拟社交等可预见的新型社交场景的技术支撑，以及对于Z世代移动网民全覆盖的需求。社交网络行业产业链社交网络陌生人社交熟人社交陌生人社交升级产品+社交功能KOL模式电商其他高附加值功能社交网络行业发展痛点vs数智融合1.用户体量大，后台数据量剧增，存储资源紧张，算力不足“存储+缓存+计算”三层分离架构提供存算性能的弹性伸缩和按需使用，通过serverless模式实现秒级弹性扩缩容和管理运维全托管，支撑社交网络行业存算性能的同时降低运维成本。2.数据多源异构显著，数据治理难度大，信息孤岛现象严重社交网络行业数据类型丰富，形式多样，多源异构现象普遍，数智融合通过统一元数据到中心节点，打破仓-湖-AI数据间的数据孤岛，实现一份数据在多个系统间自由流动。3.产品开发门槛高，开发人员疲于数据准备，难以聚焦业务本身数智融合提供DataOps和MLOps融合，不同角色各用所长，各取所需，将AI能力植入到数据开发过程，将能力服务化、技术组件化，通过分层解耦和复用，让开发人员聚焦核心业务本身。272022.7 iResearch I2022.7 iResearch I社交网络行业（2/2）数智融合在社交网络行业的落地来源：脉脉，艾瑞咨询研究院整理及绘制。来源：脉脉，艾瑞咨询研究院整理及绘制。脉脉是1.2亿职场人都在用的职场社区和求职平台，基于“实名/职业认证”和“人脉网络引擎”帮助职场人拓展人脉、交流合作、求职招聘，收获机遇。通过职场社交和招聘两大核心业务，发挥自身产品优势，帮助职场人士和企业打造职业形象、树立品牌，提前进行高效连接，收获职场机遇。2020年注册用户数量破亿，成为“内容社区+招聘服务”职场全价值链平台，实现了自身的高速发展。随着业务场景和用户数量增加，脉脉原有的系统架构在支撑巨量用户数据和提供社交平台服务方面面临“存储资源紧张，算力弹性不足，运维负担大”、“数据安全与数据治理要求升级”等挑战。华为云数智融合实现了脉脉的智能用数和业务的敏捷响应，在竞争激烈的社交网络行

展开阅读全文