资源描述
引言
人工智能与数据的演进轨迹始终同频共振。从 20 世纪中叶符号 主义开启人工智能的启蒙时代,到联结主义推动数据成为智能核心燃 料,再到大模型时代数据与智能的深度融合,近一个世纪的技术迭代 中,两者从并行发展的 “双轨线” ,到相互赋能的 “共生体” ,最终形 成 “Data for AI” 与 “AI for Data” 的螺旋式发展格局,深刻重塑了产 业形态和发展主线。
数据智能浪潮正带来前所未有的挑战与机遇,通信行业作为信息 社会的基石,数智化转型成为新阶段的核心命题。在此过程中,传统 的数据治理工作模式和技术工具需要面向人工智能的需求进行一次 全面的变革。要求通信运营商在高质量数据集建设和智能化数据治理 方面的体系更为完善、技术更为适配、能力更为全面,同时可以相互 赋能、深度融合。
本报告立足于国家《 “数据要素×” 三年行动计划(2024-2026)》 与《关于深入实施“人工智能+”行动的意见》的战略指引,紧扣通信 行业数据智能发展的核心诉求,深刻剖析了传统数据治理在面对大模 型时代的数据需求时的能力短板,阐明了 “Data for AI” 与 “AI for Data” 双轮驱动的实践框架:一方面聚焦高质量数据集建设,从业务 转型需求出发,明确数据集建设的管理规范、技术路径与评测标准, 为模型训练提供坚实数据底座;另一方面深耕智能化数据治理,详解 人工智能在数据标准、质量、安全、元数据、资产管理等领域的应用
1
实践,实现治理效率与数据质量的双重提升。同时,报告通过典型案 例,具象化呈现数智融合的落地成效,并创新性提炼可复制、可推广 的实践经验。最后,报告前瞻性指出 “数智一体化”“人机协同”“内生 安全” 三大发展趋势,为行业未来布局提供方向指引。
本报告融合了历史演进、理论框架、实践路径与前沿趋势,既立 足当下破解行业痛点,也着眼长远引领发展方向,旨在为通信运营商 及相关行业的数智化转型提供全面的人工智能数据治理的理论支撑 与实操指南,助力行业培育新质生产力,在数据智能浪潮中筑牢核心 竞争力。
2
编制说明
本指南的撰写得到了人工智能与数据治理领域多家企业与众多 专家的支持和帮助,主要参与单位与人员如下。
参编单位:
华为技术有限公司
中国信通院云计算与大数据研究所
中国移动通信集团河南公司
中国移动通信集团福建公司
指导组:
王福昌 李伟中 姜春宇 王妙琼
参编人员:
蔡火发 尹正 崔一妍 张鹏程 田菁菁 白琳 叶紫光 刘雪婷 曹锐 吴篁 陈哲愚 罗莹 贝高林 楼丕扬 王溪
3
目 录
引言 1
编制说明 3
一、 人工智能时代的“智”与“治” 7
(一) 分与合:人工智能与数据发展历程 7
1. 人工智能发展历程——从“模拟”到“涌现” 7
2. 数据发展历程——从“好用”到“用好” 9
3. 数智融合浪潮——从“交汇”到“交织” 10
(二) 智与数:人工智能需要什么样的数据 11
(三) 治与智:数据需要怎样的治理,智能如何改变治理 13
二、 通信高质量数据集建设指引 17
(一) 人工智能驱动通信业务转型 18
1. 人工智能典型业务场景 18
2. 人工智能典型智能应用 21
3. 人工智能驱动业务转型价值分析 22
(二) 通信高质量数据集新需求涌现 24
1. 现有主要数据集基础 25
2. 高质量数据集建设要求 26
3. 高质量数据集建设难点 27
(三) 通信高质量数据集建设实践 29
1. 高质量数据集管理 29
2. 高质量数据集技术 31
4
3. 高质量数据集评测 33
(四) 河南移动人工智能驱动智慧业务运营实践 35
1. 持续开展数据治理,实现全过程强数 35
2. 人工智能赋能智能治数,提升数据运转效率 36
3. 数据治理驱动智慧业务运营全流程升级 38
4. 业务全链条注“智”,赋能业务效率提升 39
三、 通信智能化数据治理实践 41
(一) 人工智能驱动数据标准智能化管理 41
1. 人工智能驱动的数据标准管理带来的变化 41
2. 人工智能驱动的数据标准智能管理价值 43
(二) 人工智能协助提升数据质量管理效率 44
1. 人工智能对数据质量管理带来的变化 44
2. 人工智能数据质量智能化管理价值 46
(三) 人工智能赋能数据安全管理智慧化 46
1. 人工智能赋能数据安全管理的变化 47
2. 人工智能赋能智能化数据安全管理价值 48
(四) 人工智能使能智能元数据管理转型 48
1. 人工智能使能智能元数据管理变化 49
2. 人工智能使能智能元数据管理价值 50
(五) 人工智能帮助提升数据资产管理能力 51
1. 人工智能给企业数据资产管理带来的变化 52
2. 人工智能帮助提升数据资产管理价值 52
5
(六) 福建移动人工智能数据治理业务实践 54
1. 深入开展数据&AI 现状问题分析 54
2. 加强规划,建立多模态数据管理体系 55
3. 数据治理驱动 AI+应用工作举措 56
4. 人工智能原生数据治理使能数智运营实践 58
四、 通信数据智能发展趋势 62
(一) “数智一体化”能力体系 62
(二) “人机协同”技术体系 63
(三) 内生安全 63
6
一、 人工智能时代的“智”与“治”
(一)分与合:人工智能与数据发展历程
人工智能与数据历史演进的轨迹横跨近一个世纪,从早期的两条 平行线,分别受技术突破驱动,塑造各自领域的社会认知;到中期的 逐渐交织,受应用和价值驱动,推动技术产业重塑。数据与智能最终 走向融合。
1. 人工智能发展历程——从“模拟”到“涌现”
纵观人工智能发展轨迹,其演进伴随技术突破与现实局限的交替, 历经“三起两落” 。崛起源于核心技术突破,沉寂归因应用落地瓶颈, 最终在数据、算力、算法的协同演进中,实现了从“模拟人类逻辑”到 “智能自主涌现”的跨越式发展。
“ 一起一落”:从符号主义崛起到第一次人工智能“寒冬”
符号主义核心是通过人工定义规则模拟人类逻辑推理,标志着人 工智能从理论构想走向初步实践。作为人工智能的 “启蒙时代” ,其 核心目标是构建能够复刻人类逻辑思维的“逻辑机器”。
但符号主义的崛起未能持续突破现实瓶颈,一系列固有缺陷导致 人工智能进入第一次“寒冬”。核心问题集中在三个层面:一是规则局 限性,面对复杂、不确定的现实场景,手动编码的规则库难以覆盖所 有可能性;二是泛化局限性,领域专家知识的提取、编码成本极高, 且难以规模化复制到不同行业;三是需求响应局限性,系统仅能处理 结构化、符号化的明确问题,无法应对模糊性、非结构化的现实需求。
7
投资热潮的退去与应用落地的失败,使得人工智能领域陷入沉寂。这 一阶段的困境也让业界意识到,单纯依赖人工规则模拟智能,难以突 破人类认知与编码效率的双重限制,人工智能需要新的技术路径。
“ 二起二落”:从联结主义萌芽到第二次人工智能“寒冬”
第一次寒冬后,人工智能迎来技术路径的分流与复苏。一方面, 专家系统在特定领域持续迭代,验证了专用智能系统的商业价值。另 一方面,联结主义开始萌芽,核心导向从“人工规则”转向“数据统计 学习” ,人工智能逐步从“逻辑机器”向“数据机器”转型。
“数据驱动”展现出潜力,但技术发展再次遭遇瓶颈。核心制约因 素集中在两点:一是算力制约,网络传输和芯片工艺制约了神经网络 的规模扩张;二是数据制约,因场景和技术局限,当时的数据量级与 多样性不足,无法支撑复杂模型的训练。
由于模型泛化能力有限,业界对人工智能的过高期待与实际应用 效果之间的差距,商业价值未达预期,导致投资的收缩。这一阶段的 沉寂并非技术方向彻底失败,反而让研究者认识到,人工智能发展对 “数据、算力、算法”协同的迫切需求,为后续深度学习的爆发埋下伏 笔。
“第三次兴起”:从大模型爆发到跨越式发展“前夜”
随着大数据技术成熟、算力指数级提升以及算法突破创新,人工 智能迎来第三次崛起,核心导向从“专用智能”转向“通用智能” ,实现 了从“数据驱动”到“智能涌现”的质变,发展主线从“模型为中心”到“数
8
据为中心” 。技术方面,参数规模化、多模态融合、提示工程等实现 跨越式发展,模型不再局限于特定任务的优化,而是展现出上下文学 习、思维链推理等“涌现”能力。
这一阶段,人工智能实现了规模化产业应用,成为“颠覆性生产 力” ,推动社会生产生活方式的深度变革。
2. 数据发展历程——从“好用”到“用好”
而数据技术发展,同样伴随技术突破,经历了三代技术变革。
第一代数据技术(DT1.0 时代)以数据存储和查询为目标。在这 个阶段,介质革命和存储范式革命,解决了海量数据的物理存储和高 效管理之间的矛盾,数据成为独立处理对象,数据技术以事务处理为 主,支撑业务贯通。数据进入“存得住、查得到”时代。
第二代数据技术(DT2.0 时代)以数据资源开发利用为目标,支 撑数据分析、治理工作,实现数据驱动的业务决策。在这个阶段,互 联网迎来爆炸式发展,人类社会产生的数据量级、生成速度呈现指数 级增长,“大数据”概念产生,利用数据进行信息分析和知识挖掘需求 增长,大规模/高弹性存算能力、半结构化/非结构化数据处理技术, 以及数据分析相关技术都有长足进展。数据进入“存得多、算得快”时 代。
第三代数据技术(DT3.0 时代)以数据要素价值释放为目标。在 这个阶段,大数据的蓬勃发展,推动全球数据存储与处理能力形成规 模化、平台化能力,如何进一步萃取数据价值并进行价值释放成为核
9
心任务。数据此时完成了从技术导向到价值导向的蜕变,数据资源化、 数据资产化、数据要素市场化成为新发展路径。数据进入“供得出、 流得动、用得好”时代。
我国数据产业在此时期发展迅猛,党的十九届四中全会(2017) 将数据增列为一种生产要素,以“数据二十条”(2020)、《“数据要 素×”三年行动计划(2024-2026)》(2023)为代表的制度出台,明 确了数据要素市场化配置的正式顶层设计,奠定了我国数据产业发展 的基础制度方向,推动数据要素价值释放。
技术方面,围绕数据资产管理领域的方法论包括数据管理能力成 熟 度 评 估 模 型 ( Data Management Capability Maturity Assessment Model ,DCMM) 、数据研发运营一体化(Data Development and Operations,DataOps)、数据编织、数据工程、数据运营、数据估值、 知识工程等领域研究,以及围绕数据流通的包括隐私计算、区块链、 可信数据空间等领域研究,正在书写数据发展史的崭新篇章。
3. 数智融合浪潮——从“交汇”到“交织”
符号主义崛起后,数据通过人工处理,在系统架构中转化为规则 库、知识库,成为逻辑推理的依据,也是算法的验证基础。明显交汇 的时间点在 1970 年和 1980 年,前者关系型数据库的出现推动了专家 系统向不同行业的横向发展,后者是人工智能和数据同时进入商业化 和规模化发展的重要节点。
联结主义萌芽后,数据从幕后进入舞台中心,统计方法、机器学
10
习、深度学习、大模型的技术跃迁,依赖于大数据技术的突破,也反 哺了数据技术的发展热情。明显交汇的时间点在 2000 年,机器学习 算法的创新,带动人工智能技术走出第二次“寒冬” 。同时,大数据浪 潮推动数据存储、处理、应用等方面的技术跃迁,提供更专业的人才 保障,为强化学习、深度学习提供了充足、好用的“燃料”基础。
当前,数据与人工智能两条交织的历史发展曲线已趋近重合,“AI for Data”“Data for AI”两条路线的螺旋式发展成为主线,人工智能的 数据集建设进入黄金发展窗口期,智能化的治理和分析决策已经普及。 在可以预见的数据智能浪潮中,我国加速产业和政策布局,出台《高 质量数据集建设指引》《关于深入实施“人工智能+”行动的意见》等 制度文件,为数据与人工智能深度融合指明方向。未来,多种数据智 能的融合应用需求将重塑技术发展路线和社会价值框架。
(二)智与数:人工智能需要什么样的数据
总体看,人工智能“三起两落”的发展脉络中,符号主义崛起后和 联结主义萌芽后两个时期所需的数据类型有着根本性的不同,这塑造 了数据处理、数据存储、数据应用等方面截然不同的两个时期。
符号主义崛起后,用户提出的具体问题,需要系统基于知识库进 行推理来回答。这一时期,以处理结构化、符号化的规则集和知识为 主,主要包括事实数据(实例、属性)、规则数据(逻辑推理规则)、 概念数据(知识表示)。在数据存储方面,主要依托内存和磁盘为介 质,以知识库为结构存储,包括规则库、事实库、本体库、语义网络
11
等形式。在数据使用方面,数据通过推理引擎进行使用,有“规则驱 动推理”和“目标驱动推理”两种典型方式,部分系统已经具备冲突解 决、解释、不确定性处理等功能。
联结主义萌芽后,正式进入“数据驱动”时代,人工智能转向神经 网络结构和学习机制的研究,以及智能体与环境的交互学习。数据需 求和处理方式发生根本性变革,可以分为机器学习、强化学习-深度 学习、大模型三个时期。
机器学习期,需求聚焦从历史数据中学习规律,解决有明确输入 输出的监督预测任务、无监督结构发现任务、半监督/弱监督任务, 追求预测精度和泛化能力。此阶段所需的数据类型包括,大规模数据 集(结构化为主)、特征数据、标签数据、测试和验证数据等。数据 存储方面,主要依赖关系型数据库以及文件系统。数据处理方面,以 统计分析和特征工程为核心,主要工作流程包括数据清洗与预处理、 特征工程、模型训练与调参。数据使用方面,训练好的模型本质上是 一个 预测/决策函数,使用方式通常包括接口调用、离线预测/批量预 测等。
强化学习-深度学习期,开始出现处理复杂的视觉、自然语言处 理等需求,需要理解高维、非结构化数据,同时关注智能体在与动态 环境的持续交互中学习最优策略等需求。此阶段所需的数据类型包括, 大规模标注数据集、未标注/弱标注数据、经验数据/轨迹数据/交互数 据、多元特征等。数据存储方面,主要依托分布式文件系统、非关系
12
型数据库等。数据处理方面,和机器学习期相比,需要数据增强、数 据标注等新的处理流程,主要面向端到端学习、深度神经网络训练、 强化学习训练等相关流程。数据使用方面,通常用于支持包括复杂感 知推断、端到端应用、在线决策等应用。
大模型期,开始面向构建具有极强语言理解、生成、多任务泛化 能力的系统,需要模型能够胜任开放的复杂对话、创作、知识问答、 代码生成等高难度任务,并表现出一定程度的上下文学习、思维链、 “涌现”能力,应用目标更加开放、通用。此阶段所需的数据类型包括, 超大规模语料库、海量多模态数据、指令微调数据、偏好排序/对齐 数据、高质量清洗后的数据等。数据存储方面,以超大规模分布式/ 云对象存储、数据湖、向量数据库等为主。数据处理方面,与强化学 习-深度学习期相似,部分需要数据合成,以嵌入无监督预训练、微 调、提示工程、分布式训练等相关流程。数据使用方面,需要支持包 括检索增强生成(RAG)、智能体(Agent)、“人机交互”等应用需 求。
(三)治与智:数据需要怎样的治理,智能如何改变治理
人工智能发展的“三起两落” ,带来数据规模、数据类型的变化, 同样也对数据治理的工作模式和技术发展产生深刻影响,呈现出阶段 性特点:一是从治理对象看,研究重点从“结构化数据”到“非结构化 数据” ;二是从治理目的看,治理重点从“质量”到“场景” ;三是从治 理技术看,投入方向从“劳动密集”到“智能密集”。
13
符号主义崛起后,数据类型集中于结构化、符号化的规则集、事 实库与概念数据,数据规模小、格式规整,决定了数据治理呈现“人 工主导、规则驱动、场景专用” 的特点。
联结主义萌芽后,数据类型从结构化扩展到非结构化、多模态, 数据规模呈指数级增长,数据治理核心转向“规模化管控、全流程质 量优化、动态安全防护” ,形成了与机器学习、强化学习-深度学习、 大模型发展适配的治理体系。
机器学习期,以统计学习为核心,数据类型以大规模结构化数据 为主,含特征数据、标签数据、测试 / 验证数据,核心目标是提升 数据与模型的适配性,治理特点呈现“半自动化、统计驱动、聚焦特 征优化”。该阶段的关键治理流程围绕数据的预处理与特征优化展开, 核心流程包括数据清洗、特征工程、标签规整,其核心逻辑是通过半 自动化手段提升数据的统计有效性,为模型训练提供高质量输入。
强化学习-深度学习期,需处理高维非结构化数据(图像、语音、 文本等),数据需求聚焦高质量、高多样性,治理特点呈现“自动化 工具辅助、全流程管控、质量与安全并重” 。该阶段的关键治理流程 包括数据标注、数据增强、数据合成,核心是通过自动化工具提升数 据规模与质量,填补稀有场景数据缺口。
大模型期,数据类型涵盖超大规模语料库、多模态数据、指令微 调数据,核心目标是实现数据的“高纯净度、高多样性、高安全性、 高适配性” ,治理特点呈现“全流程智能化、跨域协同、价值驱动”。
14
该阶段的关键治理流程围绕多模态数据、数据清洗、指令微调数据治 理、知识管理展开。当前,多数企业已经能够将半自动化或自动化数 据治理工具嵌入数据全生命周期的管理流程中,正式进入智能化数据 治理的全链路升级阶段。
智能化数据治理是借助人工智能等自动化、智能化技术和手段开 展数据工作,提高数据管理与应用的效能。充分发挥人工智能在语义 理解、逻辑推理、智能生成等方面的优势,通过深度学习、大模型、 回归模型、知识图谱等大小模型的技术搭配,提升对多模态数据的处 理、理解及应用,降低运营成本、提升工作效率,并通过人工交互等 技术降低数据使用门槛,提升数据资源利用率。
智能化数据治理的探索工作正在深入快速展开,未来将从全链条 “AI+数据治理”“人机协同”两个方面重点发力。在全链条“AI+数据治 理”方面, 已经可以看到智能化数据治理在数据质量、数据标准、元 数据、数据安全、数据模型、数据资源等方面的落地实践,应用场景 极为丰富,可以提高原有数据管理工作的效率,也可以构建起新的管 理能力和管理模式。在“人机协同”方面,通过特定场景的“数字员工” 赋能千行百业,充分发挥智能体的思维、逻辑、知识以及场景任务执 行力,构建“人机协同”的工作新范式。
人工智能与数据治理的交织发展也为通信运营商数智化转型提 供了双轮驱动力。数据治理通过构建高质量的数据基础,为人工智能 算法训练与应用提供了重要支撑,而人工智能则通过自动化、智能化
15
技术优化数据治理流程,提升数据处理效率与价值挖掘能力。此外, 通信运营商通过数据治理构建的统一数据平台,为 AI 应用提供了数 据底座,而 AI 的嵌入则加速了数据要素价值转化,将助力运营商从 传统电信服务向智能信息科技服务转型。
数据治理与人工智能这种双向赋能交织发展关系不仅提升了通 信运营商的运营效能,还为其开拓新的智能服务、智能云化网络、行 业数智化解决方案等新增长领域提供了技术保障,成为其数智化转型 的关键加速器。
16
二、 通信高质量数据集建设指引
在人工智能时代,数据与人工智能关系日益紧密,人工智能技术 的深入发展,使得人工智能将深入通信运营商各类业务领域生产流程, 由此带来数据管理方式也将更加复杂多变,非结构化数据管理提上日 程,高质量数据集建设成为必选。
大模型技术发展大幅降低了算力需求和算法瓶颈,使得通信运营 商企业可以较低成本开展人工智能实践及应用。在企业人工智能应用 过程中,高质量的数据成为智能化表现的核心差异化因素,通过深入 开展企业数据治理形成高质量数据集和良好的数据伦理,积极基于通 用大模型技术开展 L1/L2/L3 级别运营商领域大模型的推理、增训工 作,将推动运营商在企业办公、市场营销、客户服务、网络运维、资 源管理、安全合规等领域快速应用人工智能,助力运营商企业更好地 利用数据智能驱动业务创新,实现更加可持续的高质量发展。
图 1:运营商大模型典型应用场景
17
(一)人工智能驱动通信业务转型
目前通信运营商在企业内部办公协同、市场营销、客户服务、合 同管理、供应链管理、网络运维等重点场景,均存在较强烈的大模型 应用需求。部分领先运营商优先聚焦办公、营销、客服类等高频、海 量、刚需场景,再逐步深入网络运营运维、资源管理等生产场景,进 行了较多探索实践,有力地促进了业务转型。
通信运营商实现“用人工智能”走向“用好人工智能”转变,其主体 应用原则一方面是场景选择先易后难,办公、营销、客服场景容易, 网络运维生产场景复杂实现较难;另一方面是技术选择从简单到复杂, 先推理后微调/增训/强化学习,运营商各场景主要使用大模型技术及 工具诉求如下:
图 2:运营商 AI+应用场景主要使用的大模型技术
1. 人工智能典型业务场景
通信运营商可以在人工智能驱动下,结合企业业务发展情况,优 先针对企业办公、市场营销、客户服务、网络运维、资源管理及安全 合规等业务场景,开展业务转型探索实践。
企业办公场景:办公类的场景的智能化转型相对比较容易实现, 其特点是单场景的智算算力消耗比较小,但端侧客户使用量比较 大,通过大模型+RAG 方式,通信运营商可以快速部署办公助手,
18
在企业办公场景智慧问答、公文撰写,财经助手,审计助手开展 智能化应用实践。
市场营销场景:市场营销类场景包括运营商市场、政企、商客 类的业务营销,其业务智能化转型细分场景主要包括:一、借助 智能应用,市场营销业务人员能够快速地去查阅知识库, 了解客 户的套餐产品,以及相关的技术,业务类的问答;比如通过构建 智慧营销助手,通过 RAG 构建私域业务知识向量库,以场景为维 度聚合展示业务相关知识,包括业务说明、资料等,能做到业务 知识一问即答,信息搜索一查即达;二、通过业务智慧化改造, 业务人员在客户业务办理上提供便捷的路径,直接能跳转到办理 的业务流程中,通过 RPA 的方式通过接口登陆到业务系统中,比 如描述业务需求, 即可帮助销售人员办理云、政企专线等主要业 务;三、通过智能化应用,如面向政企领域,客户经理面向客户 界面,比如构建客户经理分身,运营商客户有问题优先找客户经 理分身,客户经理分身无法解决的,再由客户经理进行解决。客 户经理通过客户经理助手来搜索业务问答,尽量满足客户的需求, 提升客户满意及营销效益;四、在市场营销客户洞察、产品匹配、 策略配置、渠道匹配及营销执行等方面也可以使用大模型技术深 度介入市场营销流程,构建智能化应用,实现营销效率、效益及 质量的提升。
客户服务场景:利用大模型优化智能客服,实现客户体验提升
19
及个性化推荐、客户服务效能提升及客服工单质检效率提升,比 如:一是面向终端用户提供更优体验,通过人工智能让客户能体 验更好,通过识别用户意图, 自动登单帮客户办理或退订相关业 务,减少等待及操作;二是面向坐席提升效能,当呼叫呼入后, 用户咨询坐席人员,可以快速的将用户的意图识别,同时调用知 识库给用户回答问题,解决用户的问题后实现自动录单提升效率; 三是面向质检提供准确率,通过ASR+大模型+人工判断来实现“人 工智能质检” ,能做到全量质检,覆盖质检量,提升效率,同时降 低人工成本。
网络运维场景:通过人工智能分析网络流量、信令数据、用户 使用及网络设备状态,实现网络资源动态调度、故障预测与自动 修复。同时利用大模型技术进行网络性能监控、故障预测与自愈、 容量规划。例如:基于深度学习的异常检测模型可提前识别基站 故障风险,实现预测性维护。
资源管理场景:结合运营商网络资源、成本资源及业务运营数 据,通过构建资源管理领域大模型,开展运营商网络资源深化管 理,优化通信基站能耗、数据中心资源分配及基础设施维护计划; 在通信运营商数据中心、边缘计算节点等基础设施管理中,借助 人工智能辅助能耗优化、负载均衡与资源分配,降低网络运营运 维成本,提升智能化水平。
安全合规场景:通过人工智能检测网络攻击、欺诈行为及数据
20
泄露风险,保障通信运营商用户隐私与网络安全,应用大模型技 术识别异常通信行为,防范垃圾短信、骚扰电话、伪基站及 SIM 卡盗用等安全威胁,保障用户通信安全与网络可信环境。
2. 人工智能典型智能应用
基于上述业务场景,通信运营结合大模型基础模型、自身数据 及大模型数据工程、知识工程等能力,可以开展诸如典型智能应用 包括:
办公助手应用:开发及部署办公助手,在企业办公场景智慧问 答、公文协助,财经助手,审计助手开展智能化应用。
营销智能体应用:利用 NLP 、数据工程、RAG 知识工程、提示 词工程等大模型技术,构建市场智慧营销智能洞察、智慧分析、 智能问答及应用编排等智能应用能力,实现市场营销相关客群 人工智能分析、商机人工智能挖掘、策划自动生成、产品智能 推荐、复盘报告自动生成等智能应用。
图 3:运营商市场营销智能体
智能客服应用:构建智能客服应用,实现 7×24 小时语音/文本交
21
互,解决用户咨询与投诉,降低人工成本。基于自然语言处理 (NLP)技术,支持多轮对话理解与意图识别,实现首呼解决率 (FCR)超过 70% ,提升客户服务效率,降低客户服务成本。
故障预测应用:基于通信运营商网络运维故障、工单、资源等 历史数据与实时监测,提前识别网络瓶颈或故障节点,通过集 成大模型,实现网络告警压缩、根因分析与自动化处置,通过 人工智能模型将告警数量减少 80% ,故障定位时间缩短至分钟 级。
财经助手应用:针对传统财经知识问答依赖人工维护问答库、 仅能回答预设范围内的问题、仅能回答预设范围内的问题等短 板及问题,通过构建财经领域 RAG 知识库,在公司差旅政策、 报销标准,税务政策查询等细分场景实现多路径知识自动召回 及智能问答,问题回复准确率 90%+。
3. 人工智能驱动业务转型价值分析
人工智能不仅是技术工具,也是运营商战略转型的核心驱动力。 通过提升效率、优化体验、数据赋能、业务创新、增强韧性和履行社 会责任,运营商能够实现从传统通信服务商向信息服务科技公司的转 身,抓住数字化时代的增长机遇。实践证明,人工智能转型结合平台 工具、数据治理、组织变革和生态协作,可以最大释放其全部潜力, 为运营商各类业务转型带来了显著的业务与战略价值。
提升运营效率与降低成本
22
人工智能通过自动化和智能化流程显著优化运营商的运维效 率,减少人工干预。例如,在某运营商的数字智能运维项目中,人 工智能技术将问题分析时间从 60 分钟缩短至 15 分钟,处理效率从 85%提升至 95% 。此外,人工智能驱动的异常检测和根因分析(如 数字孪生技术)能主动识别网络问题,避免被动响应,从而降低运 营成本,人工智能转型可使企业从繁琐任务中解放,提升员工创造 力。
优化客户体验与满意度
利用人工智能,通过实时数据分析和智能推荐,显著提升客户 体验。例如,在运营商自智网络实践实现了“零业务影响感知”和“零 人为干预” ,确保用户服务连续性。人工智能还能精准预测用户需 求,例如通过智能客服提供个性化服务,减少客户等待时间。此外, 人工智能在新通话场景中的应用(如人工智能代聊、摘要生成)进 一步增强了用户体验。
数据驱动决策与业务创新
运营商通过整合人工智能平台与大数据平台能力,开展数据治 理,挖掘数据价值,支持精准营销和业务创新。例如,中国移动通 过人工智能协同大数据,利用“场景、数据、流程、平台、工具”五 要素开展企业数智化转型,提升“大价值” ,而中国联通则构建智能 数据中台,实现“数据驱动”业务增长,此外人工智能还能协助商业 智能(BI),提升数据分析效率,增加业务管理决策能力。
23
推动业务模式转型与增长
人工智能赋能运营商从“连接提供商”向“技术解决方案”转型。
例如,某 T 运营商将人工智能、云与网络连接融合,拓展企业数字 化转型市场,人工智能驱动的转型路径可支撑运营商政企业务增长, 如智能云网、5G 专网等。此外,人工智能在视觉智能领域、智慧 家庭领域的应用为运营商开拓新市场空间。
增强网络韧性和安全性
人工智能技术提升网络的自适应和自修复能力,保障业务连续 性。例如,某 S 运营商的智能网络安全管理系统通过人工智能排除 网络故障,人工智能 WAN 解决方案则通过智能感知和运维升级, 增强网络安全性,运营商需通过人工智能和数据保护构建“业务韧 性” ,如防勒索攻击的隔离区保护,确保核心业务零中断。
实现可持续发展与社会责任
人工智能助力运营商优化能源消耗,推动绿色网络建设。如某 运营商基于人工智能驱动的 OXC 和 OTN 光电融合方案打造低能耗 全光城市;此外,人工智能在社会服务中的应用(如医疗影像分析、 智能驾驶辅助、智慧家庭中心)使运营商成为社会数字化转型的赋 能者,履行社会责任的同时开拓商业价值。
(二)通信高质量数据集新需求涌现
高质量数据集是人工智能发展的基础,高质量数据集建设已被提 升至战略高度,《国家数据基础设施建设指引》《高质量数据集建设
24
指引》等政策明确要求建设行业高质量数据集,推动“人工智能+”行 动落地。2025 年国家数据局召开的高质量数据集建设工作启动会进 一步强调,数据与人工智能的深度协同将激发产业创新的倍增效应。
运营商作为国家数字经济的核心骨干企业,需在政策指导下加速 人工智能布局。同时,运营商自身面临数字化转型的现实需求,传统 通信业务增长放缓,5G 、物联网等新兴领域对智能化运营提出更高 要求。例如,中国移动提出从“+人工智能”转向“人工智能+”,构建人 工智能全要素数字基础设施,依托网络、算力优势赋能业务变革,高 质量数据集成为运营商实现网络智能化、业务创新的关键支撑。
1. 现有主要数据集基础
随着通信运营商业务发展及 IT 系统演进,运营商沉淀了较多结 构化与非结构化数据,并开展了基本的数据管理,其中包括非结构化 数据如文本、图片、音频、视频、深度图像等大模型密切相关的多种 类型的数据管理。同时,部分运营商聚焦人工智能赋能的业务运营、 网络运维、管理决策、客户服务及行业应用等价值领域,构建了部分 基础数据集,如:
n 业务运营数据集:主要由经营分析系统、客户关系系统、客 户服务系统、渠道运营系统等系统构成,应用以报表输出、 业务办理为主,主要包括报表、人脸认证、入网视频、客服 录音、语音文本等数据集。
n 网络运维数据集: 由网络资源管理、网络工单、网络信令等
25
系统构成,如用户位置、通话记录、流量使用模式,用于网 络规划与故障诊断;设备日志如基站、核心网设备的运行状 态与告警日志,支持运维分析。
n 管理决策数据集: 由计划建设、采购系统、报账系统、工单 系统等系统构成,应用以业务流程、电子工单、合同管理为 主,包括电子合同、流程附件、操作日志等数据集。
n 客户服务数据集:包括客户消费行为如套餐选择、流量使用、 增值业务订购记录,用于客户精准营销;交互行为如客服对 话记录、APP 使用习惯优化服务体验,主要包括客户时空轨 迹、音频、视频、图片、电子邮件等数据集。
n 外部行业数据集:5G 行业应用数据如工业物联网设备数据、 车联网通信记录,各类行业信息及数据,支持垂直行业领域 解决方案建设。
上述数据集是通信运营商各领域价值数据汇聚、治理、使用及应 用的重要战略基础,也是推进运营商数据能力从分析支撑向主动注智 转变的核心内容,但面临行业竞争及企业转型要求,通信运营商当前 仍面临数据孤岛、数据标注成本高、数据标准缺乏、数据内容不全面 等挑战,需进一步丰富数据管理体系、加强高质量数据集建设,将企 业业务、数据与专业知识整合,形成差异化竞争优势。
2. 高质量数据集建设要求
高质量数据集是指经过系统化设计与处理的、满足人工智能模型
26
训练、验证及测试需求、质量有保障测试、可度量的数据集合。高质 量数据集具有主题明确性,需要面向明确的应用场景和目标,覆盖特 定领域知识;同时高质量数据集成要有多维度质量属性,在完整性、 规范性、准确性、均衡性、及时性、一致性、相关性等方面达到高标 准,并且遵从“伸缩法则” ,具有足够数据量,覆盖多样化的场景与边 缘案例,避免模型欠拟合、过拟合。
n 在技术要求方面:高质量数据集成要求通过去噪、格式规范 化、人工/自动化标注等手段提升数据纯净度与标注精度;同 时高质量数据可能需要利用数据合成及增强技术扩展数据多 样性,尤其在行业垂直领域填补数据空白,高质量数据集应 客采用自动化检测与模型验证确保数据对模型效果的正向作 用,可以对数据质量进行评测评估。
n 在管理要求方面:高质量数据集需有明确的管理主体,如需 设置原始数据 Owner 或人工智能数据集责任人,确保全生命 周期可追溯,在数据安全及隐私方面,遵循数据边界保护原 则,禁止泄露公司内部信息或违反隐私法规;在标准化管理 流程方面,高质量数据集的管理需涵盖数据规划、采集、解 析、清洗、标注、合成、质检及发布等环节的标准化流程。
3. 高质量数据集建设难点
通信运营商在数据集建设方面仍然面临多重挑战,主要体现在数 据来源多样性不足、标注能力薄弱、数据孤岛问题及治理机制不完善
27
等方面。首先,运营商数据来源以基础数据为主,依赖大模型回收数 据和合成数据,但普遍缺乏高效的数据治理能力,导致可利用的高质 量数据较少。其次,数据标注能力不足,尤其是人工智能辅助标注和 场景化标注能力尚未完全建立,而运营商参与的数据标注基地建设仍 需进一步扩展。
数据质量控制也是关键短板。大规模数据集建设中存在重复和冗 余问题,去重技术不足影响模型训练效果,且缺乏统一的数据清洗、 评估标准,运营商内部及跨部门数据分散,难以高效整合与传输,限 制了数据的人工智能利用效率;同时,数据共享机制不畅,内部部门 间数据隔离严重,外部流通则面临可信流通方案缺失,影响数据要素 价值释放。具体体现如下:
n 在连接方面:部分业务领域数据是离散、孤立的,游离于各 个角落中,被烟囱林立的系统割裂。
n 在服务方面:数据仍然存在找不到、不流转,用户找不到文 件,不能获取完整的文件,业务化后的数据没有回到业务中, 不能高效服务于业务。
n 在质量方面:数据质量可能是混乱的、困惑的,非结构化内 容标准不一样,同类内容存于不同路径;没有统一元数据模 型,没有元数据,数据质量较低。
n 在能力方面:高质量数据集服务是被普遍渴望的但不能有效 满足,每个岗位都希望得到数据支撑,但很多应用场景得不
28
到智能赋能;
n 在体系方面:高质量数据集管理体系尚未建立,尤其是对非 结构化数据意识薄弱,无战略规划,数据资产看不到,未实 施有效的资产管理。
n 在安全方面:尚未体系性建立数据集安全管理机制,敏感数 据文件可能容易被泄漏,且难以追溯;难以应对各种安全、 合规审查。
(三)通信高质量数据集建设实践
当前,部分领先运营商正通过管理与技术的协同创新,积极开展 高质量数据集建设,推动数据要素价值释放,助力
展开阅读全文