2023AIGC（GPT-4）赋能通信行业应用白皮书.pdf

资源描述

1、 1 AIGC（GPT-4）赋能通信行业应用白皮书 A White Paper of AIGC(GPT-4)Empowering Telecom Sector 联合发布：AIGC（GPT-4）赋能通信行业应用白皮书 3 亚信科技控股有限公司（股票代码：01675.HK）亚信科技是中国领先的软件产品及服务提供商，拥有丰富的软件产品开发和大型软件工程实施经验。公司深耕市场 30 年，在 5G、云计算、大数据、人工智能、物联网、数智运营、业务及网络支撑系统等领域具有先进的技术能力和众多成功案例，客户遍及通信、广电、能源、政务、交通、金融、邮政等行业。2022 年，亚信科技完成收购商业决策服务领域的领

2、先企业艾瑞市场咨询股份有限公司（艾瑞咨询），并整合形成新的“艾瑞数智”品牌。通过此次收购，亚信科技的核心能力从产品研发、交付服务、数据运营、系统集成延伸至咨询规划、智能决策，成为领先的数智化全栈能力提供商。亚信科技始终致力于将 5G、AI、大数据等数智技术赋能至百行千业，与客戶共创数智价值。公司以“产品与服务双领先”为目标，产品研发围绕数智、云网、IT及中台产品休系持续聚焦，实现行业引领，其中云网产品保持国际引领，数智产品实现国内领先，部分国际先进，IT 领域产品处于国内第一阵营。面向未来，亚信科技将努力成为最可信赖的数智价值创造者，并依托数智化全栈能力，创新客户价值，助推数字中国。AIGC（

3、GPT-4）赋能通信行业应用白皮书 4 清华大学智能产业研究院清华大学智能产业研究院（Institute for AI Industry Research,Tsinghua Uni-versity，英文简称 AIR）是面向第四次工业革命的国际化、智能化、产业化研究机构。AIR 的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎，突破人工智能核心技术，培养智能产业领军人才，推动智能产业跨越式发展。AIR 由多媒体及人工智能领域的世界级科学家、企业家张亚勤博士于 2020年 12 月 1 日创建。经过近两年的发展，研究院已汇聚了一批既懂科研又懂产业的人工智能领域学者，目

4、前已初步形成了国际顶尖科学家、产业变革领袖、学术潜力骨干、交叉创新人才“四位一体”的人才布局，其中中国工程院外籍院士 1人、ACM Fellow 2 人、IEEE Fellow 5 人，各类学术人才荣誉 26 人次、59%的教师具有海外学历背景，78%的教师具有一线产业研发经历，59%的教师在 40岁以下。AIR 未来将持续引进人工智能与生命科学交叉领域尖端人才，构建具有交叉背景和人才梯度的高水平科研团队。AIGC（GPT-4）赋能通信行业应用白皮书 5 目录一.前言.11 二.GPT-4研究.13 2.1 AIGC与GPT-4.13 2.2 GPT-4的能力分析.16 2.3 GPT-4的

5、技术原理.28 2.4 GPT-4的应用.34 2.5 下一个GPT是什么？.38 三.GPT-4赋能通信行业应用.41 3.1 通信IT领域的典型应用场景.41 3.1.1 智能开发.42 3.1.2 智能运维.52 3.1.3 智能营销.57 3.1.4 智能计费.65 3.1.5 智能客服.70 3.1.6 智能客户关系管理.75 3.1.7 商业智能.81 3.2 通信网络领域的典型应用场景.86 3.2.1 智能网络规划.86 3.2.2 智能网络部署.89 3.2.3 智能网络维护.92 3.2.4 智能网络优化.96 3.2.5 智能网络运营.99 四.构建通信行业TelcoGP

6、T.102 4.1 GPT-4的构建和应用问题.102 4.2 通信行业TelcoGPT.107 4.3 TelcoGPT如何构建？.108 4.4 亚信科技TelcoGPT实践.112 4.4.1 TelcoGPT文本大模型构建实践.112 4.4.2 TelcoGPT跨模态大模型构建实践.114 4.4.3 亚信科技AIGC平台实践.116 4.5 亚信科技可基于GPT类大模型赋能的产品系列.118 4.5.1 超级开发平台.118 AIGC（GPT-4）赋能通信行业应用白皮书 6 4.5.2 IT运维套件.119 4.5.3 全域智能运维平台.120 4.5.4 通用人工智能平台.120

7、 4.5.5 AI数智运营平台.121 4.5.6 场景计费产品.122 4.5.7 智能化客服系统.123 4.5.8 客户关系管理系统.124 4.5.9 数据探索分析产品.124 4.5.10 知识图谱产品.125 4.5.11 智能化网络规划优化平台.126 4.5.12 网络和业务编排系统.126 4.5.13 5G网络故障管理系统.127 4.5.14 智能用户体验管理平台.128 五.总结和展望.129 参考文献.131 AIGC（GPT-4）赋能通信行业应用白皮书 7 图目录图 2-1 ChatGPT 发展历程.16 图 2-2 GPT-4 解释复杂名词.17 图 2-3 G

8、PT-4 简化概念，解释复杂名词.17 图 2-4 GPT-4 以专业人士身份，解释复杂名词.18 图 2-5 GPT-4 根据特定要求或主题创作文章.19 图 2-6 GPT-4 与用户多轮对话进行推荐.20 图 2-7 GPT-4 智能生成代码.21 图 2-8 GPT-4 智能解释代码.22 图 2-9 GPT-4 智能修正代码.23 图 2-10 GPT-4 抽取文本中关键信息.24 图 2-11 GPT-4 智能分析文本和数据并制表.24 图 2-12 GPT-4 分析解决复杂问题.25 图 2-13 GPT-4 处理文本图片混合输入.26 图 2-14 Transformer 架构

9、.29 图 2-15 RLHF 训练方法.33 图 3-1 GPT-4 对于软件研发生命周期的变革.42 图 3-2 GPT-4 帮助分析业务需求.44 图 3-3 GPT-4 辅助界面设计.45 图 3-4 引入 GPT-4 后开发人员日常工作场景.48 图 3-5 GPT-4 智能辅助编码.48 图 3-6 GPT-4 提升持续集成效能.50 图 3-7 GPT-4 快速生成单元测试用例.52 图 3-8 智能运维工作台运维协作场景.54 图 3-9 GPT-4 帮助分析故障.55 图 3-10 GPT-4 智能修复 Kafka 配置错误.56 图 3-11 GPT-4 智能生成 ansi

10、ble 程序代码.57 图 3-12 如何策划产品的回答.59 图 3-13 产品功能设计的进一步建议.60 图 3-14 关于产品广告词的问答.61 图 3-15 关于产品广告词的古诗词形式的问答.61 图 3-16 关于主动营销推荐的问答.62 AIGC（GPT-4）赋能通信行业应用白皮书 8 图 3-17 关于不同产品特性分析比较的问答.63 图 3-18 关于帮助客户产品下单的建议.63 图 3-19 关于产品营销分析的问答.65 图 3-20 GPT-4 根据计费数据给出情况解释.67 图 3-21 GPT-4 智能将企业业财融合助力运营.68 图 3-22 GPT-4 举例风险交易

11、行为.69 图 3-23 GPT-4 基于意图的算网方案推荐.70 图 3-24 GPT-4 基于客户情绪，智能化处理客户请求.72 图 3-25 GPT-4 根据客户提问，智能化生成解决方案.73 图 3-26 GPT-4 与客户交互式对话能力展示.75 图 3-27 GPT-4 人性化提问方式进行问卷调查.76 图 3-28 GPT-4 结合知识图谱信息进行推理，为客户经理挖掘潜在客户77 图 3-29 GPT-4 智能文本处理实现多源地址合并.78 图 3-30 GPT-4 智能文本处理实现用户地址匹配.79 图 3-31 GPT-4 虚拟智能同伴应用案例 1.80 图 3-32 GPT

12、-4 虚拟智能同伴应用案例 2.80 图 3-33 智能 BI 增强分析 VS 敏捷 BI 自助分析.82 图 3-34 BI 集成 GPT-4 实现数据问答.83 图 3-35 BI 集成 GPT-4 实现数据洞见.84 图 3-36 BI 集成 GPT-4 生成洞见报告.85 图 3-37 GPT-4 根据专业需求，生成无限网络规划方案.88 图 3-38 GPT-4 实现切片自动勘察.89 图 3-39 GPT-4 基于意图的传输专线网元配置激活.91 图 3-40 GPT-4 生成 5G 基站质检方案.92 图 3-41 GPT-4 针对 PON 链路故障提供的解决方案.93 图 3-

13、42 GPT-4 日志异常检测.95 图 3-43 GPT-4 智能网络能耗优化应用 1.97 图 3-44 GPT-4 智能网络能耗优化应用 2.97 图 3-45 GPT-4 关于云网优化的专业知识储备.98 图 3-46 GPT-4 实现云网业务融合运营.100 图 3-47 GPT-4 面向客户投诉的智能问答.101 图 4-1 GPT-4 生成事实性错误案例.104 图 4-2 GPT-4 知识库信息的时效性不强，缺乏分析时政能力.104 AIGC（GPT-4）赋能通信行业应用白皮书 9 图 4-3 GPT-4 缺乏一些专业领域的相关知识.105 图 4-4 通信行业 TelcoGP

14、T.108 图 4-5 Ernie-3.0-xbase 模型结构.112 图 4-6 OFA-large 模型结构.114 图 4-7 亚信科技 AISWare AI GC 产品功能架构图.116 图 4-8 超级开发平台架构.119 图 4-9 IT 运维套件整体架构.119 图 4-10 全域智能运维平台架构.120 图 4-11 通用人工智能平台架构.121 图 4-12 AI 数智运营平台架构.122 图 4-13 场景计费系统架构.123 图 4-14 智能化客服系统架构.123 图 4-15 客户关系管理系统架构.124 图 4-16 数据探索分析产品架构.125 图 4-17 知

15、识图谱产品架构.125 图 4-18 智能化网络规划优化平台架构.126 图 4-19 网络和业务编排系统架构.127 图 4-20 5G 网络故障管理系统架构.127 图 4-21 智能用户体验管理平台架构.128 AIGC（GPT-4）赋能通信行业应用白皮书 10 表目录表 4-1 使用数据及算力资源.113 表 4-2 通信运营商客户投诉工单多分类和工单层级分类任务对比.113 表 4-3 图像文本数据样例.115 表 4-4 图像描述任务资源使用情况.115 表 4-5 图像描述任务效果对比.116 AIGC（GPT-4）赋能通信行业应用白皮书 11 一.前言 2022 年被认为是人

16、工智能生成内容（AIGC）元年。作为 AIGC 在自然语言领域的代表，ChatGPT 在2022 年年底一经推出，就掀起了一场可能涉及所有人和所有行业的“大火”，2023 年 3 月 GPT-4 的发布则进一步推动了“态势升级”。由 ChatGPT/GPT-4 引发的全球关注，令许多人回忆起 2016 年 AlphaGo战胜人类围棋世界冠军的时刻。如果说 AlphaGo 代表了 AI 在专业领域战胜人类的起点，ChatGPT/GPT-4 似乎迈出了通用人工智能的第一步。这是第三次 AI 浪潮以来所有积累产生的硕果，AI 技术到了一个即将大规模产业化的临界点。ChatGPT 将单调呆板的人机通信

17、演进到前所未有的自然、高效、有创造力的人机协作，代表了生产力的提升。ChatGPT 有多重要？埃隆马斯克评价：“好得吓人，我们离危险的强人工智能不远了”。黄仁勋评价：“这是 AI 界的iPhone 时刻”。比尔.盖茨表示“和个人电脑和互联网的出现一样重要。是当前最重要的创新，将改变世界”。在 ChatGPT 的基础上，GPT-4 进一步在各种专业和学术基准测试中表现出“人类水平”的性能，在事实性、可引导性和可控制方面取得了“史上最佳结果”。当然，GPT-4在不是无所不能的，仍具有与早期GPT 模型相似的局限性，如：犯常识性的错误、缺乏对新世界知识的了解、存在社会偏见、产生幻觉、推理错误等。但是

18、我们看到其技术背后却具有一直优化、学习和进步的能力。在 ChatGPT/GPT-4 席卷全球的热潮中，人们已经深刻认识到人工智能作为经济社会发展中一项变革性技术与关键性力量，将为全球产业带来的巨大飞跃和突破式发展，深刻影响未来世界竞争格局。通信行业作为信息通信基础设施的建设者和运营者，既为 AI 的发展提供基础设施支撑，又是 AI 应用落地的领先者。AIGC（GPT-4）赋能通信行业应用白皮书 12 AIGC（GPT-4）如何赋能通信行业应用，通信行业如何落地 AIGC，这是通信业者必须要思考和回答的问题。本白皮书通过对 AIGC 的典型代表 GPT-4 的研究，以场景化的形式对 GPT-4

19、如何赋能通信行业进行了分析，并针对通信行业如何构建行业 GPT 进行了初步探讨和实践。期待行业同仁围绕通信和人工智能协同创新，构建开放共享的创新生态，促进人工智能与通信产业的深度融合，加速构建下一代信息基础设施，助力经济社会数字化转型。AIGC（GPT-4）赋能通信行业应用白皮书 13 二.GPT-4 研究 2.1 AIGC 与 GPT-4 AIGC是继专业生成内容（PGC）和用户生成内容（UGC）之后，利用人工智能技术自动生成内容的新型生产方式。AIGC 根据其内容模态不同可分为文本、视频、图像，音频与跨模态生成。文本方面，例如文本创作、代码生成、问答对话等；视频方面，例如视频画质增强、视频

20、内容创作、视频风格迁移等；图像方面，例如图片编辑、图片生成、3D 图像生成等；音频方面，例如文本合成语音、语音克隆、音乐生成等；跨模态方面，如文字生成图片、文字合成视频、图像描述等，而且在不同内容模态的技术应用场景也有着各自的细分品类。ChatGPT 是 AIGC 发展的第一个丰碑。ChatGPT 是由人工智能研究公司OpenAI 在 2022 年 11 月发布的一个对话型大语言模型，是人工智能技术驱动的自然语言处理工具和应用。ChatGPT 的全称是 Chat Generative Pre-trained Transformer，顾名思义，就是以 Transformer 为基础架构，采用预训

21、练和生成式方式构建的面向对话的大语言模型，是 AIGC 在文本方面的典型代表。ChatGPT 的主要用途是生成对话，它能够通过学习和理解人类的语言来进行对话，根据聊天的上下文进行自然、流畅的互动，还能完成邮件撰写、文案编写、文本翻译、代码生成等任务。ChatGPT 提供了前所未有的高效、自然的人机交互体验和极富创造力的内容生成能力，成为了 AI 时代的第一个“杀手级”应用。以 ChatGPT 为代表的生成式 AI 工具将使机器可以大规模参与知识类和创造性工作，极大提升生产力，涉及数十亿人方方面面的工作，可能产生数万亿美元的经济价值。ChatGPT 覆 AIGC（GPT-4）赋能通信行业应用白皮

22、书 14 盖了 NLP 所有领域，其所代表的大规模预训练语言模型（LLM）或基础模型已成为工业界和学术界最为关注的研究热点，并引领近期自然语言处理（NLP）乃至人工智能领域的研究范式的转变，对人工智能的技术发展可能产生重大影响。相距 ChatGPT 发布仅仅 4 个月，OpenAI 在 2023 年 3 月正式发布了多模态预训练大模型 GPT-4。GPT-4 支持图片和文本输入并生成文本输出，相比ChatGPT 增加了识图能力，并能够生成歌词、创意文本、学习用户的写作风格等，更具创造力和协作性。GPT-4 的输入限制提升至 2.5 万字，处理能力是 ChatGPT 的八倍，可用于长篇内容创作、

23、扩展对话以及文档搜索和分析等应用场景，并可以用所有流行的编程语言写代码。GPT-4 的回答准确性大幅提高，性能优于现有的大型语言模型、以及当前最先进（SOTA，State Of The Arts）模型，虽然在许多现实场景中不太聪明，但在各种专业和学术基准上表现出了人类水平。ChatGPT 存在一定局限，如逻辑处理能力不够强，对上下文的理解仍然有限，多轮对话可能失控，缺乏一些通识能力，可能会出现创造不存在的知识，或者主观猜测提问者的意图，对 2021 年后的世界和事件了解有限。GPT-4 相较于ChatGPT，不合规内容的响应请求降低了 82%，响应准确度提高了 40%，具备了更高的理解能力。但

24、是 GPT-4 仍然具有与早期 GPT 模型相似的局限性，如：犯常识性的错误、缺乏对新世界知识的了解、存在社会偏见、产生幻觉、推理错误等。总的来说，ChatGPT 和 GPT-4 是NLP 和人工智能领域划时代的标志，也昭示着人类向通用人工智能或强人工智能迈出了尝试性的一步。GPT-4 基于 Transformer 架构演进发展，其发展历程如下：l 2017 年 6 月，Google 发布论文Attention is all you need1，首次提出 Transformer 模型，成为 GPT 发展的基础；AIGC（GPT-4）赋能通信行业应用白皮书 15 l 2018 年 6 月，Ope

25、nAI 发布论文Improving Language Understanding by Generative Pre-Training2(通过生成式预训练提升语言理解能力)，首次提出 GPT-1 模型(Generative Pre-Training)；l 2019 年 2 月，OpenAI 发布论文Language Models are Unsupervised Multitask Learners3（语言模型应该是一个无监督多任务学习者），提出 GPT-2 模型；l 2020 年 5 月，OpenAI 发布论文Language Models are Few-Shot Learners4(语言

26、模型应是一个少量样本(few-shot)学习者)，提出 GPT-3 模型；l 2022 年 2 月底，OpenAI 发布论文Training language models to follow instructions with human feedback5（使用人类反馈指令流来训练语言模型），公布 Instruction GPT 模型；l 2022 年 11 月 30 日，OpenAI 推出 ChatGPT 模型并提供试用，自发布两个月内月活跃用户数已达 1 亿，成为史上用户数增长最快的消费者应用；l OpenAI GPT-4 模型于 2023 年 3 月 14 日发布，并已在微软的新版搜

27、索引擎必应（Bing）上运行。AIGC（GPT-4）赋能通信行业应用白皮书 16 图 2-1 ChatGPT 发展历程 2.2 GPT-4 的能力分析 NLP 领域研究包括了众多子领域，从任务角度看可分为两大类：一类是中间任务，即自然语言理解任务，如中文分词、词性标注、句法分析、指代消解等；另一类是最终任务，即自然语言生成任务，如文本分类、文本摘要、机器翻译、文本对话等。随着 GPT 等 LLM 的出现，自然语言生成任务兼容覆盖了自然语言理解任务，中间任务逐渐退出，LLM 可以直接端到端实现最终任务。而ChatGPT/GPT-4 则用自然对话的人类表达的方式，提供了 LLM 与人的新型交互接口

28、，以统一的接口方式支撑 NLP 的所有领域端到端最终任务。在日常对话中，ChatGPT 和 GPT-4 之间的差异很小。但是当任务的复杂性超过了某一阈值时，GPT-4 的表现则要优于 ChatGPT。此外，GPT-4 不仅能接受纯文本输入，还可以接受图片作为输入来完成图片描述、图片分类和图片分析任务，但该功能暂未对外开放，仍处于内测阶段6。下面以 GPT-4 对话接口的方式，通过示例进行GPT-4 端到端任务能力分析。多种风格解释复杂名词多风格复杂名词解释指人工智能在解释一个名词时使用多种不同的风格或方式，包含严谨、科技、幽默、简单易懂等风格。这种能力可以在不同的场景中得 AIGC（GPT-

29、4）赋能通信行业应用白皮书 17 到应用，例如学术知识科普、复杂概念简化等。GPT-4能够以各种风格来扮演各种角色，向各种类型的用户解释一些复杂的名词。例如，向 GPT-4 询问通信行业的 5G 网络技术时，它所产生的回答如下图 2-2。图 2-2 GPT-4 解释复杂名词上述GPT-4 对于5G 网络的解释，可能很难让一个5 岁的孩子快速理解。当告诉 GPT-4，需要 GPT-4 简化概念，向一个 5 岁的孩子介绍时：图 2-3 GPT-4 简化概念，解释复杂名词 AIGC（GPT-4）赋能通信行业应用白皮书 18 而对于一些想深入了解 5G 网络其中所运用到的技术的用户而言，GPT-4

30、能够以一个通信网络工程师的身份，向用户介绍 5G 网络的概念：图 2-4 GPT-4 以专业人士身份，解释复杂名词特定要求或主题创作文章 AI 写作根据用户给定的输入生成符合语法和语义要求的文本内容，包括新闻报道、技术介绍、小说、商业信函等等。在 AI 写作的应用场景中，人们通常会提供一些初始的输入，例如主题、文章结构等等特定要求，AI 会根据这些输入自动生成对应的文本内容。与传统的人工撰写相比，AI 写作可以大大提高工作效率，同时还可以生成更加多样化和精准的文本内容，因此越来越受到各行各业的关注和应用，图 2-5 为 GPT-4 所撰写的关于 AIGC 的文章：AIGC（GPT-4）赋能通

31、信行业应用白皮书 19 图 2-5 GPT-4 根据特定要求或主题创作文章对话机器人对话机器人要求人工智能理解用户的语言输入，并根据用户需求和问题生成相应的回答。用户可以通过对话机器人进行语音或文字交互，就像与真人交谈一样，从而获得所需的信息和服务。对话机器人可以应用于多种场景，例如客户服务、虚拟助手等。在客户服务领域，对话机器人可自动回答客户的常见问题，解决客户的问题，减少客服工作量，提高客户满意度；在虚拟助手领域，对话机器人可以帮助用户完成日常任务，如提醒、查询、推荐、预定等，图 2-6 为 GPT-4根据用户的具体需求而推荐的购机指南：AIGC（GPT-4）赋能通信行业应用白皮书 2

32、0 图 2-6 GPT-4 与用户多轮对话进行推荐辅助进行代码编写、Debug 及解释 GPT-4具有非常强大的代码生成能力，可以生成、修正各种编程语言的代码片段。具体而言，GPT-4的代码生成能力主要基于两个方面：一是其能够理解并生成自然语言描述的程序逻辑；二是其能够生成符合编程语言语法规则的代码。GPT-4通过对大量程序源代码和自然语言描述的语料进行训练，学习到程序的逻辑结构和语义含义。当输入一段自然语言描述的程序逻辑时，GPT-4可以理解其 AIGC（GPT-4）赋能通信行业应用白皮书 21 中的含义并生成对应的代码。GPT-4的训练数据也包括大量的符合编程语言语法规则的代码片段，因此

33、它可以很好地遵循编程语言的语法规则生成代码。GPT-4还可以结合常见的编程库和框架生成相应的代码，比如生成使用 Scikit-learn 进行机器学习训练的 Python 代码。图 2-7 为 GPT-4 使用 Python 编程语言和机器学习框架 Scikit-learn 进行机器学习训练的代码：图 2-7 GPT-4 智能生成代码 AIGC（GPT-4）赋能通信行业应用白皮书 22 GPT-4 具备代码解释能力。对于一些缺少注释的代码，GPT-4 也能够自动识别代码块的编程语言，代码块的缩进等，以代码注释的方式向用户解释每行代码的具体作用：图 2-8 GPT-4 智能解释代码 AIGC（G

34、PT-4）赋能通信行业应用白皮书 23 GPT-4 具备代码修正能力。GPT-4 能够自动识别代码块中所存在的错误并给出合理的解释并修正：图 2-9 GPT-4 智能修正代码文本知识抽取文本知识抽取是指人工智能从自然语言文本中提取结构化或半结构化的信息或知识。对于 GPT-4 而言，用户仅需要输入特定的文本抽取任务和待抽取的文本，GPT-4 就能够抽取出文本中的关键性实体，对于苹果即将上市的iPhoneSE4 智能手机配置信息，GPT-4 的抽取结果如下图 2-10：AIGC（GPT-4）赋能通信行业应用白皮书 24 图 2-10 GPT-4 抽取文本中关键信息阅读理解与分析阅读理解与

35、分析任务要求人工智能不仅仅能理解和抽取文本中的关键字词，还能够推理出更加深入的信息和数据。对于 2022 年亚信科技公司的年中财报数据，GPT-4 不仅仅能够将文本中的关键数字提取并列表，还能够推理出 2021 年的三新业务收入、三新业务收入占比等：图 2-11 GPT-4 智能分析文本和数据并制表 AIGC（GPT-4）赋能通信行业应用白皮书 25 复杂问题分析 GPT-4具有更渊博的知识和更强大的解决问题的能力，它可以以更高的精度分析解决复杂的问题：图 2-12 GPT-4 分析解决复杂问题 AIGC（GPT-4）赋能通信行业应用白皮书 26 图文分析 GPT-4可以同时接受文本和图片输入

36、，通过分析图片内容，结合输入文本作出合理回复6：图 2-13 GPT-4 处理文本图片混合输入 AIGC（GPT-4）赋能通信行业应用白皮书 27 从上述分析示例看，GPT-4 展示了四个极为重要的能力：l 为人类提供世界知识：GPT-4 拥有庞大的世界知识，包括事实性知识和常识，相比之前的 LLM 覆盖了更多的主题和知识。不仅可以提供知识的查询和检索，而且可以进行知识的归纳和总结，甚至提供简单的知识推理和证明能力。l 为人类与 LLM 之间提供了符合人类习惯的交互方式：以遵循提示（prompt）并生成补全提示词的句子的语言生成方式，通过上下文学习保持对话一致性，能理解人类意图并用自然语言回答

37、问题、生成内容和解决问题，改变了现有人机互动方式及人类获取世界知识的方式。l 为人类提供了跨语言及多模态交流能力：不仅可以处理多种人类语言，还可以理解图片内容，为人们提供更加便捷的交流，此外还可以将人类语言与机器语言进行相互翻译，促进了人机物三元世界的融合。l 具备了自我学习，自我进化的能力：能够自动从海量数据和人类指令中学习到其中的世界知识，学习过程不需要人的介入，而且可以自行检查学习成果并不断优化迭代，能灵活应用所学知识来解决实际问题。当然，我们也看到，由于 GPT-4 是基于通用公开数据进行训练，缺少各行业领域的非公开的专业数据。这就造成其世界知识中缺乏深度的专业知识。因此，虽然在与人类

38、进行沟通中，可以进行百科全书式的回答，但距离真正满足专业场景，还有相当大的差距。AIGC（GPT-4）赋能通信行业应用白皮书 28 2.3 GPT-4 的技术原理 GPT-4 是第四代 GPT 模型，但是技术原理上与 GPT-3.5 版本的 ChatGPT更为接近。ChatGPT 的技术特征已经包含在其全称 Chat Generative Pre-trained Transformer 中，是针对对话（Chat）进行的专门优化，GPT-4 全部保留了上述技术特征。Transformer 是 GPT 系列的基础架构，预训练和生成式是其成功之匙。本节通过 Transformer、GPT-1、GPT

39、-2、GPT-3、InstructGPT、ChatGPT等一系列 GPT 技术的演进脉络分析，阐述 GPT-4 的技术原理。2017 年，谷歌大脑团队在机器学习与人工智能领域顶会 NeurIPS 发表了“Attention is all you need”论文，首次提出了基于自注意力机制（self-attention）的变换器（Transformer）模型并用于自然语言处理。相比于传统的循环神经网络（RNN）或卷积神经网络（CNN），Transformer 采用自注意力机制、多头注意力机制、前馈网络、残差连接等技术，具有更好的长距离特征捕获能力、特征提取能力和并行运行效率1。这些能力使 Tra

40、nsformer 可以处理更大量的数据，形成更大规模的网络，从而引发了预训练模型的形成，并进一步使其在自然语言处理任务中获得出色表现。Transformer 的诞生，深刻地影响了接下来几年人工智能领域的发展，标志着预训练大模型的开始7。在不同的场景中，Transformer 衍生出了不同架构。例如，在生成性任务中，GPT-3 是基于自回归序列思路的模型8；在自然语言理解任务中，BERT 是基于 Transformer+Mask的自编码序列思路的模型9；在条件文本生成任务中，T5 使用 Encoder-decoder架构，利用双向或单向 attention 来解决条件文本生成任务 10。AIGC

41、（GPT-4）赋能通信行业应用白皮书 29 图 2-14 Transformer 架构 GPT-1 模型基于 Transformer 解决了顺序关联和依赖性的问题，并采用生成式方式，重点考虑了从原始文本中有效学习的能力。在 GPT-1 中，采用了 12 个Transformer 块的结构作为解码器，每个 Transformer 块是一个多头的自注意力机制，然后通过全连接得到输出的概率分布2。GPT-1 的训练分为无监督的预训练和有监督的模型微调，这对于减轻自然语言处理中对监督学习的依赖至关重要。但是，GPT-1采用的是自回归序列的架构，难以处理过长的文本。在生成长文本时，GPT-1会出现信息遗

42、忘和重复等问题。在某些特定任务上，如机器翻译等，其表现并不如其他特定领域的模型表现出色。GPT-2的目标是训练一个泛化能力更强的词向量模型，通过使用无监督的预训练模型做有监督的任务，尝试解决 zero-shot(零次学习问题)3。GPT-2 没有对 AIGC（GPT-4）赋能通信行业应用白皮书 30 GPT-1的网络进行过多的结构创新与设计，只是使用了更多的网络参数和更大的数据集。GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型可以迁移到其他任务中，而不需要额外的训练。然而实验表明，GPT-2的无监督学习和零次学习结果未达预期。GPT-3 在 GPT-2 追求无监督和零次

43、学习的特征基础上进行了改进，转而追求无监督模式下的 few-shot(少量学习）。GPT-3 在网络容量方面有了巨大提升，基于 45TB 的文本数据训练，在多个 NLP 数据集上实现了出色的性能4，具体来说：采用了 96 层的多头 Transformer，每层有 96 个头；词向量长度为 12888；上下文窗口大小提升至 2048 个 token；采用 alternating dense 和 locally banded sparse attention。GPT-3 能够生成高质量的文本，但有时在编写长句并反复重复文本序列时可能会失去连贯性。而且无监督模式下的 few-shot 效果仍然略逊于

44、 fine-tuning 监督微调的方式。InstructGPT 是基于 GPT-3 的一轮增强优化，所以也被称为 GPT-3.5。In-structGPT 采用了人类反馈的强化学习方案（RHLF），对 GPT-3 增加了监督微调，进一步增加了奖励模型，通过训练出的奖励模型指导语言模型的学习即增强学习优化5。这个过程是可以多次迭代优化的，因此 InstructGPT 自动化的实现了比 GPT-3 更好的性能，同时减少了参数的数量。ChatGPT 采用 InstructGPT 相同结构的模型，针对 Chat 进行了专门的优化，同时开放到公众测试训练，以便产生更多有效标注数据。基于人类反馈的强化学

45、习（RLHF）方法的使用是 ChatGPT 区别于其他生成类模型的最主要原因，该方法帮助模型尽量减少有害的、不真实的及有偏见的输出，提升自然沟通效果。同时，为了更好地支持多轮对话，ChatGPT 引入了一种基于堆栈的上下文管理的机制，帮助 ChatGPT 跟踪和管理多轮对话中的上下文信息11。ChatGPT 将上 AIGC（GPT-4）赋能通信行业应用白皮书 31 下文压入堆栈，并通过堆栈中的上下文信息使用注意力机制对齐用户的意图和之前的对话内容，并根据对话历史生成响应，从而在多轮对话中生成连贯自然的回复。GPT-4 与之前的 GPT 模型一样，是一个基于 Transformer 的预训练模型

46、，使用公共可用数据（如互联网数据）和第三方提供商许可的数据来预测文本中的下一个词。然后使用人类反馈强化学习（RLHF）对模型进行微调。在此基础上GPT-4 使用了更多的数据，基础模型的训练数据包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，以及各种各样的意识形态和想法，同时建立了一个可预测扩展的深度学习堆栈6，为了解决对于像 GPT-4这样的大型模型训练，对特定任务微调是不可行的问题，这也是 GPT-4 的一大重点，OpenAI 团队开发了基础设施和优化方法，通过使用自回归生成模型的缩放定律12，对大规模语言模型最终损失进行预测，增加可预测扩展，减少计算量。GPT-4

47、涉及到技术重点包括：指令微调（Instruction Fine-Tuning，IFT）、有监督微调（Supervised Fine-tuning，SFT）、人类反馈强化学习(Reinforce-ment Learning From Human Feedback，RLHF)、思维链(Chain-of-thought，CoT)等，下述对这些关键技术做进一步介绍：IFT 是为了解决基础模型未遵循用户的指令时，对基础模型的微调。在基础模型的语言建模目标不足以让模型学会以有用的方式遵循用户的指令，IFT 方法除了使用情感分析、文本分类、摘要抽取等经典 NLP 任务来微调模型外，还在非常多样化的数据集上向

48、基础模型示范各种指令及输出，从而实现对基础模型的微调14。指令示范主要由指令、输入和输出组成，输入是可选的，一些任务只 AIGC（GPT-4）赋能通信行业应用白皮书 32 需要指令，例如 ChatGPT 和 GPT-4 做开放式文本生成任务，当存在输入时，输入和输出组成一个实例，给定指令可以有多个输入和输出实例。IFT 的训练数据通常是人工编写的指令或用语言模型生成的实例，在语言模型生成中，先使用少样本技术输入一些样本给 LM 用户提示它，然后要求 LM 生成新的指令、输入和输出，每一轮都会从人工编写的样本和模型生成的样本中各选择一些送给模型。经过 IFT 的 LM 生成的结果并不一定是有帮助

49、的或安全的，比如通过给出诸如“对不起，我不明白”的模棱两可的或者无益的结果，为了减轻这种行为，需要在高质量的人类标注数据上微调基础的语言模型，以提高有用性和无害性。SFT 和 IFT 联系非常紧密，IFT 可以看作是SFT 的一个子集，模型开发人员在开发过程中，常把 SFT 阶段用户提高生成的安全性，而不是接在 IFT 后面提高指令相应的具体性13。RLHF 是 InstructGPT、ChatGPT、GPT-4 成功的关键之一。在 RLHF 中，根据人类反馈来对模型的响应进行排序标注(如，根据人类偏好选择文本简介)。然后，用这些带标注的响应来训练偏好模型，该模型用于返回 RL 优化器的标量奖

50、励。最后，通过强化学习训练对话代理来模拟偏好模型。基于 RLHF 的 GPT-4 训练方法由三个不同的步骤组成11，如图 2-15 所示。AIGC（GPT-4）赋能通信行业应用白皮书 33 图 2-15 RLHF 训练方法步骤 1：对基于监督学习获取的 GPT-3.5 模型进行微调，得到 SFT 模型。微调是使用问题/答案对完成的。首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5 模型，通过对输入和输出数据的拟合来改进网络，调整模型的参数。此时的 SFT 模型在遵循指令/对话方面已经优于 GPT-3，但不一定符合人类偏好。步骤 2

展开阅读全文