GPT大模型多模态应用展望.pdf

资源描述

请务必阅读末页的免责条款和声明计算机行业“智能网联”系列报告计算机行业“智能网联”系列报告GPT：大模型多模态应用展望：大模型多模态应用展望2核心观点核心观点ChatGPT通过大模型突破通过大模型突破AI瓶颈瓶颈，GPT-4多模态应用带动商业化加速多模态应用带动商业化加速。ChatGPT凭借大算力、大规模数据训练、基于人类知识的强化学习等方式突破AI技术瓶颈，获得超预期的用户体验效果与市场反响。回顾GPT系列模型演进，GPT-1结合无监督预训练与有监督微调过程，GPT-2突出零样本设定，GPT-3强调上下文学习能力，参数量、训练数据量不断提升。我们预计即将推出的GPT-4或支持多模态应用，开启通往人工通用智能（AGI）之路，并有望控制训练成本，降低使用门槛。目前，ChatGPT已在C端推出ChatGPT Plus订阅计划，B端开放ChatGPT API，且成本降低为0.002美金/1000token，海外多个应用率先接入。我们预计在GPT-4带动下，未来大模型以及多模态模型的商业化应用将进一步加速，带动行业景气度持续向上。Transformer架构支撑架构支撑GPT走向多模态走向多模态，构筑构筑AIGC领域核心基石领域核心基石。GPT系列模型使用Transformer架构，当前基于Transformer的多模态研究为AI领域研究热点，Transformer已开始打破NLP与CV领域壁垒，有望支撑GPT系列模型走向多模态应用，构筑AIGC领域核心能力基石。我们梳理出GPT的潜在基础能力包括文本生成（分析）、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为，前述基础能力将支撑GPT系列模型在通用与垂直领域的应用，典型应用场景如：通用领域搜索引擎/办公软件，垂直领域教育/金融/医疗/图像视频等。通用与垂直场景多点开花通用与垂直场景多点开花，GPT变革内容生成与交互方式变革内容生成与交互方式。GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频，我们看好GPT类技术未来在通用与垂直场景的应用空间。例如，搜索引擎结合GPT将重塑搜索结果呈现方式，多模态的引入带来一站式的文本、图像、视频汇集结果，将大为提升用户信息收集效率，百度文心一言有望引领用户搜索体验的代际变革；在办公软件领域，金山WPS、福昕PDF未来若结合多模态GPT，有望深化用户在流程/事务/知识/创意/协作型等多类工作事项上的智能办公体验，同时支撑产品打开客单价提升空间；讯飞将以AI学习机率先落地类ChatGPT技术，有望在作文辅导、口语学习方面实现跃升；当虹科技具有视频AI建模能力、落地AIGC相关技术，GPT赋能下或进一步深化传媒、安全领域应用。投资策略：投资策略：伴随成本下降以及多模态的持续演进，GPT等大模型有望构筑AIGC核心基石，推动AI商业化进程加速和市场天花板打开。建议持续关注相关领域的AI公司：1）应用层：AI+行业：办公金山办公、福昕软件，教育科大讯飞，金融同花顺、东方财富，医疗创业慧康、卫宁健康，图像视频商汤科技、当虹科技、云从科技、格灵深瞳、创新奇智、虹软科技、魅视科技，其他-拓尔思、汉王科技、海天瑞声等；2）基础设施层：海光信息、景嘉微、寒武纪、浪潮信息、工业富联、中科曙光等。风险提示：风险提示：AI核心技术发展不及预期风险；科技领域政策监督收紧风险；企业数据安全风险；信息安全风险；行业竞争加剧风险。YWAZyRsPnOnMpRpMtOpQoPaQdN9PnPnNnPmPkPpPoNeRnMpM9PnNxPNZtQxOuOnNmO目录目录CONTENTS31.ChatGPT通过大模型突破通过大模型突破AI瓶颈，瓶颈，GPT-4多模态应用带动商业化加速多模态应用带动商业化加速2.Transformer架构支撑架构支撑GPT走向多模态，构筑走向多模态，构筑AIGC领域核心基石领域核心基石3.通用与垂直场景多点开花，通用与垂直场景多点开花，GPT变革内容生成与交互方式变革内容生成与交互方式4.投资策略投资策略5.风险提示风险提示41.ChatGPT通过大模型突破通过大模型突破AI瓶颈，瓶颈，GPT-4多模态应用带动商业化加速多模态应用带动商业化加速5ChatGPT是自然语言处理是自然语言处理（NLP）下的下的AI大模型大模型，通过大算力通过大算力、大规模训练数据突破大规模训练数据突破AI瓶颈瓶颈。2022年11月，OpenAI推出ChatGPT，ChatGPT基于GPT-3.5，使用人类反馈强化学习技术，将人类偏好作为奖励信号并微调模型，实现有逻辑的对话能力。ChatGPT本质上是通过超大的统计语言模型，对词语序列的概率分布进行建模，利用上下文信息预测后续词语出现的概率分布，其表现的超预期反映了在算力水平提升的情况下大语言模型技术路线的成功，通过对大规模的未标注的文本数据进行训练，突破了AI发展的技术瓶颈。根据瞭望新闻周刊报道，OpenAI为了让ChatGPT的语言合成结果更自然流畅，使用了45TB的数据、近1万亿个单词来训练模型，训练一次的成本高达千万美元，一个月的运营成本需要数百万美元。资料来源：OpenAI官网资料来源：OpenAI官网ChatGPT帮助用户给邻居写信帮助用户给邻居写信ChatGPT帮助用户帮助用户debug1.1 概述：概述：ChatGPT为为NLP下的下的AI大模型，性能和使用体验超预期大模型，性能和使用体验超预期6ChatGPT出自美国出自美国AI创业公司创业公司OpenAI，是是AI大模型领域的领军者大模型领域的领军者。OpenAI在2015年由Sam Altman、Peter Thiel、ReidHoffman、Elon Musk等人创办。公司成立之初，即确定了包括制造“通用”机器人和使用自然语言的聊天机器人的发展目标。2019年，OpenAI获得来自微软的10亿美元投资，为Azure云端平台服务开发AI技术。2018年起，OpenAI开始发布GPT（Generative Pre-trained Transformer）模型，2020年发布GPT-3，可以完成答题、写论文、代码生成等任务，被视为人工智能竞赛的里程碑事件，并直至ChatGPT的推出引起AI的热潮。除了NLP领域，OpenAI还在多模态领域取得成就，包括发布了AI图像生成器DALL-E2，对音频转录编辑器Descript、AI笔记应用Mem等进行投资。资料来源：OpenAI官网，中信证券研究部1.1 概述：概述：OpenAI倾力打造倾力打造ChatGPT，获得微软有力加持，获得微软有力加持OpenAI发展历程发展历程2015OpenAI成立，马斯克等人参与2016OpenAI宣布其发展的主要目标，发布第一个项目OpenAI Gym Beta2017发布Proximal Policy Optimization算法2018发布GPT-12019202020212022发布GPT-2，获微软10亿美元投资发布GPT-3，开放人工智能应用程序接口研究从文本创建图像神经网络DALL E发布人工智能系统DALL E 2与ChatGPT7GPT-1发布于发布于2018年年6月月，参数量达参数量达1.17亿亿，预训练数据量约预训练数据量约5GB。GPT-1包含预训练和微调两个阶段，考虑到自然语言处理任务中有标签的语料少，GPT-1先在大量的无标签数据上训练语言模型，然后在下游具体任务（如分类、常识推理、自然语言推理等）的有标签数据集上进行微调。1）在无监督训练中，GPT-1采用Transformer的架构，即标准的语言模型的目标函数，通过前面的词预测后面的词；2）在有监督训练中，采用标准的分类目标函数，仅需对第一阶段预训练的语言模型做出很小的结构改变，即可应用于各种下游任务。GPT-1使用了BooksCorpus数据集来训练语言模型，其中有7000余本未出版的书籍。具体表现上，在有监督学习的12项任务中，GPT-1在其中9项上的表现优于专门训练的受监督模型。资料来源：Improving Language Understanding by Generative Pre-Training（Alec Radford、Karthik Narasimhan、Tim Salimans等）资料来源：Improving Language Understanding by Generative Pre-Training（Alec Radford、Karthik Narasimhan、Tim Salimans等）GPT-1包含预训练和微调两个训练阶段包含预训练和微调两个训练阶段GPT-1在自然语言推理任务、问答和常识推理任务中的表现在自然语言推理任务、问答和常识推理任务中的表现1.2 演变：演变：GPT-1无监督预训练无监督预训练+有监督微调有监督微调8GPT-2发布于发布于2019年年2月月，参数量达参数量达15亿亿，预训练数据量约预训练数据量约40GB。GPT-1使用的概率条件模型为p(output|input)，GPT-2使用相同的无监督模型学习多个任务，将概率条件模型修改为p(output|input,task)，期望模型对不同任务的相同输入产生不同的输出。此外，GPT-2采取Zero-shot设定，不需要下游任务的标注信息，而是根据给定的指令理解任务。因此GPT-2的核心思想在于多任务学习。GPT-2训练的数据集来自社交新闻平台Reddit，共有约800万篇文章，体积超40GB。具体表现上，在8个语言模型任务中，仅通过Zero-Shot学习，GPT-2在其中7个上领先。GPT-2表明，随着模型容量和数据量增大，GPT模型的潜力仍有望进一步显现。资料来源：Language Models are Unsupervised Multitask Learners（Alec Radford、Jeffrey Wu、Rewon Child等）1.2 演变：演变：GPT-2无监督预训练无监督预训练+多任务学习多任务学习语言模型参数增加，语言模型参数增加，Zero-shot在在NLP任务上表现提升任务上表现提升9GPT-3发布于发布于2020年年5月月，参数量达参数量达1750亿亿，预训练数据量约预训练数据量约45TB。GPT-3采用海量的参数来进行训练和学习，不追求GPT-2中的Zero-shot设定，而是通过少量样例（Few-shot或One-shot）理解并执行任务，对应为模型的上下文学习能力。GPT-3在作用到子任务时，无需进行微调，以避免庞大的模型体量所带来的高成本。具体表现上，在大量的语言模型数据集中，Zero-shot或Few-shot设置下，GPT-3超过了LAMBADA和Penn Tree Bank；GPT-3也在很多复杂的NLP任务中超过微调后的最佳方法。资料来源：Language Models are Few-Shot Learners（Tom B.Brown、Benjamin Mann、Nick Ryder等）资料来源：Language Models are Few-Shot Learners（Tom B.Brown、Benjamin Mann、Nick Ryder等）Few-shot准确性表现增速更快表明大模型在上下文学习上更强大准确性表现增速更快表明大模型在上下文学习上更强大Zero-shot、one-shot、few-shot与与fine-tune对比对比1.2 演变：演变：GPT-3无监督预训练无监督预训练+海量参数海量参数10ChatGPT基于基于GPT-3.5开发开发，最大的变化在于引入人类反馈强化学习最大的变化在于引入人类反馈强化学习。ChatGPT引入人类反馈强化学习，使用人工对模型回复进行打分排名，使得其更好地理解并完成指令。在表现上，ChatGPT能够理解指令、提供基本令人满意甚至是超预期的回答、进行多轮对话以及拒绝不合理的请求等。相较于GPT-3，ChatGPT的回答更有体系性、逻辑性；相较于对话机器人，ChatGPT能够回答假设性的问题，并可以连续对话。未来，ChatGPT待强化的方向还包括：纳入最新的网络语料、避免不合理的答案输出等。资料来源：OpenAI官网1.2 演变：演变：ChatGPT基于基于GPT-3.5，引入人类反馈强化学习，引入人类反馈强化学习ChatGPT训练包括训练监督策略模型、训练奖励模型、训练包括训练监督策略模型、训练奖励模型、PPO强化学习三个阶段强化学习三个阶段11GPT-4备受业界期待备受业界期待，训练成本控制有望带动商业潜力的极大增强训练成本控制有望带动商业潜力的极大增强。ChatGPT的突出表现使得外界对GPT-4十分期待，自2021年以来便有报道称GPT-4“即将推出”，OpenAI公司CEO Sam Altman今年受StrictlyVC采访时表示GPT-4将在“有信心可以安全且负责任地运行时”推出。外界此前也曾预期，GPT-4的推出或分阶段进行，例如GPT-3也是先开放给合作伙伴、付费用户和学术机构，才在2022年底开放给公众。在参数量上，针对有传言称GPT-4参数量将达到百万亿，OpenAI公司CEO Sam Altman予以否定。此外，AI专家AlbertoRomero预测，GPT-4的重点在数据处理优化上，因此其使用门槛有望降低，我们预计训练成本的控制将带动其商业潜力的增强。资料来源：微信公众号“机器之心”资料来源：The Verge，中信证券研究部GPT-4参数量的传闻遭到否定参数量的传闻遭到否定Altman谈及谈及GPT-4预计推出时间预计推出时间1.3 展望：展望：GPT-4此前外界预期参数量变化不大、使用门槛有望降低此前外界预期参数量变化不大、使用门槛有望降低12最新消息称最新消息称GPT-4将于下周推出将于下周推出，支持多模态应用支持多模态应用，开启通往人工通用智能之路开启通往人工通用智能之路。根据德国科技媒体“heise在线”报道，当地时间3月9日，微软德国公司首席技术官Andreas Braun在名为“AI in Focus-Digital Kickoff”的活动中透露称“将在下周推出GPT-4，它将是一个多模态模型，会提供完全不同的可能性例如视频”。这意味着GPT-4可以管理不同语言数据的输入和输出，也能够做到输出图像甚至视频。在活动上，微软AI技术专家对多模态AI的应用案例进行了介绍，例如能够将电话呼叫的语音直接记录成文本，这为微软位于荷兰的一家大型客户节省500个工作小时/天。GPT-4对多模态的支持使得外界对模型潜力的预期进一步强化，原因在于多模态感知是建立人工通用智能（AGI）的重要一步，基于此能够执行人类水平的一般任务。资料来源：heise online资料来源：微信公众号“水木学堂”微软德国公司首席技术官微软德国公司首席技术官Andreas Braun称称GPT-4即将推出即将推出人工智能已从单模态转向多模态人工智能已从单模态转向多模态1.3 展望：展望：GPT-4最新消息称推出在即、支持多模态最新消息称推出在即、支持多模态13ChatGPT迅速走红迅速走红，以订阅制服务以订阅制服务B端端、C端客户端客户，成本控制下将有效加速商业化落地成本控制下将有效加速商业化落地。ChatGPT自年初以来，持续出圈，截至2023年1月末月活突破1亿，成为史上增长最快的消费者应用。考虑到计算资源所牵涉的庞大训练成本、运行成本，ChatGPT的商业化路径已正在探索、明确中。商业模式商业模式1）C端端：OpenAI发布ChatGPT Plus订阅计划，每月收费20美元，相较于免费版本，即便在高峰时段用户也能正常访问ChatGPT，响应时间更快，可以优先使用新功能，有望引领AI技术变现新模式；2）B端端：OpenAI发布ChatGPT API，开发者可以将ChatGPT集成到产品中，价格为$0.002/1k token，相较于GPT-3.5降低90%，我们预计成本控制后有望快速带动GPT相关应用爆发。根据微信公众号“智东西”，生鲜电商Instacart、跨境电商Shopify、照片分享应用Snap、单词背诵应用Quizlet等已率先接入ChatGPT API。资料来源：OpenAI官网资料来源：OpenAI官网OpenAI上线上线ChatGPT Plus订阅计划订阅计划Quizlet将基于将基于ChatGPT API推出推出Q-Chat1.4 商业模式：商业模式：C端推出订阅制会员，端推出订阅制会员，B端提供调用端提供调用API接口接口142.Transformer架构支撑架构支撑GPT走向多模态，构筑走向多模态，构筑AIGC领域核心基石领域核心基石15GPT沿用主流沿用主流Transformer模型模型，该模型采用自注意力机制该模型采用自注意力机制，在在NLP上表现优于上表现优于RNN（循环神经网络循环神经网络）。2017年，谷歌在Attention is All You Need中提出Transformer模型，可用于文本摘要、机器翻译等NLP任务。在NLP方面，Transformer模型的自注意力（self-attention）机制可以为输入序列中的任意位置提供上下文，进而模型能够一次性处理所有输入数据，而非RNN一次只处理一个单词的情况，由此模型可以减少训练时间，能够在更大的数据集上进行训练。目前，基于Transformer的预训练语言模型已成为NLP领域的主流。资料来源Attention is All You Need（Google），中信证券研究部资料来源：动手学深度学习（李沐）Transformer的的Encoder-Decoder示意图示意图Transformer在长序列处理上解决了在长序列处理上解决了CNN的最长路径问题，也解决了的最长路径问题，也解决了RNN的并行度和的并行度和遗忘问题遗忘问题2.1 GPT采用的采用的Transformer架构在架构在NLP领域已跻身主流领域已跻身主流输入部分自注意力机制前馈神经网络多头自注意力机制交互层16Transformer也可用于也可用于CV（计算机视觉计算机视觉）领域领域，表现出巨大的性能提升表现出巨大的性能提升。CV领域此前更多由CNN（卷积神经网络）主导，而Transformer凭借着自注意力机制，表现出了巨大的性能提升。根据微软亚洲研究院，Transformer在图像分类、物体检测等任务中刷新了测评记录，例如2020年Transformer被首次应用于图像分类任务，结合海量的预训练数据，ViT在ImageNet-1K的validation评测集上取得88.55%的准确率。Transformer也在视频动作识别、视觉自监督学习、图像复原、图像分割等视觉任务中取得优异成绩。谷歌提出的ViT-MoE模型目前在参数量上领先，达到了150亿。资料来源：为何Transformer在计算机视觉中如此受欢迎？（微软亚洲研究院）资料来源：为何Transformer在计算机视觉中如此受欢迎？（微软亚洲研究院）学术界挖掘出的学术界挖掘出的Transformer建模的优点建模的优点Transformer在大模型方面展示了强大的可扩展性在大模型方面展示了强大的可扩展性2.2 Transformer也可用于也可用于CV领域，相较于领域，相较于CNN实现性能巨大提升实现性能巨大提升17GPT有望基于有望基于Transformer延伸至多模态延伸至多模态，构筑构筑AIGC核心基石核心基石，GPT-4或实现领跑或实现领跑。当前，基于Transformer的多模态学习成为AI领域的研究热点，研究者们提出了大量的Transformer变体。鉴于Transformer具有较少的特定于模态的架构假设，以及生成式预训练、大模型&大数据路线的成功，Transformer能够联动CV与NLP，通过联合建模完成，打破CV与NLP领域之间的壁垒。微软亚洲研究院2022年推出BEiT-3预训练模型，在目标检测、实例分割、语义分割、视觉推理、图片描述生成等任务上取得了SOTA的迁移性能。我们认为，基于Transformer架构，GPT未来有望延伸至多模态，助力内容创作由UGC、PGC全面走向AIGC，赋能通用领域以及金融、教育、医疗、传媒等垂直行业。资料来源：通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”（微软亚洲研究院）资料来源：通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”（微软亚洲研究院）BEiT-3预训练示意图预训练示意图BEiT-3在视觉在视觉-语言任务上表现突出语言任务上表现突出2.3 Transformer支撑下支撑下GPT有望走向多模态，构筑有望走向多模态，构筑AIGC领域核心基石领域核心基石18微软微软Kosmos-1基于基于Transformer可完成语言任务和基础的视觉任务可完成语言任务和基础的视觉任务，反映反映GPT发展潜力发展潜力。2023年3月初，微软推出多模态模型Kosmos-1，可以处理文本、音频、图像和视频等内容，并遵循指令（即零样本学习）以及在上下文中学习（即少样本学习）。Kosmos-1能够分析图像内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试（准确度在22-26%之间）以及理解自然语言指令等。Kosmos-1的骨干网络是基于Transformer的因果语言模型，用于训练的数据来自多模态语料库，包括单模态数据（如文本）、跨模态配对数据（图像-文本对）和交错的多模态数据。Kosmos-1的表现说明了多模态大模型的应用潜力。资料来源：Language Is Not All You Need（微软亚洲研究院）资料来源：Language Is Not All You Need（微软亚洲研究院）Kosmos-1能够进行图像解释、视觉应答、数字识别能够进行图像解释、视觉应答、数字识别Kosmos-1是第一个能完成零样本瑞文智商测试的是第一个能完成零样本瑞文智商测试的AI模型模型2.3 Transformer支撑下支撑下GPT有望走向多模态，构筑有望走向多模态，构筑AIGC领域核心基石领域核心基石19GPT基础能力包括文本生成基础能力包括文本生成（分析分析）、代码生成代码生成、对话交互对话交互、机器翻译机器翻译、图像生成图像生成、视频生成等视频生成等，借此赋能通用与垂直借此赋能通用与垂直领域应用领域应用，有望带来商业模式的重塑与变革有望带来商业模式的重塑与变革。结合ChatGPT现有应用场景，以及对GPT未来模型演变的展望，我们归纳出GPT的基础能力，具体包括：文本生成（分析）、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为，这些基础能力将支撑GPT在通用与垂直领域的应用，新的应用领域的出现也将基于这些能力的组合。例如，在办公软件领域，主要涉及GPT的文本能力；在教育行业，主要应用到文本、对话、翻译能力。资料来源：中信证券研究部整理2.3 Transformer支撑下支撑下GPT有望走向多模态，构筑有望走向多模态，构筑AIGC领域核心基石领域核心基石GPT能力与主要应用领域能力与主要应用领域GPT能力能力搜索引擎办公软件金融医疗教育图像视频NLP能力能力拼写检查信息检索主题建模文本分类封闭会话文本概括问题回答机器翻译信息提取开放会话多模态演进多模态演进GPT应用应用重塑结果呈现方式改变盈利模式影响竞争格局打造效率生产工具深化智能办公体验打开客单价空间启发式教学深入的对话探讨个性化精准学习智能客服&营销智能、精准的投顾强大投研能力支持导诊问诊辅助临床研究助手电子病历助手信息采集信息制作赋能赋能对话交互代码生成图像生成机器翻译文本生成视频生成203.通用与垂直场景多点开花，通用与垂直场景多点开花，GPT变革内容生成与交互方式变革内容生成与交互方式21搜索引擎接入搜索引擎接入GPT后结果呈现方式大为变化后结果呈现方式大为变化，或影响行业盈利模式与竞争格局或影响行业盈利模式与竞争格局。用户使用传统的搜索引擎时，需要手动翻阅搜索结果，判断是否为所需要的信息；而当搜索引擎接入GPT后，用户可直接获得答案集合。尽管受制于训练语料、成本等因素，答案准确性有待商榷，但在结果呈现方式上实现了变革，未来或与传统的搜索引擎相结合。如进一步实现多模态，搜索结果将更加丰富。微软在Bing中上线ChatGPT能力并开启测试，以聊天方式展示搜索结果，并可在对话中推荐广告。微软必应官方博客宣布，目前Bing日活突破1亿，集成搜索+聊天功能的Bing预览版自推出以来总聊天次数已超过4500万次。鉴于微软可能掀起搜索行业的第二次变革并颠覆此前的盈利模式，谷歌在2月初展示由大型语言模型LaMDA驱动的类ChatGPT应用Bard，并计划大范围推广。资料来源：Statista资料来源：上观新闻全球搜索引擎市场份额分布全球搜索引擎市场份额分布用户在新版用户在新版Bing对话中发现广告推荐内容对话中发现广告推荐内容3.1 通用场景：搜索引擎通用场景：搜索引擎GPT+文本文本&图像图像&视频重塑搜索结果呈现方式视频重塑搜索结果呈现方式22百度将推出文心一言百度将推出文心一言，在搜索领域有望引领体验的代际变革在搜索领域有望引领体验的代际变革，视频领域合作或率先走向多模态视频领域合作或率先走向多模态。百度是国内少有的具有超大规模语言训练能力的科技公司，2019年即推出文心大模型。百度打造的NLP大模型ERNIE 3.0 Zeus拥有千亿级参数，ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型。百度计划于3月16日召开文心一言发布会。此前，百度创始人李彦宏表示计划将搜索、智能云、Apollo自动驾驶、小度智能设备等多项业务与文心一言整合。例如在搜索引擎方面引领搜索体验的代际变革，鉴于爱奇艺宣布与百度共同探索将AIGC技术应用于内容搜索、宣发等，丰富的在线视频娱乐资源为未来多模态应用的构建提供了想象空间。此外，百度还将开放大模型支持交通、能源、制造等行业构建自己的模型和应用，打造人工智能生态系统，同时为公司带来丰厚的商业价值，目前已有多家科技、金融、传媒公司宣布成为合作伙伴。资料来源：文心大模型网站资料来源：文心大模型网站ERNIE 3.0 Zeus提出层次化提示学习技术提出层次化提示学习技术百度文心一言发布会将于百度文心一言发布会将于3月月16日召开日召开3.1 通用场景：搜索引擎通用场景：搜索引擎百度“文心一言”有望构筑大模型生态系统百度“文心一言”有望构筑大模型生态系统23GPT有望融入办公流程有望融入办公流程，率先推动办公软件转型为智能办公平台率先推动办公软件转型为智能办公平台。微软将于3月16日召开名为“Future of Work with AI”的发布会，预计将展示ChatGPT类技术在Teams、Word、Outlook等生产力套件中的应用。我们认为，在GPT的赋能之下，办公软件作为效率型生产力工具的属性将更加突出，功能上将更加智能化，用户有望享受到智能办公平台所带来的便利性与效率大幅提升。例如，在Word中，GPT将能够帮助用户生成文本，或将文档集汇总为关键点，使得用户快速理解和分析信息；在Outlook中，GPT可以处理收件箱文本，帮助用户更快捷地撰写或回复电子邮件；在Excel中，能够根据提示提取数据，如要求“按照利润列出世界前五大公司”后，生成Excel公式或制作可视化图表。资料来源：The Verge，微软资料来源：The Verge，微软Edge中的中的Bing AI侧边栏可以与侧边栏可以与Office Web一同使用一同使用微软在微软在Viva Sales邮件中提供邮件中提供OpenAI技术技术3.2 通用场景：办公软件通用场景：办公软件GPT+文本文本&图像打造效率型生产力工具图像打造效率型生产力工具24金山办公发布业内首个深度学习框架金山办公发布业内首个深度学习框架KSAI-Lite，并创新推出智能写作与演示文稿智能美化功能并创新推出智能写作与演示文稿智能美化功能，未来若在未来若在GPT赋能下有赋能下有望深化用户智能办公体验望深化用户智能办公体验，并打开客单价提升空间并打开客单价提升空间。金山办公AI中台围绕办公领域的计算机视觉、自然语言处理相关算法研究已开发了近100项AI能力，2021年7月发布业内首个面向办公领域的深度学习推理框架KSAI-lite，其适配国内外主流软硬件平台，支持OCR、机器翻译、智能校对等场景。金山办公还基于NLP技术推出WPS智能写作，功能包括文本自动生成、智能校对、智能改写等，WPS智能生成的内容占据云端整体内容资源的33.6%。WPS演示文稿创新使用智能美化功能，一键即可实现文本自动排版并根据语义恰当进行配图、配色，进而得到成熟、美观的演示文稿，大幅减少用户手动调整的工作量。演示文稿还支持智能化多图拼图，智能美化功能月度活跃用户数量也已超过百万。资料来源：WPS智能写作截图资料来源：WPS演示文稿截图WPS以“人工智能”为主题的智能写作输出结果以“人工智能”为主题的智能写作输出结果WPS演示文稿智能美化功能演示文稿智能美化功能3.2 通用场景：办公软件通用场景：办公软件WPS若结合若结合GPT将深化用户智能办公体验将深化用户智能办公体验25福昕软件投入福昕软件投入AI方向超方向超3年并具有年并具有AIGC能力能力，ChatPDF的丰富功能有望为其结合的丰富功能有望为其结合GPT提供借鉴提供借鉴。ChatPDF可通过ChatGPT API解读专业论文，例如用户上传PDF后，可直接对论文进行提问；此外，ChatPDF同样支持合同、文书、书籍等材料。福昕软件作为全球PDF核心技术与应用领域的领导厂商，下属的iDox.ai团队开发了合同检查、合同比较、敏感信息侦测等功能，相关产品自去年底推向市场，标准版、高级版年单价分别为200、400美元；此外，公司下属的前沿文档技术团队也在积极探索将AI技术与公司产品相结合。结合ChatPDF的先期探索，我们认为，未来在GPT赋能之下，福昕软件有望打造更智能的PDF文档处理解决方案，构筑新型知识传播、转化利器，助力用户更高效地使用文档资源。资料来源：ChatPDF资料来源：ChatPDFChatPDF界面界面ChatPDF对论文进行解读对论文进行解读3.2 通用场景：办公软件通用场景：办公软件PDF结合结合GPT有望成为知识传播、转化利器有望成为知识传播、转化利器26GPT有望催化有望催化“启发式启发式”教学模式教学模式，加快教育领域的个性化加快教育领域的个性化、多样化变革探索多样化变革探索。ChatGPT可以理解为一名“全能教师”，即便是小众、冷门的领域，也能够给出相对有逻辑的回答。我们认为，GPT技术将催化“启发式”教学模式，引导学生更加积极主动地进行思考、发问，并与“全能教师”进行对话探讨，这有别于传统的应试教学模式。资料来源：人工智能基础教育行业研究报告（36氪研究院）3.3 垂直场景：教育垂直场景：教育GPT+文本文本&对话对话&翻译催化启发式、个性化教学翻译催化启发式、个性化教学教育转型向智能化教育方向发展教育转型向智能化教育方向发展27科大讯飞在认知智能领域具备长期深厚积累科大讯飞在认知智能领域具备长期深厚积累，AI学习机将率先落地类学习机将率先落地类ChatGPT技术技术，产品能力有望进一步夯实产品能力有望进一步夯实。公司以“平台+赛道”模式实现AI核心技术的转化，在教育、医疗、智慧城市、AI办公等赛道中验证技术优势。公司承建认知智能全国重点实验室，2022年获得OpenBookQA等多项认知智能领域评测第一，开源6大类、超过40个通用领域的系列中文预训练语言模型。2022年12月公司启动生成式预训练大模型攻关，凭借在算法、算力等方面的保障，AI学习机将率先落地类ChatGPT技术，并计划于今年5月6日进行产品级发布，有望在中英文作文辅导、口语学习等方面实现能力跃升。公司2019年推出首款AI学习机X1 Pro，作为教育2C模式的核心产品，联动B、G端解决方案，实现教育服务生态闭环。依托类ChatGPT技术对AI学习机的能力重构，我们看好公司学习机产品的个性化精准学习能力，有望强化市场竞争地位。资料来源：科大讯飞公司年报，中信证券研究部资料来源：科大讯飞公司官网，中信证券研究部科大讯飞智慧教育业务全景图科大讯飞智慧教育业务全景图科大讯飞科大讯飞AI学习机推出历程学习机推出历程家庭家庭校内校内区域因区域因材施教材施教学校学校老师老师教育主管部门教育主管部门学生学生家长家长素质教育教育管理智慧校园新高考综合解决方案智慧体育人工智能创新教育学生综合素质评价学校教学大数据精准教学智慧课堂个性化作业智慧考试教育考试服务英语口语评测智能语言学习自主学习AI学习机个性化学习手册AI技术技术大数据技术大数据技术教研服务教研服务教育资源教育资源3.3 垂直场景：教育垂直场景：教育科大讯飞科大讯飞AI学习机将率先落地类学习机将率先落地类ChatGPT技术技术28GPT有望对金融行业的经营有望对金融行业的经营、管理管理、产品营销及客户服务等方面产生巨大影响产品营销及客户服务等方面产生巨大影响。近年来，金融机构在合规趋严、人力成本上升等因素的影响下，对于数字化建设的意愿强烈。考虑到ChatGPT在内容生成等方面的突出表现，我们认为，GPT有望率先落地对外的客户服务与对内的投研支持。以银行业为例，电子客服仍处于AB判断阶段，引入GPT将更好地服务于客户需求；在证券、基金业，个人投资者存在的大量疑惑将可通过GPT解决，机构投资者在投研中也将获得来自GPT的协作。GPT有望重构金融行业客户服务端，也有望进一步增强机构内部的投研能力，助力经营效率提升与成本优化。资料来源：2022年中国AI+金融行业发展研究报告（艾瑞咨询研究院），中信证券研究部资料来源：2022年中国AI+金融行业发展研究报告（艾瑞咨询研究院），中信证券研究部自然语言处理技术在客服、营销场景的应用自然语言处理技术在客服、营销场景的应用自然语言处理技术在投研、投顾场景的应用自然语言处理技术在投研、投顾场景的应用3.4 垂直场景：金融垂直场景：金融GPT+文本文本&对话赋能客户服务、投研支持对话赋能客户服务、投研支持痛痛点点客服团队人员成本及管理费用高服务质量与效率较难评价获客成本高，潜在用户转化率低客服营销以以NLPNLP技术为基础，结合智能语音、知识图谱等技术，实技术为基础，结合智能语音、知识图谱等技术，实现人力成本的降低及服务效率、获客效率的提升。现人力成本的降低及服务效率、获客效率的提升。场场景景关键关键环节环节潜在客潜在客户分析户分析问句问句输入输入问句问句理解理解信息信息检索检索答案答案生成生成话术话术分析分析技术技术应用应用NLP:分析资讯文本，精准定位潜在客户。NLP:对客户/潜在客户以自然语言形式提出的问题/回复进行语义分析，根据语义理解结果从知识库中选取输出的内容并构建恰当的语句进行回复。知识图谱：知识图谱：在问句理解、信息检索、答案生成环节辅助提供知识的表示、储存和推理。智能语音：智能语音：如有必要，在问句输入、答案生成过程对语音信息与文本信息进行转化。NLP:服务结束后，对服务话术进行分析，以把控服务质量，优化话术。覆盖覆盖场景场景智能营销智能客服痛痛点点金融资讯覆盖的定性文本数据分析难度高且数据量大不同金融业务难以简单快速地定位到所需定性分析的文本型数据风控投顾借助借助NLPNLP技术，对金融资讯中文本型数据进行拆解，定位有用信息并进行分类技术，对金融资讯中文本型数据进行拆解，定位有用信息并进行分类分析，提升金融机构对金融资讯分析的广度与精度。分析，提升金融机构对金融资讯分析的广度与精度。场场景景各类自然语各类自然语言金融资讯言金融资讯公司新闻公司新闻产品资料产品资料宏观经济宏观经济政策文件政策文件媒体评论媒体评论.通过通过NLPNLP技术技术进行分析处进行分析处理理情感分析：情感分析：对金融资讯文本的倾向性分析，从而判断市场中各类关切主题的情感倾向。事件抽取：事件抽取：从海量金融资讯中抽取特定业务相关事件信

展开阅读全文