1、西南证券研究发展中心西南证券研究发展中心 计算机研究团队计算机研究团队 20232023年年5 5月月 人工智能专题研究 AIGC投资框架 1 2 4 核心观点 自然语言模型是大语言模型的核心。自然语言模型是大模型的核心,支持许多类型的语言任务的执行。ChatGPT和各大主流AIGC模型主要基于大语言模型,通过深度学习算法来处理和生成自然语言。自然语言模型发展经历了基于规则、基于统计和基于神经网络三个阶段,Transformer的出现为以Bert和GPT-3为代表的大语言模型的诞生奠定了模型基础。AI到AGI,ChatGPT开启人工智能新纪元。ChatGPT结合自回归语言模型+zero sho
2、t prompting,带来AI范式突破,实现AI到AGI的转变。相比fine tuning技术,prompting技术能更好的完成生成类任务。ChatGPT在RLHF的帮助下,找到了GPT-3.5和人类自然语言的合理接口,解锁了模型的应用场景,改变了人机交互方式。GPT跨越式发展,探索未来更多可能性。各代GPT青出于蓝胜于蓝,更新迭代过程中涌现了诸多能力。GPT-4.0更是突破了GPT-3.5仅支持执行文本类任务的局限性,赋予ChatGPT更优异的上下文理解能力、推理能力、演绎能力,甚至图文理解能力。GPT也在不断的更新迭代中持续突破,解锁更多能力。多行业结合,下游应用遍地开花。ChatGP
3、T以其高级的生成能力和复杂任务处理能力,以从重资产的模型层到轻资产的中间层和应用层为架构,为游戏行业、视频类行业、生物医药行业等其他行业锦上添花。在ChatGPT的帮助下,各行各业真正的做到了提高效率、减少成本并实现了功能上质的改变,让更多用户受益。风险提示:AI技术更新迭代缓慢、专业领域落地效果不及预期、版权纠纷、伦理问题、算力建设缓慢等风险。2 5 目 录 1 大模型与GPT 2 国内篇 3 ChatGPT应用场景 1.1 大模型篇 1.2 ChatGPT篇 1.3 GPT-4篇 1.1.1 大语言模型简介 大语言模型简称LLM(LargeLanguageModels),是基础的机器学习模
4、型,使用深度学习算法来处理和生成自然语言。这些模型在大量的文本数据上进行训练,再自动生成符合语言规律的文本。大语言模型可以执行许多类型的语言任务,如翻译语言、分析情感、聊天机器人对话等。自然语言模型的发展历史 信息来源:罗兰贝格,西南证券整理 1970年 2000年 2003年 2010年 2013年 2017年 2018年 2019年 2020年 阶段一(直到阶段一(直到17901790年代):年代):基于规则基于规则 无代表模型 阶段二(阶段二(17901790到到20002000年代):年代):基于统计基于统计 N-Gram模型 神经网络语言模型和词向量的概念被提出 RNN循环神经网络模
5、型,将上一个位置的词语输出作为下一个位置词语预测的输入,获取全面文本信息 Word2Vec采取嵌入的词语训练方法,根据上下文学习词语的语义语法信息 Transformer架构提出,引入注意机制,关注重点而非全局 ELMoELMo模型模型,解决了同一词语在不同语境中含义不同的问题。GPTGPT-1 1,基于多层Transformer架构,采用预训练和微调两个阶段的模型训练形式。BertBert模型模型,基于多层Transformer架构,对训练集进行双向训练。GPTGPT-2 2模型模型发布。T5T5,同时含有编码器和解码器,善于翻译、知识问答等给定话题的输入输出。BARTBART,预训练时首次
6、使用噪声破坏文本,然后通过模型重建原始文本 GPT-3发布,参数达到1750亿 阶段三(阶段三(20002000年代到现在):基于神经网络年代到现在):基于神经网络 3 4 1.1.2 大语言模型的主要发展历程 在Bert和GPT模型问世之前:深度学习模型是自然语言处理(NLP)领域主流的技术,而深度学习在自然语言处理领域的应用主要依赖于以下关键技术:使用大量改进的LSTM模型和少量改进的CNN模型作为典型的特征提取器;使用序列到序列(Sequence to Sequence)(也称为编码器-解码器(Encoder-decoder)加上注意力作为各种具体任务的体技术框架。但这个技术拥有两大主要
7、问题阻碍了深度学习领域的突破:第一,训练数据的数量有限。随着容量和深度的增加,模型需要更多的训练数据支持。第二,这项技术的表达能力不够强。即使拥有足量数据,也很难有效的吸收数据内容。在Bert和GPT模型问世之后,出现了两大主要范式转换:第一个范式转换体现在预训练模型出现并有两大主要影响,体现在:其一,中间任务消失。通过大量数据预训练,Bert和GPT把中间任务作为语言特征,吸收到Transformer的参数里,做到直接解决最终任务。其二,统一了不同研究方向技术路线。最终任务包括了自然语言理解类任务和语义生成类任务。对于理解类任务,其技术体系统一到了以Bert为代表的双向语言模型加Fine T
8、uning模式;对于生成类任务,其技术体系统一到了以GPT2.0为代表的自回归语言模型加zero shot prompting(GPT-3)或few shot prompting(ChatGPT)模式。第一阶段(2013-2020)第二阶段(2020.06至今)第二个范式转换为从预训练模型逐渐偏向于通用人工智能,简称AGI(Artificial General Intelligence),我们目前正处于这个转换的以GPT3.0(自回归语言模型+zero shot prompting)占据主导位置为代表的过渡过程中。自回归语言模型+zero shot prompting处于目前的主导地位的原因有
9、两个:其一,比如Google的T5模型,在自然语言生成任务中可以同时完成自然语言理解任务。如仍使用类似Bert的理解类任务语言模型,则无法得到优质的生成内容。所以相比于理解类任务模型,目前来说大众更偏向于生成类任务模型。其二,GPT模式效果更优。若想以zero shot prompting或few shot prompting模式完成任务,必须采取GPT模式,也就是生成类任务模型。Prompting技术也更加符合人性,相比之下,fine tuning模式是被动适应模型。另外,zero shot prompting模式很难被大语言模型所理解,表现效果也差强人意,以目前的技术很难达到令人满意的效果
10、。所以目前科学家偏向于研究few shot prompting技术,起到过渡作用。信息来源:由ChatGPT反思大语言模型(LLM)的技术精要,西南证券整理 5 1.1.3 大语言模型学习、存储、修正数据的方式 大语言模型从海量的文本数据中学习了大量知识。对于其学习到的知识一共有两类:语言类和世界知识类。浅层语言类知识储存在Transformer的低层和中层,而相对抽象的语言类知识储存在Transformer的中层或高层。大语言模型在学习过程中不需要过多的语言类知识数据。世界知识类知识可以分为两类:事实型和常识型。世界知识主要储存在Transformer的中高层,同时大语言模型学习需要大量事实
11、型世界知识。大语言模型会将学习过的知识储存在Transformer的模型参数里。Transformer的模型参数结构分为两个部分:其中,多头注意力(MHA)的部分占参数总体的三分之一;FFN结构占参数总体的三分之二。MHA主要用于计算单词与知识间的关联强度,不用来存储知识。FFN存储着大量知识,是大语言模型的key-value存储器。大语言模型有很大可能会生成错误答案,所以修正数据非常必要。大模型有三种修正方法。第一种是从训练数据源头去修正。但在每次修正后需要重建模型,成本过高,无发展前景。第二种是通过finetuning修正知识。但这种方法容易误删正确数据,会影响效率。第三种是直接修改知识对
12、应的模型参数。直接定位到储存旧知识的FFN节点并替换新知识。大语言模型学习数据的方式 大语言模型储存数据的方式 大语言模型修正数据的方式 浅层语言类知识 抽象语言类知识世界知识 世界知识 Transformer知识金字塔 Transformer参数结构分布 CATEGO CATEGO 精准定位FFN节点 信息来源:由ChatGPT反思大语言模型(LLM)的技术精要,西南证券整理 6 1.1.4 大语言模型的分类 大语言模型按模型结构一共分为以下三类:1.以BERT系列为代表的encoder-only模型:在每个阶段,注意力层可以访问初始句子中的所有单词并具有双向注意力。这类模型的预训练通常围绕
13、着以某种方式破坏一个给定的句子,并让模型承担寻找或重建初始句子的任务。Encoder-only模型最适合于需要理解完整句子的任务。2.以GPT为代表的decoder-only模型:在每个阶段,对于一个给定的词,注意力层只能访问句子中定位在它之前的词。这类模型通常被称为自回归模型。解码器模型的预训练通常围绕着预测句子中的下一个词进行。Decoder-only模型最适合于涉及文本生成的任务。3.以T5为代表的既有encoder、又有decoder的模型:在每个阶段,encoder的注意力层可以访问初始句子中的所有单词,而decoder的注意层只能访问输入中位于特定单词之前的单词。这类模型的预训练通
14、常涉及到更复杂的任务。Encoder-decoder模型最适合于围绕根据给定的输入生成新的句子的任务,如总结、翻译或生成式问题回答。信息来源:一张图总结大语言模型的技术分类、现状和开源情况,西南证券整理 7 7 1.1.4 大语言模型的分类 随着深度学习技术的不断发展,大型模型在自然语言处理领域发挥着越来越重要的作用。大型模型通过使用更多的参数、更复杂的结构和更多的训练数据来提高性能,从而在自然语言处理任务中取得了显著的成果。语义理解是自然语言处理模型的基础任务之一。Bert和其变体模型被广泛用于各种语义理解任务,例如文本分类、命名实体识别和自然语言推理等。文本生成也是自然语言处理模型中的另外
15、一个重要任务。在自然语言生成任务中,GPT已成为最典型的框架之一,因为它能够生成高质量的文本,并且能够处理更加复杂的任务。与语义理解相比,自然语言生成需要更多的计算资源和更大的模型来处理更多的数据和更复杂的任务。需要注意的是,大型模型具有多元化和多样性,因此在选择适当的模型时需要考虑任务的性质和特点。对于简单的任务,不需要使用像ChatGPT这样复杂的大型模型,而对于更加复杂的任务,则需要使用更大、更复杂的模型来提高性能。文本生成任务模型 语义理解任务模型 信息来源:通向AGI之路:大型语言模型(LLM)技术精要,西南证券整理 8 1.1.5 未来大模型发展的前提要素 CNN(Convolut
16、ionalNeuralNetwork)CNN(卷积神经网络)是一种广泛应用于计算机视觉领域和自然语言处理领域的深度学习算法,是早期最常见的深度学习模型,可以有效的提取图像特征。CNN主要有三层结构:卷积层、池化层和全连接层。相比较而言,Transformer的表现能力远超CNN。早期的CNN具有无法有效捕获长距离特征的问题,但随着网络深度的逐步增加,这个问题得到了很大的缓解,但仍无法达到Transformer一样优秀的的表现能力。LSTM(LongShort-TermMemory)Transformer是一种新型的网络架构,用于自然语言处理(NLP)的深度学习模型,表现能力优异,远超CNN、R
17、NN。Transformer结构由两部分构成,分别是encoder(编码器)和decoder(解码器)。Transformer具有优秀的语义特征提取能力、远距离特征捕获能力、综合特征提取能力、并行计算能力及运行效率。Transformer LSTM(长短时记忆结构)是传统RNN模型的变体,能够缓解传统RNN模型对于过长序列存在的梯度消失以及遗忘或爆炸问题。LSTM由三个门控构成,分别是输入门、遗忘门以及输出门。LSTM主要应用于自然语言处理领域和语音识别领域序列数据的处理,能够处理和预测时间序列中间隔较长的信息。通常情况下,与传统的RNN模型相比,它在处理需要长期依赖信息记忆的任务时表现更优。
18、信息来源:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器比较,西南证券整理 拥有一个优质的网络架构是未来大模型发展的重要前提。缺少高质量的网络架构,大模型很难达到质的飞跃。而一个高质量的网络架构,不仅可以推动大模型的发展,还可以促进AGI达到一个质的飞跃。网络架构有三大主要种类,包括:CNN、LSTM、Transformer。网络架构的三大主要种类 9 1.1.6 未来大模型发展的决定性因素 三大决定性因素 模型的容量参数 模型的容量参数是大模型是否能快速发展的首要决定性因素,它可以直接影响模型的表现效果。当一个模型拥有更大的参数容量时,它的表现效果也会更好。参数数量的增
19、多可以增加模型的上下文学习和小样本学习能力,做到帮助模型更好的学习并能够处理更为复杂的任务。训练时间 当模型的训练时间越长,其在训练过程中遇见的令牌数量就会越多。当一个模型遇见的令牌数量越多,其容量也会随之增加。当训练时长使模型遇见足够数量的令牌的时候,即使它参数容量更少,在执行某些特定任务上的表现效果甚至会比参数容量更大的模型的表现效果更好。数据 大模型在做一些任务的时候,数据的质量是非常重要的,会起到决定性的作用,也会倾向有优先选择高质量数据。高质量的数据决定了模型生成内容的高准确性。与模型本身相比,训练数据的质量更加的重要。但在最初阶段,量的重要性要大于质,需要训练数据拥有高丰富性。在后
20、期并不需要过多的数据,需要的还是高质量的训练数据以及数据之间的平衡。信息来源:ChatGPT与生成式AI的技术演进与商业未来,西南证券整理 令牌(Token)容量参数 10 10 1.1.7 大语言模型规模扩张产生的影响 信息来源:由ChatGPT反思大语言模型(LLM)的技术精要,西南证券整理 预训练模型的应用共有两个阶段:预训练阶段和具体场景应用阶段。大语言模型预训练阶段的优化指标与下游的任务表现并非呈正相关关系。判断大语言模型的好坏有三个重要因素:训练数据量、模型参数规模、训练时间。这三个因素呈乘数关系,当总成本一定,在增加训练数据量的同时减少模型的参数规模,不仅可以保证不降低模型效果的
21、模型效果,也可以极大的缩小模型规模,加速模型的推理速度。这种方式也将是大语言模型最有前途的发展途径。预训练阶段大语言模型规模的扩张 下游具体场景应用阶段大语言模型规模的扩张 随着大语言模型规模的扩张,不同种类的任务会有三种不同的表现:第一类任务随着大语言模型规模的逐渐扩张,其表现效果也会越来越好。这类任务主要为知识密集型任务,大多数传统自然语言理解类任务都属于这类任务。当大语言模型所包含的知识量越多,这类任务的表现效果就会越好。另外,当大语言模型规模得到扩张的时候,训练数据量也会随之增加,大语言模型从中学习到知识就越多,任务的表现效果就更好。第二类任务随着大语言模型的逐渐扩张会展现出某种涌现能
22、力。当模型的参数规模未达到一定的阈值时,这个模型便不具备解决此类任务的任何能力。但模型的参数规模超过所需阈值,这个模型对解决此类任务的能力和最终的表现效果呈爆发式增长。模型的规模越大,模型能够解决的任务越多。大语言模型出现涌现能力的原因有两个:其一,有些任务的指标不够平滑,只有模型足够大才能使输出内容和标准答案完全匹配。其二,有些任务会在中间步骤出错,模型的规模越大,解决这些错误的能力越强。第三类任务(少部分)随着大语言模型的逐渐扩张,其表现效果会呈U形。初期模型规模的扩张会使任务表现效果降低,但随着进一步扩张,模型具备了忽略干扰任务并执行真正任务的能力,表现效果则会越来越好。11 11 1.
23、1.8 大语言模型未来发展方向 信息来源:由ChatGPT反思大语言模型(LLM)的技术精要,西南证券整理 使大语言模型能够更好的发展,不仅要扩张模型的规模,也要增强模型的推理能力。大语言模型共有两种增强其推理能力的方法:第一种是一Google为代表的使用基于prompt的研究方法,运用合适的提示语激发大语言模型本身的推理能力。第二种是以OpenAI为代表的在预训练阶段引入程序代码并与文本共同参与预训练,更好的增强大语言模型的推理能力。大语言模型未来发展方向 发展方向 探索大语言模型的天花板 增强大语言模型的复杂推理能力 将大语言模型纳入自然语言处理以外的更多其他领域 开发更易用的人和大语言模
24、型的交互接口 建设高难度的综合任务测评数据集 加强数据的质量 超大大语言模型Transformer的稀疏化(Sparse)极大的减少训练和推理时间 12 5 目 录 1 大模型与GPT 2 国内篇 3 ChatGPT应用场景 1.1 大模型篇 1.2 ChatGPT篇 1.3 GPT-4篇 13 1.2.1 ChatGPT简介 ChatGPT的全称为ChatGenerativePre-trainedTransformer,是2022年底由美国人工智能实验室OpenAI发布的大型对话式自然语言处理模型3.5版本。通过深度学习和训练互联网数据,它以文字的形式模拟人类的对话方式并与用户进行交互。Ch
25、atGPT目前月活用户突破一亿,是当之无愧的近期炙手可热的新一代人工智能产品。ChatGPT目前有七大主要功能,包括:文本生成、聊天机器人、语言问答、语言翻译、自动文摘、绘画功能、编程功能。不仅如此,ChatGPT还有能力承认并订正自己的错误,质疑用户提问时的预设条件以及拒绝用户不适当的请求。ChatGPT与AIGC的不同点在于:AIGC可以生成文本、音频、图像、视频以及完成图像、视频、文本间的跨模态生成等。而ChatGPT生成的内容仅局限于文字,是AIGC的一个重要分支。信息来源:整数智能AI研究院,数治网,西南证券整理 14 信息来源:GPT会取代医生和研发人员?No,但掌握AI很重要,西
26、南证券整理 第一阶段:2018年6月提出了GPT-1模型,通过生成式预训练来提高语言理解能力。第二阶段:2019年2月推出了GPT-2模型,做到可生成与人类语言相似文本,并完成多项任务。在微调训练中,使用零次训练,准确率差。第三阶段:2020年5月推出了GPT-3模型,可生成更高质量的自然语言文本,并支持其他自然语言任务。与GPT-2不同,GPT-3使用FewPrompt过度,大幅增加参数量,拥有语境学习能力,准确率大幅提升。第四阶段:2022年11月推出了GPT-3.5模型,也就是目前的ChatGPT。GPT-3和3.5版本之间最大的区别为3.5版本有更多真人反馈(RLFH)来帮助机器更好的
27、学习和探索并合成类似数据。同时,GPT-3.5引入Instruct的接口方式,增加了ChatGPt的推理能力。第五阶段:推出GPT-4模型,加入了多模态,可以理解图像,但目前无法做到zeroprompt。ChatGPT的演进 ChatGPT 爆发式发展速度的原因 ChatGPT以及生成式AI是一个不可逆,不会减速的大趋势,也会促进全产业数字化转型的发展趋势,它只会加速以更快的商业落地的形式呈现在大众面前。ChatGPT最大的优点是它进行了一个全产业(医疗、生命科学、生物学、物流、供应链制造行业、化工行业、保险行业、金融行业等)、全范围的普适的人工智能教育。对客户在教育层面上不需要做太多的工作,
28、而是可以更多的关注到应用场景和具体的技术审核。因为ChatGPT背后是一个大的语言数据模型,它对于算力的要求和数据量的要求非常夸张,很难在学术圈筹备足够的资金、足够强的算力、足够的数据去支持飞快的迭代速度。但OpenAI最初是一个非盈利的经营模式,因此吸引了很多硅谷科技的领袖的支持,包括有微软的投资和算力的支持。其次是因为它本身就具备极强的学习能力,并可以同时生成非常优质的合成数据。1.2.1 ChatGPT简介 1.2.2 ChatGPT与ChatBOT的比较 15 信息来源:和大模型创业者聊一聊:ChatGPT 火了,国内创业者的机会在哪里?,西南证券整理 ChatBOT:基于检索,形成一
29、个大的语料库,在库里检索相似的Query,把对应的内容再返回给用户。其特点可以总结为:基于检索语料库,在相关性、自然度等方面都做得比较差。ChatGPT:基于大规模语言模型,会在进一步对话数据场景下做优化。ChatGPT实际上是基于instructGPT进一步在对话场景下,基于对上下文、对复杂问题的更好理解,对对话场景的数据进行优化。在相关性、自然度等方面做得较好。ChatBOT ChatGPT 1.2.3 ChatGPT的伦理学讨论 16 信息来源:和大模型创业者聊一聊:ChatGPT 火了,国内创业者的机会在哪里?西南证券整理 因为对情感和对社会联结的处理会很不一样,完成任务相对客观,情感
30、对话相对主观。针对情感对话,模型开发人员会借鉴心理学的理论、话术,力求更好地做情感支持,去倾听、去安抚;情感对话还会面临更多潜在问题,比如伦理问题等。ChatGPT拥有强大的语言理解能力,但不具备人类独有的创造力、思维力、洞察力等特征。理解能力是情感建立的基础,具有理解能力的ChatGPT,在交流中表现出“同理心”,但不代表ChatGPT拥有自己的情绪和感情。ChatGPT对于有着人类思维的AI是否为生物的看法 1.2.4 ChatGPT的护城河 17 信息来源:和大模型创业者聊一聊:ChatGPT 火了,国内创业者的机会在哪里?西南证券整理 数据标注、算力支撑和先发优势是ChatGPT得以强
31、势发展的三大护城河。数据标注是ChatGPT发展的“肥料”。ChatGPT底层逻辑仍是基于自回归的机器学习,需要输入大量数据进行模型训练,数据标注属于资本密集和劳动力密集型工作,需要大量人力和财力,但ChatGPT在成本低的同时做到了高效率(0.3美分/条,单条效率为人类的4倍)。此外,随着ChatGPT更新迭代,需要的训练语料呈指数级增长,但许多专业语料并不公开,即使拥有人工标注的能力,一些不掌握核心语料的非巨头厂商也难以进入。算力支撑是ChatGPT发展的“土壤”。数据标注和模型训练都需要强大的算力支撑。标注数据、问题分类和答案预编辑等工作可以借助模型去预测其效果,来回试错,其中对算力侵占
32、是巨大的。依靠微软的强大算力,OpenAI可以在短时间内完成试错,将模型训练成熟。先发优势是保障ChatGPT吸收“肥料”和巩固“土壤”的“根系”。OpenAI把GPT3放出来之后,用户通过API使用ChatGPT,不断向模型输入训练语料。通过对话,人们在使用ChatGPT时也完成了对其的训练,基于用户反馈,ChatGPT能不断获得query分布,判断各个query的训练成熟度,以此为导向有意识地、有针对性地做数据标注,不断反哺ChatGPT。GPT有飞轮效应,在不同阶段分别体现为小飞轮效应和大飞轮效应。过去:面向ToB客户,OpenAI在厂商内部积累满意度、成熟度等数据,在内部形成小飞轮效应
33、;现在:如今面向ToC用户,调动了上亿用户,从外部形成大飞轮效应。未来:跟随者只有通过飞轮效应才能在ChatGPT迭代的同时完成追赶。可以采用开发更多toB模型、面向中国市场,训练中文语料等方式。ChatGPT的三大护城河 ChatGPT的飞轮效应 Chatgpt 人类偏好 好坏 数据标注 人工标注 ChatGPT可以进行数据标注 1.2.5 ChatGPT脱颖而出的原因 18 信息来源:万字长文,探讨关于ChatGPT的五个最核心问题西南证券整理 更新迭代过程中涌现了很多的新的能力。如in-contextcorrection能力、in-contextlearning能力、instruct能力
34、;GPT-3涌现出的in-contextlearning能力和fine-tuning有本质不同,后者需要更改模型参数,也就是说,换了个新模型。但是in-contextlearning,模型并没有变化,却能在新数据上表现更好;GPT-Codex版本解锁了推理能力,以及InstructGPT提出了instruct这一方法,他们合体的ChatGPT在in-contextlearning的基础之上,展示出了具备理解、推理、演绎能力。完成“专用AI-通用AI”的转变,期待“通用AI-专业AI”的落地。ChatGPT在RLHF的帮助下,找到了GPT-3.5和人类自然语言的合理接口,解锁了模型的应用场景,改
35、变了人机交互方式。专用AI既要做理解也要做生成,通用AI(ChatGPT)以生成为核心。ChatGPT将生成模型搭建好,基于激励机制,反过来也能把理解训练得很好,于是构建了一个目标明确的“理解+生成”的大模型;同时Transformer提供了一个能支撑大模型训练的架构,所以就在方向上形成了与原来不一样的技术诉求的突破。人机交互方式 ChatGPT迭代中涌现的能力 1.2.5 ChatGPT脱颖而出的原因 19 信息来源:如何应对ChatGPT?二级市场闭门研讨会精选西南证券整理 范式突破:从“鹦鹉”到“乌鸦”。过往ML:采用“鹦鹉学舌”范式。依赖检索和记忆能力,需要“喂”,之后“模仿”,基于“
36、对应关系”;ChatGPT:采用“乌鸦理解”范式。采用理解力,有举一反三的能力,需要“教”,之后“懂”,基于“内在逻辑”。ChatGPT拥有in-contextcorrection的能力,给出修改意见,ChatGPT可以听懂错误是什么,并向正确的方向修正。描述越详细清楚,ChatGPT回答得越好。需要大量重复数据来训练需要大量重复数据来训练 可以说人话、但不理解意可以说人话、但不理解意思思 不能对应现实的因果逻辑不能对应现实的因果逻辑 鹦鹉范式“大数据,小任务”鹦鹉范式“大数据,小任务”自主的智能:自主的智能:感知、认知、推理、学习和执行 不依赖大数据不依赖大数据:没有标注的训练数据,无监督学
37、习 乌鸦范式“小数据,大任务”乌鸦范式“小数据,大任务”两种范式的对比 1.2.6 ChatGPT未来发展逻辑 20 信息来源:和大模型创业者聊一聊:ChatGPT 火了,国内创业者的机会在哪里?西南证券整理 模型轻量化,解决效率问题。从部署层面来看,ChatGPT背后的模型太大,单个Query训练成本高,大约为3美分/Query,这对于任何一家公司都是巨大的成本。因此,对于模型的轻量化处理,或使用更小的机器解决效率问题,也是ChatGPT要考虑的问题。训练log日志分析能力,快速建立飞轮效应。log分析是人工智能进行自我学习的关键之一,要求对海量数据(几十亿GB/天)自动分类的同时,还要进行
38、重点标注,并将标注的结果快速地输入原来的模型以体现效果。Log日志分析过程的自动化程度很高、很快,目前,即使是ChatGPT也有一定困难。构建新算法、新模型。从科学或算法角度来讲,ChatGPT的强化学习能力会越来越强,其未来的发展趋势可以从新算法的构建出发;如对Transformer架构进一步改进和优化,或者构建比GPT更小、但能力很强的模型。通用转为专用,实现落地应用。目前ChatGPT更像一个通用人工智能,在专用场景下应用不够灵敏。所以在落地层面,ChatGPT还有很大的发展空间,也为国内创业者提供了新的机会。21 5 目 录 1 大模型与GPT 2 国内篇 3 ChatGPT应用场景
39、1.1 大模型篇 1.2 ChatGPT篇 1.3 GPT-4篇 22 信息来源:OpenAI,西南证券整理 1.3.1 GPT-4简介 GPT-4(GenerativePre-trainedTransformer4)是OpenAI发布的最新GPT系列模型。相比GPT-3,GPT-4用了更多的数据量来训练,有着更高级的推理能力和支持了多模态,可以接受图像和文本输入,产生文本输出。大规模的多模态模型 历代GPT的对比 模型模型 发布时间发布时间 OpenAIOpenAI内部称号内部称号 训练方式训练方式 参数量参数量 GPT 2018年6月 预训练+Fine-tuning 1.17亿 GPT-2
40、 2019年2月 预训练 15亿 GPT-3 2020年3月 Davinci 预训练语言模型 1750亿 Codex 2021年8月 code-davinci-001 在代码上继续预训练语言模型 120亿 InstructGPT 2022年3月 text-davinci-001 在大量有指导任务上精调 1750亿 GPT-3.5 2022年7月 code-davinci-002 在代码上继续预训练语言模型 大于1750亿 2022年7月 text-davinci-002 在大量有指导任务上精调 大于1750亿 2022年12月 text-davinci-003 在text-davinci-00
41、2上加入RLHF,侧重incontext-learning 大于1750亿 CHatGPT 2022年12月 在text-davinci-002基础上增加RLHF,侧重重复训练 大于1750亿 GPT-4 2023年3月 在ChatGPT基础上加入图像理解能力,但下游应用效果不如NLP,不能做到ZeroPrompt 10万亿(非官方估计)无监督的无监督的预训练模预训练模型型 有监督的有监督的训练模型训练模型,旨在优,旨在优化用户所化用户所关心的功关心的功能,构建能,构建“任务助“任务助手”手”23 信息来源:万字长文全面解读:GPT-4 有什么不一样西南证券整理 1.3.2 GPT-4技术升级
42、 OpenAI花了6个月的时间反复调整GPT-4以及ChatGPT使用的训练模型,最终得到在真实性、可操控性、实用性上有史以来最好的结果。相较GPT-3.5,GPT-4有以下技术升级:增加了图像理解能力。GPT-4支持以图像/文字为输入,并输出文字。支持更长的上下文理解。GPT-4能够支持的对话长度为ChatGPT的2倍和8倍。对于复杂任务的处理能力大幅提升,在各大标准考试中表现都优于人类,同时拥有突出的多语种能力。改善了幻觉和安全局限性,对于Hallucination的现象也极大改善,安全局限性显著降低。文字+图片 文字 图像理解能力 更长的上下文理解能力 复杂任务处理能力大幅提升 改善了幻
43、觉和安全局限性 GPT-4的技术升级 24 信息来源:OpenAI,西南证券整理 1.3.2 GPT-4技术升级 GPT-4开启了多模态的篇章,增加了图像理解能力。可以接受图像作为输入数据并生成说明、分类和分析文档。具体表现在以下方面:看懂梗图 看懂图表并分析 看懂图片之间的逻辑 GPT-4能看懂梗图隐含笑点 GPT-4根据图表计算日均肉消耗量 问题:这幅图有什么好笑的?一点一点描述它。GPT-4回答:该图像显示了一个包含三个图片的“LightningCable”适配器。图1:一个智能手机与VGA连接器(一个大型,蓝色,15针连接器通常用于计算机显示器)插入其充电端口。图2:“Lightnin
44、gCable”适配器的封装,上面有一个VGA连接器的图片。图3:VGA连接器的特写镜头,最后是一个小型Lightning连接器(用于为iPhone和其他苹果设备充电)。这张图片中的幽默来自于将一个过时的大型VGA连接器插入一个小型的现代智能手机充电端口的荒谬。25 信息来源:OpenAI,西南证券整理 1.3.2 GPT-4技术升级 GPT-4比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。拥有更好的理解能力和总结能力,支持更长的上下文分析。之前外网泄露图中,GPT-4存在两个版本。其支持的上下文分别是8K和3
45、2K,是ChatGPT上下文长度的2倍和8倍。对于32K版本的GPT-4,其处理超过25000个单词的文本,是上一代GPT的8倍,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。GPT-4Brief GPT-3.5和GPT-4文字处理能力对比 26 信息来源:腾讯云开发者,西南证券整理 1.3.2 GPT-4技术升级 GPT-4复杂任务处理能力大幅提升。GPT-4在更复杂、更细微的任务处理上,回答更可靠、更有创意。这在多类考试测验中以及与其他LLM的benchmark比较中得以体现:在不同年龄段不同类别考试中均名列前茅,比如律师职业资格考试,名列前10%,生物学奥赛,名列前1%等;在
46、MMLUbenchmark上,各项指标均优于其他大模型;多语言能力强大,特别是小语种能力也很出色。GPT-4的高级推理能力超越了ChatGPT GPT-4在美国各高等考试中的表现出色 GPT-4与其他大模型的MMLUBenchmark对比 GPT-4的多语种能力 27 信息来源:腾讯云开发者,西南证券整理 1.3.2 GPT-4技术升级 GPT-4显著改善了幻觉、安全等局限性。在各类任务上幻觉问题显著减轻,GPT-4对于同样的任务的准确而率比最新的GPT-3.5模型高40%;在安全能力的升级上,GPT-4明显超出ChatGPT和GPT3.5。在OpenAI的内部评估中,相比于GPT-3.5,G
47、PT-4回应不允许的内容的可能性降低了82%,回应更有可能产生事实性的回答的可能性提高了40%。改善了幻觉和安全局限性 各代GPT在不同任务中的准确率 各代GPT回应不允许的内容的可能性 28 信息来源:腾讯云开发者,西南证券整理 1.3.3 从GPT-4看LLM的发展趋势 从GPT-4看出未来LLM的研发方向和优化策略大概有两点:1、闭源趋势。底层大模型成关键技术门槛。从GPT-1到GPT-4,模型各类细节越来越闭源和黑盒,大模型战场的竞争因素决定了以GPT-4为代表的第一梯度模型可能会越来越封闭,成为技术门槛。2、SelfInstruct模式或采取多种方式使模型加速和降低成本。SelfIn
48、struct模式的核心是中小模型+大模型生产指令数据的LLaMA7B+text-davinci-003模式。中小参数的模型在成本上,是更靠近实际落地的方式,未来从训练、推理等多层面考量,如何降低成本和模型加速是LLM优化的一大方向。大模型预训练 用小模型来预测某些参数组合下对应大模型的某种能力 LLM的发展趋势 开源开源 闭源闭源 29 信息来源:新里程碑!OpenAI发布GPT-4:四大提升,落地六种场景西南证券整理 1.3.4 GPT-4应用场景-教育领域 多邻国一款语言学习类APP。目前,多邻国GPT-4接入产品,进行角色扮演,让人工智能跟用户去对话,纠正语法错误,并且把这一功能融入产品
49、的游戏化,成功转型为一款以游戏化方式学习语言的软件。多邻国每个月有超过5000万学习者使用其学习第二语言。通过简洁的用户界面和有趣且有竞争力的排行榜,涵盖100多种课程,支持40种语言。学习者可以通过在手机上轻拍和滑动,从简单的词汇练习过渡到复杂的句子结构。2023年3月15日,可汗学院宣布将使用GPT-4为Khanmigo提供支持,Khanmigo是一种人工智能助手,既可以作为学生的虚拟导师,也可以作为教师的课堂助手。可汗学院是一家非营利组织,其使命是为任何地方的任何人提供免费的世界一流教育。GPT-4的主要功能之一是能够理解自由形式的问题和提示。这种像人一样来回走动的能力,可能为可汗学院提
50、供了最关键的能力:向每个学生提出个性化的问题,以促进更深层次的学习。可汗学院 多邻国 30 信息来源:新里程碑!OpenAI发布GPT-4:四大提升,落地六种场景西南证券整理 1.3.4 GPT-4应用场景-其他场景 摩根士丹利是财富管理领域的领导者,其内部的投资数据库包含数十万页的知识,涵盖投资策略、市场研究和评论以及分析师见解。进行投资决策过程中,为了搜集大量分布在内部网站上的信息,摩根士丹利借助OpenAI的GPT-4开发了一种全新的强搜索方式,正在改变其财富管理人员查找相关信息的方式。投资领域-摩根士丹利 BeMyEyes是一家创立于2012年的丹麦公司,持续为超过2.5亿视力障碍或弱