收藏 分销(赏)

大模型时代:ChatGPT开启通用人工智能浪潮.pdf

上传人:Stan****Shan 文档编号:1292030 上传时间:2024-04-22 格式:PDF 页数:365 大小:14.65MB
下载 相关 举报
大模型时代:ChatGPT开启通用人工智能浪潮.pdf_第1页
第1页 / 共365页
大模型时代:ChatGPT开启通用人工智能浪潮.pdf_第2页
第2页 / 共365页
大模型时代:ChatGPT开启通用人工智能浪潮.pdf_第3页
第3页 / 共365页
大模型时代:ChatGPT开启通用人工智能浪潮.pdf_第4页
第4页 / 共365页
大模型时代:ChatGPT开启通用人工智能浪潮.pdf_第5页
第5页 / 共365页
点击查看更多>>
资源描述

1、大模型时代:ChatGPT开启通用人工智能浪潮作大模型时代:ChatGPT开启通用人工智能浪潮作3代序AI大模型:当代历史的标志性事件及其意义“尝试找到如何让机器使用语言、形成抽象和概念、解决现在人类还不能解决的问题、提升自己,等等。对于当下的人工智能来说,首要问题是让机器像人类一样能够表现出智能。”达特茅斯会议对人工智能(AI)的定义20202022年,在新冠疫情肆虐全球的阴霾日子里,人工智能创新的步伐完全没有停止。美国人工智能研究公司OpenAI异军突起:2020年4月发布神经网络Jukebox;2020年5月发布GPT-3,模型参数量为1750亿;2020年6月开放人工智能应用程序接口;

2、2021年1月发布连接文本和图像神经网络CLIP;【a CLIP(ContrastiveLanguage-Image Pre-Training)模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型,可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练,在很多任务表现上达到了目前最高水平。】2021年1月发布从文本创建图像神经网络DALL-E;【DALL-E是一个可以根据书面文字生成图像的人工智能系统,该名称来源于著名画家达利(Dal)和机器人总动员(Wall-E)。】2022年11月,正式推出对话交互式的ChatGPT。相比GPT-3,Ch

3、atGPT引入了基于人类反馈的强化学习(RLHF)【单纯的强化学习(RL)是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。】技术以及奖励机制。ChatGPT是人类科技史上的里程碑事件,在短短几个月席卷全球,速度之快超出人类最狂野的想象。ChatGPT证明了通过一个具有高水平结构复杂性和大量参数的大模型(foundation model,又称为“基础模型”)可以实现深度学习。此后,大模型概念受到前所未有的关注和4讨论。但是,关于“大模型”定义,各方对其内涵的理解和诠释却莫衷一是,“横看成岭侧成峰,远近高低各不同

4、”。尽管如此,这并不妨碍人们形成关于大模型的基本共识:大模型是大语言模型(LLM),也是多模态模型,或者是生成式预训练转换模型。GPT是大模型的一种形态,引发了人工智能生成内容(AIGC)技术的质变。大模型是人工智能赖以生存和发展的基础。现在,与其说人类开始进入人工智能时代,不如说人类进入的是大模型时代。我们不仅目睹,也身在其中,体验生成式大模型如何开始生成一个全新时代。1.何谓大模型人工智能的模型,与通常的模型一样,是以数学和统计学为算法基础的,可以用来描述一个系统或者一个数据集。在机器学习中,模型是核心概念。模型通常是一个函数或者一组函数,可以是线性函数、非线性函数、决策树、神经网络等各种

5、形式。模型的本质就是对这个函数映射的描述和抽象,通过对模型进行训练和优化,可以得到更加准确和有效的函数映射。建立模型的目的是希望从数据中找出一些规律和模式,并用这些规律和模式预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量和复杂度,复杂度越高,模型越容易过拟合。人工智能大模型的“大”,是指模型参数至少达到1亿。但是这个标准一直在提高,目前很可能已经有了万亿参数以上的模型。GPT-3的参数规模就已经达到了1750亿。除了大模型之外,还有所谓的“超大模型”。超大模型,是比大模型更大、更复杂的人工神经网络模型,通常拥有数万亿到数十万亿个参数。一个模型的参数数量越多,通常意味着该模型可以处理

6、更复杂、更丰富的信息,具备更高的准确性和表现力。超大模型通常被用于解决更为复杂的任务,如自然语言处理(NLP)中的问答和机器翻译、计算机视觉中的目标检测和图像生成等。这些任务需要处理极其复杂的输入数据和高维度的特征,而超大模型可以从这些数据中提取出更深层次的特征和模式,提高模型的准确性和性能。因此,超大模型的训练和调整需要极其巨大的计算资源和数据量级、更加复杂的算法和技术、大规模的投5入和协作。大模型和超大模型的主要区别在于模型参数数量的大小、计算资源的需求和性能表现。随着大模型参数规模的膨胀,大模型和超大模型的界限正在消失。现在包括GPT-4在内的代表性大模型,其实就是原本的超大模型。或者说

7、,原本的超大模型,就是现在的大模型。大模型可以定义为大语言模型,具有大规模参数和复杂网络结构的语言模型。与传统语言模型(如生成性模型、分析性模型、辨识性模型)不同,大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习语法、句法、语义等多层次的语言规律。【生成性模型从一个形式语言系统出发,生成语言的某一集合。代表是乔姆斯基(Avram Noam Chomsky,1928)的形式语言理论和转换语法。分析性模型从语言的某一集合开始,根据对这个集合中各个元素的性质的分析,阐明这些元素之间的关系,并在此基础上用演绎的方法建立语言的规则

8、系统。代表是苏联数学家O.S.库拉金娜(O.S.Kulagina,?)和罗马尼亚数学家S.马尔库斯(Solomon Marcus,19252016)用集合论方法提出的语言模型。在生成性模型和分析性模型的基础上,将二者结合起来,产生了一种很有实用价值的模型,即辨识性模型。辨识性模型可以从语言元素的某一集合及规则系统出发,通过有限步骤的运算,确定语言中合格的句子。代表是Y.巴尔-希列尔(Yehoshua Bar-Hillel,19151975)用数理逻辑方法提出的句法类型演算模型。】如果从人工智能的生成角度定义大模型,与传统的机器学习算法不同,生成模型可以根据文本提示生成代码,还可以解释代码,甚至

9、在某些情况下调试代码。这一过程,不仅可以实现文本、图像、音频、视频的生成,构建多模态,还可以在更为广泛的领域生成新的设计,生成新的知识和思想,甚至实现广义的艺术和科学的再创造。近几年,比较有影响的AI大模型主要来自谷歌、Meta和OpenAI。除了OpenAI的GPT之外,2017年和2018年,谷歌发布LaMDA、BERT和PaLM-E。【谷歌推出的LaMDA(Language Model forDialogue Applications)是语言处理领域的一项新的研究突破。6LaMDA是一个面向对话的神经网络架构,可以就无休止的主题进行自由流动的对话。它的开发是为了克服传统聊天机器人的局限性

10、,传统聊天机器人在对话中往往遵循狭窄的、预定义的路径。BERT(Bidirectional Encoder Representation from Transformers)是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致生成深度的双向语言表征。BERT论文发表时提及在11个NLP任务中获得了新的目前最高水平的结果PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。集成语言、视觉,用于机器人控制。相比大语言模型(LLM),它被称为视

11、觉语言模型(VLM)。VLM与LLM的不同之处,在于VLM对物理世界是有感知的。】2023年,Facebook的母公司Meta推出LLaMA,并在博客上免费公开LLMOPT-175B。【LLaMa有多个不同大小的版本,其中LLaMa65B和LLaMa33B在1.4万亿token上进行了训练。该模型主要在从维基百科、书籍以及来自ArXiv、GitHub、StackExchange和其他网站的学术论文中收集的数据集上进行训练。LLaMA模型支持20种语言,包括拉丁语和西里尔字母语言,目前看原始模型并不支持中文。2023年3月,LLaMa模型发生泄露。OPT-175B模型有超过1750亿个参数,和当

12、前世界参数量最大的GPT-3相当。但相比GPT-3,OPT-175B的优势在于它是完全免费的,这使得更多缺乏相关经费的科学家们可以使用这个模型。同时,Meta还公布了代码库。】在中国,AI大模型的主要代表是百度的文心一言、阿里的通义千问和华为的盘古。这些模型的共同特征是:需要在大规模数据集上进行训练,基于大量的计算资源进行优化和调整。大模型通常用于解决复杂的NLP、计算机视觉和语音识别等任务。这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式。借助大模型,深度学习算法可以更好地处理这些任务,提高模型的准确性和性能。因为AI大模型的出现和发展所显示的涌现性、扩展性和复合性,长期以来人

13、们讨论的所谓“弱人工智能”“强人工智能”“超人工智能”的界限不复存在,这样划分的意义也自然消失。72.大模型是人工智能历史的突变和涌现如果从1956年达特茅斯学院的人工智能会议算起,人工智能的历史已经接近70年(参见图)。图 人工智能发展的历史图片来源:作者改制自Copeland,Michael,2016,“Whats theDifference Between Artificial Intelligence,Machine Learning,and Deep Learning?”,https:/ and Intelligence)和图灵测试。1952年,IBM的亚瑟塞缪尔(Arthur Le

14、e Samuel,19011990)开发了一个西洋棋的程序。该程序能够通过棋子的位置学习一个隐式模型,为下一步棋提供比较好的走法。塞缪尔用这个程序驳倒了机器无法超越书面代码,并像人类一样学习模式的论断。他创造并定义了“机器学习”。之后,机器学习成为一个能使计算机不用显示编程就能获得能力的研究领域。1980年,美国卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器学习开始得到大量的应用。1984年,30多位人工智能专家共同撰文编写的机器学习:一项人工智能方案(Machine Learning:An Artificial Intelligence Appro

15、ach)文集第二卷出版;1986年国际性杂志机器学习(Machine Learning)创刊,显示出机器学习突飞猛进的发展趋势。这一阶段代表性的工作有莫斯托(Jack Mostow,1943)的指导式学习、莱纳特(Douglas Bruce Lenat,1950)的数学概念发现程序、兰利(Pat Langley,1953)的BACON程序及其改进程序。到了20世纪80年代中叶,机器学习进入最新阶9段,成为新的学科,综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学等,形成了机器学习理论基础。1995年,瓦普尼克(Vladimir Naumovich Vapnik,1936)和科琳娜

16、科茨(CorinnaCortes,1961)提出的支持向量机(网络)(SVM),实现机器学习领域最重要突破,具有非常强的理论论证和实证结果。机器学习有别于人类学习,二者的应用范围和知识结构有所不同:机器学习基于对数据和规则的处理和推理,主要应用于数据分析、模式识别、NLP等领域;而人类学习是一种有目的、有意识、逐步积累的过程。总之,机器学习是一种基于算法和模型的自动化过程,包括监督学习和无监督学习两种形式。第二个里程碑:深度学习(DL)。深度学习是机器学习的一个分支。所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能力。因为大数据和深度学习爆发并得以高速发展,最终成就了深度学习理论和

17、实践。2006年,杰弗里辛顿(Geoffrey Everest Hinton,1947)正式提出深度学习概念,其原理是通过单层的受限制玻尔兹曼机(RBM)自编码预训练实现神经网络训练。2006年也因此成为“深度学习元年”。在辛顿深度学习的背后,是对“如果不了解大脑,就永远无法理解人类”这一认识的坚信。人脑必须用自然语言进行沟通,而只有1.5千克重的大脑,大约有860亿个神经元(通常被称为灰质)与数万亿个突触相连。人们可以把神经元看作接收数据的中央处理单元(CPU)。所谓深度学习可以伴随着突触的增强或减弱而发生。一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从

18、数据中学习。所以,需要用生物学途径,或者关于神经网络途径替代模拟硬件途径,形成基于100万亿个神经元之间的连接变化的深度学习理论。深度学习是建立在计算机神经网络理论和机器学习理论上的科学。它使用建立在复杂的网络结构上的多处理层,结合非线性转换方法,对复杂数据模型进行抽象,从而识别图像、声音和文本。在深度学习的历史上,CNN和循环神经网络(RNN)曾经是两种经典模型。102012年,辛顿和亚历克斯克里泽夫斯基(Alex Krizhevsky,1978)设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别分类,成为新一轮人工智能发展的起点。这类系统可以处理大量数据,发现人类通常无法

19、发现的关系和模式。第三个里程碑:人工智能内容生成大模型。从2018年开始大模型迅速流行,预训练语言模型(PLM)及其“预训练微调”方法已成为NLP任务的主流范式。大模型利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有监督学习微调(instruction tuning)模型参数,实现下游任务的适配。大模型的训练需要大量的计算资源和数据,OpenAI使用了数万台CPU和图像处理单元(GPU),并利用了多种技术,如自监督学习和增量训练等,对模型进行了优化和调整。20182023年,OpenAI实现大模型的五次迭代。【2018年6月,发布GPT-1,模

20、型参数量为1.17亿;2019年2月,发布GPT-2,模型参数量为15亿;2020年5月,发布GPT-3,模型参数量为1750亿;2022年11月,OpenAI正式推出了对话交互式的聊天机器人ChatGPT。相比GPT-3,ChatGPT基于的GPT-3.5引入了基于人类反馈的强化学习技术以及奖励机制,提高模型准确度。2023年3月,正式推出GPT-4,成为目前较先进的多模态大模型。GPT-4主要在识别理解能力、创作写作能力、处理文本量以及自定义身份属性迭代方面取得进展。】同时,OpenAI也提供了API接口,使得开发者可以利用大模型进行NLP的应用开发。总之,大模型是在数学、统计学、计算机科

21、学、物理学、工程学、神经学、语言学、哲学、人工智能学融合基础上的一次突变,并导致了一种“涌现”(emergence)。大模型也因此称得上是一场革命。在模型尚未达到某个临界点之前,根本无法解决问题,性能也不会比随机好;但当大模型突破某个临界点之后,性能发生越来越明显的改善,形成爆发性的涌现能力(参见图)。据谷歌、斯坦福和DeepMind联合发表的大语言模型的涌现能力(Emergent Abilities of LargeLanguage Models):“许多新的能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技11能才会突飞猛进。”图 模型参数规模扩

22、大为大模型带来的能力“涌现”更为重要的是,大模型赋予AI以思维能力,一种与人类近似,又很不同的思维能力。3.大模型的基本特征大模型以人工神经网络(ANN)为基础。1943年,心理学家麦卡洛克(Warren Sturgis McCulloch,18981969)和数理逻辑学家、数学家皮茨(Walter Harry Pitts,Jr.,19231969)建立了第一个神经网络模型,即M-P模型。【该模型也被称为McCulloch-Pitts模型或MCP模型。】该模型是对生物神经元结构的一种模仿,将神经元的树突、细胞体等接收信号定义为输入值x,突触发出的信号定义为输出值y。M-P模型奠定了支持逻辑运算

23、的神经网络基础。1958年,计算机专家弗兰克罗森布拉特(Frank Rosenblatt,19281971)基于M-P模型,发明了包括输入层、输出层和隐藏层的感知机(perceptron)(参见图)。神经网络的隐藏层(位于输入和输出之间的层)最能代表输入数据类型特征。从本质上讲,这是第一台使用模拟人类思维过程的神经网12络的新型计算机。图 包括输入层、输出层和隐藏层的感知机的结构图片来源:作者改制自Reza,Moonzarin,2021,“Galaxymorphology classification using automated machinelearning”,Astronomy and

24、 Computing,卷37,https:/doi.org/10.1016/j.ascom.2021.100492。以OpenAI为代表的团队,为了让具有多层表示的神经网络学会复杂事物,创造了一个初始化网络的方法,即预训练(pre-trained)。在GPT中,P代表经过预训练(pre-trained),T代表Transformer,【中文将Transformer翻译为“变换器”,并不能完全反映AI大模型的Transformer的基本内涵。因此,本文直接使用英文原词。】G代表生成性的(generative)。实际上,是生成模型为神经网络提供了更好的预训练方法。现在的大模型都是以人工神经网络为基

25、础的算法数学模型。其基本原理依然是罗森布拉特的智能机。这种人工智能网络是一个复杂系统,通过分布式并行和调整内部大量节点之间相互连接的信息。13大模型需要可持续的文本数据输入和预训练。大模型生成的内容的前提是大规模的文本数据输入,并在海量通用数据上进行预训练。通过预训练不断调整和优化模型参数,使得模型的预测结果尽可能接近实际结果。预训练中使用的大量文本数据包括维基百科、网页文本、书籍、新闻文章等,用于训练模型的语言模型部分。此外,还可以根据应用场景和需求,调用其他外部数据资源,包括知识库、情感词典、关键词提取、实体识别等。文本数据包括有标注的数据和无标注数据,这是所谓数据驱动。在预训练的过程中,

26、不是依赖于手工编写的语法规则或句法规则,而是通过学习到的语言模式和统计规律进行预训练,生成更加符合特定需求和目标的文本输出。预训练,促进规模化。所谓的规模化是指用于训练模型的计算量,最终转化为训练越来越大的模型,具有越来越多的参数。在预训练过程中,大模型形成理解上下文学习的能力。或者说,伴随上下文学习的出现,人们可以直接使用预训练模型。大模型通过大量语料库训练获得的生成文本中,根据输入文本和生成的上下文生成合适的文本输出,学习词汇、句法结构、语法规则等多层次的语言知识,通过对大量样本进行学习,更多的计算资源的投入,包括正确和错误的文本样本,捕捉到语法和句法的统计性规律,形成一个词或字符的概率的

27、预测能力,进而根据不同样本的预测错误程度调整参数,处理复杂的语境,最终逐渐优化生成的文本。例如,GPT会根据之前的上下文和当前的生成状态,选择最有可能的下一个词或短语。“预训练+微调”大模型能显著降低AI工程化门槛,预训练大模型在海量数据的学习训练后具有良好的通用性和泛化性,细分场景的应用厂商能够基于大模型通过零样本、小样本学习即可获得显著的效果,使得人工智能有望构建成统一的智能底座,AI+赋能各行各业。本轮的生成式AI有望从简单的内容生成,逐步达到具有预测、决策、探索等更高的认知智能。针对大量数据训练出来的预训练模型,后期采用业务相关数据进一步训练原先模型的相关部分,给出额外的指令或者标注数

28、据集来提升模型的性能,通过微调得到准确度更高的模型。14大模型具有理解自然语言的能力和模式。自然语言,例如汉语、英语及其文字,具有复杂性和多样性,且伴随文化演变而进化。自然语言通过表达含义,实现人类沟通和交流,推动人类思维发展。理解自然语言,首先要理解文本的特征。在大模型研究的早期阶段,研究工作主要集中在NLP领域,形成从简单的文本问答、文本创作到符号式语言的推理能力。之后大模型发生编程语言的变化,有助于更多人直接参与大模型使用问答的自然语言交互和编程模式,经过形式极简的文本输入,利用自然语言表达的丰富性,形成自然语言与模型的互动。不同于基于语法规则、句法规则的传统语言模型,大语言模型基于统计

29、语言学的思想,在大量文本数据上进行自监督学习,利用自然语言中的统计性规律,涉及贝叶斯原理(Bayes theorem)和马尔可夫链(Markov chain)等数学工具、N元(N-gram)语言模型,通过对大量语法和句法进行正确的样本学习,捕捉相关规则并进行推断,对各种不同形式的语言表达保持一定的容忍性、适应性和灵活性,从而生成具有语法和语义合理性的文本。【贝叶斯原理是用贝叶斯风险表示的最优决策律;马尔可夫链描述的是概率论和数理统计中离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process);N元模型是大词汇连续语音识别中常用的一

30、种语言模型。】词嵌入(word embedding)是一种将词语映射到低维实数向量空间的技术,用于表示词语的语义信息。将输入的文本转换为词嵌入向量来进行模型的处理和生成。词向量表示是将词语映射到连续向量空间的技术,用于在模型中表示词语。大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技术手段,其本质是一个多步推理的过程。通过让大语言模型将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。还可以这样理解,“思维链”相当于是大模型当中的数据,AI以思维链为数据,再来做微调和反馈,从而形成AI能力。在计算机语言中,有一个第四范式(4NF)概念,其内涵是逐步消除数据依赖中不合适的部分,

31、使关系数据库模式的各关系模式达到某种程度的“分离”,即“一事一地”的模式设计原则。第四范式的概念有助于理解“思维链”的功能,有助于大模型更加结构化和规范化,减少数据信息冗余和碎片化等弊病,提高大模15型的效率。大模型需要向量数据库的支持。虽然大模型呈现出端到端、文本输入输出的形式,但是大模型实际接收和学习的数据并不是传统文本,因为文本本身数据维度太高、学习过于低效,所以需要向量化的文本。所谓向量化的文本,就是模型对自然语言的压缩和总结。向量也因此成为大模型数据存储的基本单位和AI理解世界的通用数据形式,大模型需要向量数据库,其实时性对分布式计算的要求很高,随着数据的变化实时更新,以保障向量的高

32、效存储和搜索。【海外独角兽.Pinecone:大模型引发爆发增长的向量数据库,AI Agent的海马体EB/OL.(2023-04-26).https:/ Vaswani,?)等人发表论文:Attention Is All You Need,系统提出了Transformer的原理、构建和大模型算法。此文的开创性的思想,颠覆了以往序列建模和RNN画等号的思路,开启了预训练大模型的时代。Transformer是一种基于注意力机制的深度神经网络,可以高效并行处理序列数据,与人的大脑非常近似。Transformer包括以下基本特征:(1)由编码组件(encoder)和解码组件(decoder)两个部分

33、组成;(2)采用神经网络处理序列数据,神经网络被用来将一种类型的数据转换为另一种类型的数据,在训练期间,神经网络的隐藏层(位于输入和输出之间的层)以最能代表输入数据类型特征的方式调整其参数,并将其映射到输出;(3)拥有的训练数据和参数越多,它就越有能力在较长文本序列中保持连贯性和一致性;(4)标记和嵌入输入文本必须经过处理并转换为统一格式,然后才能输入到Transformer;(5)实现并行处理整个序列,从而可以将顺序深度学习模型的速度和容量扩展到前所未有的速度;(6)引入“注意机制”,可以在正向和反向的非常长的文本序列中跟踪单词之间的关系,包括自注意力机制(self-attention)和多

34、头注意力机制(multi-head attention)其中的多头注意力机制中有多个自注意力机制,可以捕获单词之间多种维度上的相关系数注意力评分(attention score),摒弃了递归和卷积;(7)训练和反馈在训练期间,Transformer提供了非常大的配对示例语料库(例如,英语句子及其相应的法语翻译),编码器模块接收并处理完整的输入字符串,尝试建立编码的注意向量和预期结果之间的映射。在Transformer之前,发挥近似功能的是RNN或CNN。Transformer起初主要应用于NLP,但渐渐地,它在几乎所有的领域都发挥了作用,通用性也随之成为Transformer最大的优势。包括图

35、像、视频、音频等多领域的模型都需要使用Transformer。总之,Transformer是一种非常高效、易于扩展、并行化的架构,其核心是基于注意力机制的技术,可以建立起输入和输出数据的不同组成部分之间的依赖关系,具有质量更优、更强的并行性和训练时间显著17减少的优势。Transformer现在被广泛应用于NLP的各个领域,是一套在NLP各业务全面开花的语言模型。5.大模型,GPU和能源任何类型的大模型都是通过复杂构造支持的。这个结构包括硬件基础设施层、软件基础设施层、模型MaaS层和应用层(参见图)。在上述结构中,GPU就是硬件基础设施层的核心。人工智能时代的到来,AI算法效率已经超越了摩尔

36、定律(Moores Law)。21世纪以来,摩尔定律面临新的生态:功耗、内存、开关功耗极限,以及算力瓶颈等“技术节点”。摩尔定律逼近物理极限,无法回避量子力学的限制。在摩尔定律之困下,只有三项选择:延缓摩尔,扩展摩尔,超越摩尔。18图 支持大模型的结构层级19图形处理器,或者网络图形处理器具有数量众多的运算单元,采用极简的流水线进行设计,适合计算密集、易于并行的程序,特别是具备图形渲染和通用计算的天然优势。大模型的训练和推理对GPU提出了更高的要求:更高的计算能力、更大的显存容量、更快的显存带宽、更高效的集群通信能力,以及低延迟和低成本的推理。GPU可以基于异构计算提供超强浮点计算能力服务,提

37、供端到端的深度学习资源,缩短训练环境部署时间。【按照IEEE 754标准,浮点运算被定义为单精度(32位)或者双精度(64位)数的相关运算。】总之,GPU的高性能计算推动了AI大模型的发展,AI大模型也不断对GPU提出迭代要求。20AI大模型的演变,将加速对能源的需求。国际数据公司(IDC)预测,到2025年,全球数据量将达到175ZB,而且近90%的数据都是非结构化的。这些数据需要大量的计算能力才能被分析和处理。同时,随着AI算法不断升级和发展,它们的复杂性和计算量也在不断增加。据估计,目前AI的能源消耗占全球能源消耗的约3%。根据一份报告,到2025年,AI将消耗15%的全球电力供应。除了

38、硬件开发所必须投入的“固定碳成本”以外,对于人工智能日常环境的维护投入也不容小觑。所以,AI的快速发展将对能源消耗和环境产生巨大的影响。【格物信息.AI会消耗全球多少电力供应?EB/OL.(2023-03-27).https:/ Polanyi)发现了知识的隐性维度,而人工智能正易于把握这一隐性维度。(4)改变知识获取途径。(5)改变推理和判断方21式。人类的常识基于推理和判断,而机器常识则是基于逻辑和算法的。人类可以根据自己的经验和判断力做出决策,而机器则需要依赖程序和算法。(6)改变知识创新方式和加速知识更新速度。知识更新可以通过AI实现内容生成,并且AI大模型具有不断生成新知识的天然优势

39、。人类知识处理的范式将发生转换。人类知识的边界有机会更快速地扩展。(7)改变知识处理方式。人类对知识的处理(knowledge processing)分为六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处理中,都能发挥一定的作用,为人类大脑提供辅助。图 知识的“金字塔”结构说明:一般来说,知识结构类似金字塔,包括数据、信息、知识和智慧四个层次。大模型具有极为宽泛的溢出效应,其中最为重要的是引发前所未有的学习革命和知识革命。简言之,如果大模型与外部知识源(例如搜索引擎)和工具(例如编程语言)结合,将丰富知识体系并提高知识的获取效率。万物皆可AI,因为大模型引发知识革命,形成人类

40、自然智慧和人工智能智慧并存的局面(参见图)。22图 大模型对知识生产主体的改变知识需要学习。基于赫布理论(Hebbian theory)的学习方法被称为赫布型学习。【这一理论由唐纳德赫布(Donald Olding Hebb,19041985)于1949年提出,又被称为赫布定律(Hebbs rule)、赫布假说(Hebbs postulate)、细胞结集理论(cell assembly theory)等。】赫布理论是一个神经科学理论,描述了在学习过程中大脑的神经元所发生的变化,从而解释了记忆印痕如何形成。赫布理论描述了突触可塑性的基本原理,即突触前神经元向突触后神经元持续重复的刺激,可以导致突

41、触传递效能的增加。以深度学习为核心的大模型的重要特征就是以人工智能神经网络为基础。因此,大模型是充分实践赫布理论的重要工具。1966年,美国哈佛大学心理学家戴维珀金斯(David N.Perkins,1942)提出“真智力”(true intelligence),并提出智商包括三种主要成分或维度:(1)神经智力(neural intelligence),神经智力具有“非用23即失”(use it or lose it)的特点;(2)经验智力(experientialintelligence),是指个人积累的不同领域的知识和经验,丰富的学习环境能够促进经验智力;(3)反省智力(reflectiv

42、e intelligence),类似于元认知(metacognition)和认知监视(cognitive monitoring)等概念,有助于有效地运用神经智力和经验智力的控制系统。大模型恰恰具备上述三种主要成分或维度。因此,AI大模型不仅有智慧,还是具有高智商的一种新载体。7.大模型和“人的工具化”虽然AI大模型实现智能的途径和人类大脑并不一样,但最近约翰斯霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,有效证明了其心智理论性能。在一些测试中,人类的水平大概是87%,而GPT-4已经达到100%。此外,在适当的提示下,所有经过RLHF训练的模型都可以实现超过80%的准确率。【

43、新智元.100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌EB/OL.(2023-05-01).https:/ ReeveMusk,1971)联名千余科技领袖,呼吁暂停开发AI。他们声称对AI的开发是一场危险竞赛,呼吁从不断涌现具有新能力、不可预测的“黑匣子”模型中退后一步。同年4月,身在多伦多的图灵奖得主辛顿向谷歌提出辞职。【The New York Times.“The Godfather of AI”Leaves Google and Warns of Danger AheadEB/OL.(2023-05-2401).https:/ Einstein,18791955)和奥

44、本海默(Julius RobertOppenheimer,19041967)。他们在二战后都明确表达了为参与核武器研发和建议感到后悔,更为核武器成为冷战筹码和政治威胁的工具感到强烈不满。事实上,控制论之父维纳(Norbert Wiener,18941964)在人有人的用处(The Human Use of Human Beings)一书中给出了一个耸人听闻的结论:“这些机器的趋势是要在所有层面上取代人类,而非只是用机器能源和力量取代人类的能源和力量。很显然,这种新的取代将对我们的生活产生深远影响。”【N.维纳.人有人的用处控制论和社会M.陈步,译.北京:商务印书馆,1978.】同样,霍金(St

45、ephen Hawking,19422018)生前也曾多次表达他对人工智能可能导致人类毁灭的担忧。在现实生活中,AI大模型的冲击正在被积聚。例如,作为一种基于大规模文本数据的生成模型,GPT已经对语言学、符号学、人类学、哲学、心理学、伦理学和教育学等广义思想文化领域造成冲击,并将进一步对自然科学技术、经济形态和运行、社会结构,以及国际关系产生进一步的全方位冲击。AI大模型是人工智能历史的分水岭,甚至是工业革命以来人类文明史的分水岭。此前,人们更多关注和讨论的是人如何适应机器,探讨人与机器人的合作,实现“艾西莫夫定律”;而现在,人类则进入如何理25解大模型、预知人工智能的重要节点,人工智能被恶意

46、利用、彻底失控的威胁也隐隐出现。特别是由于AI幻象(hallucinations)的存在,对人类决策和行为的误导也更容易发生。【人工智能聊天机器人,包括ChatGPT,即使经过数百万文本源的训练,可以阅读并生成“自然语言”文本语言,像人类一样自然地写作或交谈,它们也仍会犯错,这些错误被称为“幻觉”,或者“幻想”。】遗憾的是,现在世界处于动荡时刻,人类已经自顾不暇,无人知晓人工智能下一步会发生什么。电影机械姬有这样一段苍凉的台词:“将来有一天,人工智能回顾我们,就像我们回顾非洲平原的化石一样,直立猿人住在尘土里,使用粗糙的语言和工具,最后全部灭绝。”【机械姬(Ex Machina)是2015年英

47、国科幻电影,影片讲述主人公受邀鉴定人形机器人是否具备人类心智所引发的故事。】最近还有一个消息:来自洛桑联邦理工学院的研究团队提出了一种全新的方法,可以用AI从大脑信号中提取视频画面,迈出“读脑术”的第一步,相关论文也已登上自然(Nature)杂志。虽然这篇论文受到很多质疑,但可以肯定的是,除了试图改善人类生活的科学家、工程师和企业家外,还将存在阴暗和邪恶力量,人们对AI的不安也随之与日俱增。AI是人类的又一个潘多拉盒子,且很可能再无人能将其关上。在人类命运的巨变趋势面前,人类的选择在减少,不可放弃让人回归人的价值,需要留下“种子”火星迁徙至少具有这样的超前意识。8.结语因为AI大模型,人工智能

48、从1.0加速进入2.0时代。在人工智能2.0时代,大模型的分工越来越明确(参见图)。日益增多的大模型,特别是开源大模型可以实现不同的组合,将大模型乐高(Lego)化,构成大模型集群。这不仅会推动人类的社会空间、物理空间和信息空间日益紧密融合,而且还将促成一个由大模型主导的世界(参见图)。【近日,微软宣布开源Copilot Chat应用。Copilot26Chat是基于微软Semantic Kernel框架开发而成的,除了自动生成文本之外,还具备个性化推荐、数据导入、可扩展、智能功能等,可实现独一无二的个性化问答。】图 人工智能1.0与2.0的差异图片来源:李开复,“AI 1.0到AI 2.0的

49、新机遇”,https:/ Javier Varela Garca,19462001)、汤普森(Evan Thompson,1962)和洛什(Eleanor Rosch,1938)于1991年出版的寓体心智:认知科学与人类经验(The EmbodiedMind:Cognitive Science and Human Experience)中被提出,主张心智能力是嵌入在神经和体细胞活动中,并通过生物的行为而涌现的。】“生成主义的认知观,既不同于客观主义的经验论,也有别于主观主义的唯理论,实际上持有的是一种居于两者之间的中间立场:一方面,生成认知否认外部世界的预先给予性,强调世界是依赖于外在的知觉者

50、的;另一方面,生成认知也不赞同观念论对于心智实在性的否定,强调具身性是心智和认知最为根本的特征。”【小明心伙伴.生成主义的认知观包含哪几类?其具体内容是什么?EB/OL.(2022-07-19).27https:/ 由大模型主导的世界图片来源:作者改制自Shiqiang Zhu et al,“IntelligentComputing:The Latest Advances,Challenges and Future”,Intelligent Computing(2023).DOI:10.34133/icomputing.0006。朱嘉明2023年5月9日写于上海28绪论生成式大模型正在生成新的

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服