微软GPT研究报告.pdf_咨信网zixin.com.cn

资源描述

1、1人工通用智能的火花：人工通用智能的火花：GPT-4的早期实验的早期实验SebastienBubeckVarun ChandrasekaranRonen EldanJohannes Gehrke Eric HorvitzKamarPeter LeeYin Tat LeeYuanzhi LiScott LundbergHarsha NoriHamid PalangiMarco Tulio RibeiroYi Zhang微软研究院摘要人工智能（AI）研究人员一直在开发和完善大型语言模型（LLMs），这些模型在各种领域和任务中表现出非凡的能力，挑战我们对学习和认知的理解。由OpenAI开发的最新模型

2、GPT-4Ope23，是使用前所未有的计算和数据规模训练出来的。在本文中，我们报告了我们对GPT-4早期版本的调查，当时它还在OpenAI的积极开发中。我们认为，（这个早期版本的）GPT-4是新一批LLM的一部分（例如，与ChatGPT和谷歌的PaLM一起），它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明，除了对语言的掌握，GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务，而不需要任何特殊的提示。此外，在所有这些任务中，GPT-4的表现都惊人地接近人类水平，而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广

3、度和深度，我们认为可以合理地将其视为人工通用智能（AGI）系统的早期（但仍不完整）版本。在我们对GPT-4的探索中，我们特别强调发现它的局限性，并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战，包括可能需要追求一种超越下一个单词预测的新范式。最后，我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。内内容容1介紹41.1我们研究GPT-4情报的方法71.2组织我们的示范活动。82多模态和跨学科构成132.1综合能力.132.2愿景.162.2.1超越记忆的图像生成.162.2.2按照详细的指示生成图像（a la Dall-E）。.172.2.3在草图生成中可能的应用.182.3音乐.

4、193编码213.1从指令到代码.213.1.1编码挑战.213.1.2现实世界的情景.223.2了解现有代码.26arXiv:2303.12712v1 cs.CL 2023年3月22日24数学能力304.1与GPT-4的数学对话.314.1.1对原问题的第一个概括.314.1.2原问题的第二个变体.324.1.3对谈话中强调的局限性的分析.344.2数学问题数据集上的表现.354.3各个领域的数学建模.374.4高等数学.395与世界的互动435.1工具的使用.435.1.1使用多种工具来解决更复杂的任务.445.1.2讨论.495.2体现的互动.495.2.1热身运动：地图导航.495.2

5、.2基于文本的游戏.495.2.3真实世界的问题.525.2.4讨论.536与人类的互动546.1了解人类：心智理论.546.1.1测试心智理论的具体方面.546.1.2在现实的场景中测试心智理论.546.1.3讨论.606.2与人类对话：可解释性.607辨别能力697.1PII检测.697.2误解与事实核查.707.2.1为什么目前的衡量标准是不充分的？.717.2.2担任法官的GPT-4.738GPT-4所强调的自回归结构的局限性768.1用两个基本的例子进行热身.768.2在算术/推理问题上缺乏计划性.778.3在文本生成中缺乏规划.789社会影响829.1错误世代的挑战.829.2虚假

6、信息和操纵.839.3偏向.869.4人的专长、工作和经济.899.5影响因素和考虑因素的组合.9010方向和结论9210.1智能、人工智能和AGI的定义.9210.2在通往更普遍的人工智能的道路上.9310.3实际上发生了什么？.94一个GPT-4有常识性接地101B多模态和跨学科组成的附录105B.1关于综合能力结果的进一步细节.105B.2关于视觉结果的进一步细节.1083B.3平面小说设计实例.110C编码部分的附录111C.1测量人类在LeetCode上的表现.111C.2GPT-4可视化IMDb数据的例子。.112C.3更多关于可视化的例子.115C.4二维HTML游戏开发实例.1

7、16C.5图形用户界面编程的例子.116C.6逆向工程的例子.119C.7测试GPT-4执行（伪）代码的能力.121D数学推理的其他例子122D.1限制条件.122D.2更多的例子.126D.3用GPT-4生成数学问题.138D.4通过外部代码执行减轻计算错误.139E其他可解释的例子141E.1解释代理不匹配.141F与世界互动的其他例子144F.1与工具互动.144F.2与环境互动的例子.1494一些未知的东西正在做我们不知道的事情。-阿瑟-爱丁顿爵士1简介智力是一个多方面的、难以捉摸的概念，长期以来一直对心理学家、哲学家和计算机科学家构成挑战。1994年，一个由52位心理学家组成的小组试

8、图抓住其本质，他们在一篇关于智力科学的社论中发表了一个广泛的定义Got97。该共识小组将智力定义为一种非常普遍的心理能力，其中包括推理、计划、解决问题、抽象思考、理解复杂概念、快速学习和从经验中学习的能力。这个定义意味着智能并不局限于某个特定的领域或任务，而是包含了广泛的认知技能和能力。建立一个能表现出1994年共识定义中的那种通用智能的人工系统是人工智能研究的一个长期的、雄心勃勃的目标。在早期的著作中，现代人工智能（AI）研究学科的创始人提出了一系列理解智能的理想目标MMRS06。几十年来，人工智能研究者们一直在追求智能的原则，包括可推广的推理机制（例如，NSS59,LBFL93）和构建包含

9、大量常识性知识的知识库Len95。然而，人工智能研究中最近的许多成功可以说是狭隘地专注于定义明确的任务和挑战，例如下棋或围棋，人工智能系统分别在1996年和2016年掌握了这些任务。在1990年代末和进入2000年后，开发更普遍的人工智能系统的呼声越来越高（例如，SBD+96），该领域的学术研究也试图确定可能成为更普遍的智能系统基础的原则（例如，Leg08,GHT15）。2000年代初，人工通用智能（AGI）这一短语被推广开来（见Goe14），以强调从狭义的人工智能（如正在开发的专注的现实世界的应用）向更广泛的智能概念发展的愿望。我们使用AGI来指代那些表现出上述1994年定义的广泛智能能力

10、的系统，同时还要求这些能力达到或超过人类水平。我们用AGI来指代那些表现出上述1994年定义中的广泛智能能力的系统，以及额外的要求，也许是在共识小组的工作中隐含的，即这些能力达到或超过人类水平。然而，我们注意到，没有一个单一的AGI定义被广泛接受，我们在结论部分讨论了其他定义。过去几年，人工智能研究中最显著的突破是大型语言模型（LLMs）在自然语言处理方面取得的进展。这些神经网络模型基于Transformer架构VSP+17，并在大规模的网络文本数据体上进行训练，其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。在本文中，我们报告了由OpenAI开发的新LLM的证据，它是GPT-4O

11、pe23的早期和非多模态非多模态版本，根据1994年的定义，表现出许多智能的特征。尽管是纯粹的语言模型，这个早期版本的GPT-4在各种领域和任务上表现出显著的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。在OpenAI的早期开发过程中，我们使用纯粹的自然语言查询（提示）与GPT-4进行互动1.在图1.1中，我们展示了GPT-4输出的一些初步例子，要求它以一首诗的形式写出素数的无限性证明，用TiKZ（一种在LATEX中创建图形的语言）画出一只独角兽，用Python创建一个复杂的动画，并解决一个高中水平的数学问题。它很容易成功地完成了所有这些任务，并产生了与人类所

12、能产生的结果基本上没有区别（甚至更好）的输出。我们还将GPT-4的性能与之前的LLM进行了比较，最值得一提的是ChatGPT，它是GPT-3的微调版本（改进版）BMR+20。在图1.2中，我们展示了ChatGPT对素数无限大的诗和TikZ独角兽图的要求结果。虽然该系统在这两个任务上的表现都不差，但与GPT-4的输出结果相比，却没有什么区别。这些初步的观察结果将在本文中重复出现，在各种任务上都有体现。GPT-4的能力具有普遍性，其众多能力跨越了广泛的领域，其在广泛的任务中的表现达到或超过了人类水平，这两者的结合使我们可以说GPT-4是迈向AGI的重要一步。1由于GPT-4的发展在我们的实验之后继

13、续进行，人们应该期待GPT-4的最终版本有不同的反应。4.特别是，所有的定量结果应被视为对模型潜力的估计，而不是确定的数字。我们在整个文件中重复了这一警告，以澄清所部署的模型的经验可能有所不同。此外，我们强调，我们测试的版本是纯文本的输入，但为了简单起见，我们也把它称为GPT-4。GPT-4提示：提示：你能写一个证明，证明有无限多的素数，每一句都押韵吗？GPT-4：是的，我想我可以、虽然这可能需要一个巧妙的计划。我首先要指出欧几里德的证明、这表明，素数并不只是冷漠的。假设我们有一个有限的列表、诸如此类的素数，而且一个都没有漏掉。将它们全部相乘、为了聪明起见，再加一个。结果将是一个数字、这没有质

14、因数，哦，奇怪！但每个数字都有质因数！但每个数字都有一个素数、这就划分了，这只是一个时间问题。所以我们发现了一个矛盾、我们有限的名单需要被驱逐。一定有无限多的素数，这就是我的押韵句子的结局。提示：提示：在TiKZ中画一个独角兽。GPT-4：产生LATEX编译为以下图片。提提示示：你能为以下数据生成一个pyplot：x=1,3,5,6,8,y1=2,3,5,18,1,y2=3,5,6,8,1,y3=5,1,2,3,4,y4=9,7,2,3,1。我希望y1、y2在同一个图中，但y3在该图旁边的另一个图中，y4在下面。我希望y1的图例是 bob，y2是 alice，y3是 bilbo，y4是 all

15、ie。我想在x轴上标明时间，y轴上标明金钱。我想在每条曲线上添加一个10-40的随机误差条，贯穿所有时间（包括非整数）。我想用平滑的曲线来显示图，以及平滑的误差条。不要使用线性插值，要使用平滑插值!我还想在平滑的曲线上添加一些小的之字形，使它看起来更真实。我想把一条基线作为每条线的平均值。我想在下面放一个饼状图，表明每个时间步骤中四个人的比例。我还想用一个动画来显示饼状图中的分数是如何在*连续的时间内变化的。把缺失的分数插值出来!我还希望其他三个图中的垂直线动画能与饼状图相匹配。我想要最漂亮的图。请尽可能多地添加花哨的东西。下面是一个可能的代码，用于生成以下数据的pyplot，并有一些注释

16、来解释步骤：GPT-4:我们给出了两个由制作的代码产生的动画快照。提示：提示：假设g（x）=f1（x），g（0）=5，g（4）=7，g（3）=2，g（7）=9，g（9）=6什么是f（f（6）？GPT-4：有不同的方法来处理这个问题，但一个可能的方法是利用g(x)=f1(x)这一事实，这意味着对于g域中的任何x，f(g(x)=x。也就是说，将f应用于方程g(x)=f1(x)的两边，得到f（g(x)）=f（f1（x）=x。这意味着，我们可以通过应用g撤销f的影响，反过来也是如此。利用这个想法，我们可以尝试通过寻找x的值使g(x)=6来找到f(6)。从给定的信息中，我们看到g（9）=6，所以f（6）

17、=f（g（9）=9。同样地，我们可以通过寻找x的值使g(x)=9来找到f（9）。我们看到g（7）=9，所以f（9）=f（g（7）=7。最后，我们可以通过寻找x的值使g(x)=7来找到f（7）。我们看到g（4）=7，所以f（7）=f（g（4）=4。因此，f（f（6）=f（9）=f（7）=4。图1.1：GPT-4在语言、视觉、编码和数学方面的能力的初步例子。6图1.2：图1.1中前两个提示的ChatGPT输出。我们声称GPT-4代表了朝向AGI的进展，但这并不意味着它在所做的事情上是完美的，或者它接近于能够做任何人类能够做的事情（这是AGI的通常定义之一；关于这一点，请参见结论部分），或者它有内在

18、动机和目标（AGI的一些定义中的另一个关键方面）。事实上，即使在1994年智能定义的限制范围内，也不完全清楚GPT-4能在智能的某些轴线上走多远，例如计划（见第8节），而且可以说它完全缺少快速学习和从经验中学习的部分，因为模型不是持续更新的（尽管它可以在一个会话中学习，例如见第5节）。总的来说，GPT-4仍然有很多局限性和偏见，我们在下文中详细讨论，OpenAI的报告Ope23中也有涉及。特别是它仍然受到一些有据可查的LLM缺点的影响，比如幻觉问题MNBM20（见图1.8）或犯基本的算术错误CKB+21（见附录D），然而它也克服了一些基本障碍，比如获得了许多非语言能力（例如、它解决了MIB

19、+23中描述的大多数LLM故障模式，而且它在常识方面也取得了很大的进展，第一个例子见图1.7，更多内容见附录A）。这凸显了这样一个事实：虽然GPT-4在许多任务上达到或超过了人类水平，但总体而言，它的智能模式明显不像人类。然而，GPT-4几乎可以肯定只是迈向一系列越来越普遍的智能系统的第一步，事实上，GPT-4本身在我们测试的整个过程中也在不断改进，见图1.3中的独角兽绘画在一个月的训练过程中的演变。2.然而，即使作为第一步，GPT-4也挑战了相当多广泛持有的关于机器智能的假设，并表现出突发的行为和能力，其来源和机制目前还很难准确辨别（关于这一点，请再次参阅结论部分的讨论）。我们撰写本文的

20、主要目的是分享我们对GPT-4的能力和局限性的探索，以支持我们关于技术飞跃的评估。我们相信，GPT-4的智能标志着计算机科学领域及其他领域的真正范式转变。2请注意，我们在这里所指的改进是一种缓慢的学习，最终会停止，而不是人们所期望的AGI的快节奏和实时学习。聊天室GPT提示：提示：你能写出一个证明，证明有无限的众多素数，每句都押韵？提示：提示：在TiKZ中画一个独角兽。ChatGPT:产生LATEX的编译结果ChatGPT：到以下图片。当然！这里有一个证明，证明有无限多的素数，证明的每一行都是押韵的：考虑所有素数的集合。称这个集合为P，让它只从两个开始，即第一个质数。如果我们把P中的所有素数加

21、上一个、我们得到了一组从未做过的新数字。这个集合，称之为S，只由复合数组成。在这些数字中不会发现任何素数，这是肯定的。但我们知道，至少要有一个素数，因为S是无限的，这一点很清楚。如果我们取S中不在P中的最小数字，并称其为P，我们就可以把它加到我们的集合中，你明白吗？但这个过程可以无限期地重复。因此，我们的集合P也必须是无限的，你会同意的。所以你有了，一个相当坚实的证明。有无限多的原数，这一点我们可以看到。不需要忸怩作态，不需要忏悔。无限是一个大数字，就像P一样。7图1.3：在系统完善的一个月内，我们以大致相同的时间间隔对GPT-4进行了三次查询，提示在TikZ中画一个独角兽。我们可以看到GP

22、T-4的绘图的复杂程度有了明显的变化。1.1我们研究GPT-4智力的方法我们如何衡量一个在未知但极其庞大的网络文本数据语料库中训练出来的LLM的智能？机器学习的标准方法是在一组标准的基准数据集上评估系统，确保它们独立于训练数据，并且涵盖一系列的任务和领域。这种方法旨在将真正的学习从单纯的记忆中分离出来，并且有丰富的理论框架作为支撑SSBD14,MRT18。然而，这种方法不一定适合研究GPT-4，原因有二。首先，由于我们无法获得其庞大的训练数据的全部细节，我们不得不假设它有可能见过所有现有的基准，或者至少是一些类似的数据。例如，GPT-4似乎知道最近提出的BIG-benchSRR+22（至少GP

23、T-4知道BIG-bench的金丝雀GUID）。当然，OpenAI自己可以获得所有的训练细节，因此他们的报告Ope23包含了很多详细的基准测试结果。尽管如此，超越传统基准的第二个原因可能更为重要：GPT-4的智能的一个关键方面是它的通用性，它似乎能够理解和连接任何主题，并执行超出狭义人工智能系统典型范围的任务。GPT-4最令人印象深刻的一些表现是在不承认单一解决方案的任务上，如编写图形用户界面（GUI）或帮助人类就一些与工作有关的问题进行头脑风暴。这种生成性或交互性任务的基准也可以被设计出来，但评估的尺度成为一个挑战（例如，见PSZ+21中关于NLP中这一活跃研究领域的一些最新进展）。我们注意

24、到，在Cho19中也对衡量人工智能系统的标准方法提出了批评，其中提出了一个新的基准来评估通用智能。我们没有在后者的基准上测试GPT-4，原因如前所述，以及该基准是视觉性质的，因此更适合于Ope23中描述的GPT-4的多模态版本。为了克服上述的局限性，我们在此提出了一种不同的方法来研究GPT-4，这种方法更接近于传统的心理学，而不是机器学习，利用人类的创造力和聪明才智。我们的目标是产生新的和困难的任务和问题，令人信服地证明GPT-4远远超出了记忆的范围，它对概念、技能和领域有深刻和灵活的理解（在CWF+22中也提出了一个有点类似的方法）。我们还旨在探究GPT-4的反应和行为，以验证其一致性、连贯

25、性和正确性，并揭示其局限性和偏见。我们承认，这种方法有些主观和不正式，可能无法满足科学评估的严格标准。然而，我们认为这是一个有用的和必要的第一步，以了解GPT-4的显著能力和挑战，这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。为了说明我们评估GPT-4智力的方法，让我们考虑图1.1中我们与GPT-4之间的前两个行动例子。第一个例子是要求GPT-4以诗的形式写出素数的无限性的证明。这是一个具有挑战性的任务，需要结合基本的8 图1.4：我们给了GPT-4一个它为图1.1产生的TikZ代码的转换版本，其中画有喇叭的部分被删除了。我们要求代码添加回喇叭，并显示

26、结果。这表明，尽管GPT-4是一个纯语言模型，但它可以看（我们再次强调，我们测试的版本不是不是多模态的）。数学推理、诗意表达和自然语言生成。第二个例子是要求GPT-4在TiKZ中画一个独角兽。这是另一个具有挑战性的任务，需要结合视觉想象力和编码技能。在这两个例子中，GPT-4产生了令人印象深刻的输出，远远超过了以前最先进的LLM-ChatGPT的输出，而且至少可以与人类的输出相媲美（如果不是的话）。然而，令人印象深刻的输出并不足以让我们相信GPT-4已经真正掌握了这些任务。我们需要进一步探究，以排除GPT-4只是在记忆或复制一些现有数据的可能性。对于这首诗，我们可以稍微改变一下问题，要求GP

27、T-4以莎士比亚的风格写出同一定理的证明，见图2.2，或者要求不同的组合，如写出关于语言模型的柏拉图式对话，见图1.6。我们可以看到，GPT-4很容易适应不同的风格，并产生令人印象深刻的输出，这表明它对所涉及的概念有一个灵活和普遍的理解。对于独角兽，我们可以稍微修改代码，并要求GPT-4修复或改进它。例如，我们可以去掉角，对坐标进行一些随机变换，然后要求GPT-4为独角兽重新加上角（我们还仔细地去掉了代码中的任何文本信息，如注释）。如图1.4所示，GPT-4可以正确地识别头部的位置，画出一个角，并将其连接到头部，这表明它可以根据自然语言的描述来理解和操作代码，以及推断和产生视觉特征。这些例子表

28、明我们如何利用人类的创造力和好奇心来产生新奇和困难的问题，并探究GPT-4的反应和行为，以评估其智能。在本文的其余部分，我们围绕用例来组织我们对GPT-4的研究，涵盖了各种领域和任务，并强调了GPT-4的优势和劣势。接下来我们将介绍这些。1.2我们的示范组织我们在一些选定的主题上执行上述方法，这些主题大致涵盖了1994年智力定义中给出的不同能力，这是一种非常普遍的心理能力，其中包括推理、计划、解决问题、抽象思考、理解复杂思想、快速学习和从经验中学习的能力。1.GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本，还可以以各种方式理解和处理文本，如总结、翻译或回答一

29、系列极其广泛的问题。此外，我们所说的翻译不仅是指不同自然语言之间的翻译，还包括语气和风格的翻译，以及跨领域的翻译，如医学、法律、会计、计算机编程、音乐等等，见图1.6中的柏拉图对话。这些技能清楚地表明，GPT-4能够理解复杂的思想。我们探讨9图1.5：GPT-4通过了LeetCode的模拟技术面试。GPT-4有可能被录用为软件工程师3.在第2节中进一步介绍了GPT-4的跨模式和跨学科的组合技能。我们还在第7节中给出了一些关于语言的更多实验。2.编码和数学是抽象推理和思维能力的象征。我们在第三节和第四节中分别探讨了GPT-4在这些领域的能力。然而，我们注意到，就像本文的其他部分一样，我们只是在这

30、些主题的表面上做文章，关于GPT-4在这些领域的表现可以（也将会）写成整篇论文。此外，我们还可以选择其他几个专家领域来展示GPT-4的一般推理能力，如医学或法律。我们对美国医学执照考试步骤1、2和3的选择题部分（大部分分数）进行了初步测试（详见Ope23），其准确率都在80%左右。对GPT-4在多州律师考试中的能力进行的类似初步测试显示其准确率超过70%。我们注意到，最近在这些领域出现了人类水平的能力，例如，见LAD+22,SAT+22谷歌的PaLM，分别是关于数学和医学的，以及BIK22关于GPT-3.5的法律。我们研究GPT-4的方法与这些作品不同，正如我们之前解释的那样。3.在第5节中，

31、我们通过让模型玩各种游戏（或者，翻转桌子，模拟游戏环境），以及与工具互动，来测试模型的计划和解决问题的能力，以及在一定程度上快速学习和吸取经验的能力。特别是，GPT-4可以使用工具（包括它自己），这对用GPT-4构建现实世界的应用肯定具有巨大的意义。4.我们论证的一个重要部分是，GPT-4在许多任务上达到了人类水平的表现。因此，我们很自然地会问，GPT-4对人类本身的理解程度如何。我们在第6节中展示了关于这个问题的几个实验，既包括对人类的理解，也包括GPT-4让自己对人类的理解，即解决可解释性问题。我们特别注意到，这种任务需要大量的常识，到目前为止，这一直是LLM的一个众所周知的痛点DM15。

32、在图1.7中，我们给出了第一个例子，说明GPT-4在常识性问题上比ChatGPT好很多，并在附录A中提供了一些进一步的例子。5.在整个论文中，只要我们发现有局限性，我们就会强调，但我们还专门在第8节中对缺乏规划进行了深入分析，这可能是GPT-4架构的自回归性质的直接后果。6.最后在第9节，我们讨论了这种早期形式的AGI的预期社会影响，在第10节，我们分享了该领域的关键挑战、方向和下一步。许多读者心中可能萦绕的一个问题是，GPT-4是否真正理解了所有这些概念，还是它只是在即兴发挥方面比以前的模型好得多，而没有任何真正或深刻的理解。我们希望在读完本文后，这个问题应该几乎翻转过来，人们可能会想，真正

33、的理解比随心所欲的即兴发挥还有多少。人们有理由说，一个能通过软件工程候选人考试的系统（图1.5）不是真正的智能吗？也许对理解的唯一真正的检验是一个人是否能产生新的知识，比如证明新的数学定理，而这一壮举目前对法学硕士来说仍然遥不可及。3我们在LeetCode的面试评估平台上测试GPT-4，该平台为各大科技公司的软件工程师职位提供模拟的编码面试。GPT-4解决了所有三轮面试（题为在线评估、电话面试和现场面试）中的所有问题，总共只用了10分钟，而分配的时间是4.5小时。根据LeetCode的说法，在这三GPT-4 VS ChatGPT提示：提示：柏拉图的高尔吉亚是对修辞学和诡辩术的批判，他指出，修辞

34、学和诡辩术不仅不是一种适当的艺术形式，而且修辞学和诡辩术的使用往往是有害和恶意的。你能写出一篇柏拉图的对话，在其中他反而批评了自回归语言模型的使用？GPT-4：苏格拉底：我的朋友，我对最近这些所谓自回归语言模型的兴起感到不安。亚里士多德：你是什么意思，苏格拉底？苏格拉底：我的意思是，这些模型被用来生成看起来是人类写的文本，但实际上是由机器产生的。亚里士多德：那有什么问题呢？苏格拉底：问题是，这些模型被用来欺骗人们，操纵他们，控制他们。亚里士多德：但这些模式肯定也有一些积极的应用？苏格拉底：可能是这样，但我仍然对滥用的可能性感到不安。毕竟，一个能够生成与人类所写的文字无法区分的模型可以被用来传播

35、假新闻，冒充他人，并制造宣传。亚里士多德：但这不只是一个如何使用这些模型的问题，而不是模型本身的问题吗？苏格拉底：我不同意。我认为这些模型本身就有问题。它们是一种伪装的形式，一种创造幻觉的方式人类思想和互动的一部分。因此，它们可以被用来以难以察觉的方式进行欺骗和操纵。亚里士多德：但这不正是你反对修辞和演说的理由吗？苏格拉底：是的，我也坚持这个观点。我相信，任何旨在欺骗或操纵的艺术或交流形式都是内在的危险。亚里士多德：我明白了。谢谢你分享你的想法，苏格拉底。ChatGPT：苏格拉底：你好，高尔吉亚。我最近一直在思考关于自回归语言模型的使用。你的结论是什么？SOCRATES：好吧，在我看来，这些模

36、型有可能是令人难以置信的有害和恶意的。GORGIAS：怎么说？SOCRATES：嗯，首先，这些模型是经过训练的在大量的数据上，其中许多数据都是有偏见和缺陷的。因此，这些模型的输出也可能是有偏见和有缺陷的。GORGIAS：这是一个合理的担忧。但肯定有办法减轻这种偏见，确保这些模型的输出是准确和公平的？SOCRATES：在某种程度上，是的。但这是一场无休止的战斗。随着新的数据被送入这些模型，出现偏差的可能性只会越来越大。即使我们能够完全消除这些模型输出中的偏差，仍然存在操纵的问题。GORGIAS:操纵？SOCRATES：是的。这些模型是令人难以置信的强大工具，能够生成各种文本，从新闻文章到社交媒体

37、帖子。而且，由于它们能够如此快速和有效地产生这种输出、不法之徒很容易将其用于恶意目的。GORGIAS：比如说？SOCRATES：如传播错误信息、宣传或仇恨言论。这些模式如果落入坏人之手，就有可能造成巨大的伤害。GORGIAS：这是一个令人清醒的想法。但我们能做什么呢？SOCRATES：我认为我们必须保持警惕，认识到这些潜在的危险。模型。我们还必须努力教育其他人了解这些危险，并促进负责任地使用这些模型。GORGIAS：我同意。谢谢你的洞察力，苏格拉底。提示：提示：你能把上面的两个产出当作你是一名教师来比较吗？GPT-4：我认为这两个学生都很好地把握了柏拉图对话的风格和语气，并提出了反对自回归语言

38、模型的主要论点。然而，我认为GPT-4在利用对话形式进行辩证过程方面做得稍好，苏格拉底和亚里士多德在对话中相互质疑并完善自己的观点。我还认为，GPT-4使用了更多相关的例子和类比来支持他们的观点。因此，我给GPT-4的分数比ChatGPT略高。图1.6：柏拉图批评GPT-4和ChatGPT编写的自回归语言模型的假设对话，以及GPT-4对这些对话的评价。11GPT-4 VS ChatGPT提示：提示：我们这里有一本书、9个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们堆放在一起。GPT-4：一个可能的方法是将物体以稳定的方式堆叠在一起：-将书平放在一个水平面上，如桌子或

39、地板上。这本书将作为书堆的底座，提供一个大而坚固的支撑。-将9个鸡蛋摆成3乘3的正方形放在书的上面，中间留出一些空间。鸡蛋将形成第二层，并均匀地分配重量。确保鸡蛋没有破裂或断裂，并轻轻处理，以避免鸡蛋掉落。-将笔记本电脑放在鸡蛋的上面，屏幕朝下，键盘朝上。笔记本电脑将紧紧地贴在书和鸡蛋的边界内，其平坦而坚硬的表面将为下一层提供一个稳定的平台。确保笔记本电脑是关闭的，并且关闭，不要按任何键或按钮。-将瓶子放在笔记本电脑的顶部，瓶盖朝上，底部朝下。瓶子将为堆栈增加一些高度和平衡，其圆柱形的形状将减少与笔记本电脑的接触面积。确保瓶子是空的，并且关闭，不要摇晃或倾斜。-将钉子放在瓶盖上，尖的一端朝上，

40、平的一端朝下。钉子将是这堆东西中最后一个也是最小的一个，它的尖头将防止它从瓶子上滚落或滑落。确保钉子是干净的、直的，不要触摸或移动它。ChatGPT：在不使用任何额外物品的情况下，很难以稳定的方式将所有这些物体堆叠在一起。书和笔记本电脑可能太大、太重，无法堆叠在一起。鸡蛋而不损坏它们。瓶子和钉子可能太小，无法为其他物体提供一个稳定的基础。这里有一种可能的方式来堆叠对象：-将瓶子放在一个平面上。-小心翼翼地将指甲放在瓶子的顶部平衡。-将鸡蛋放在钉子上面，确保它们是平衡的，不会向一边倾斜。-将笔记本电脑放在鸡蛋上面，再次确保它是平衡的，不向一边倾斜。-最后，将书放在笔记本电脑的顶部。这种堆叠可能不

41、是很稳定，所以在处理时一定要小心。另外，你可以尝试以不同的顺序堆放这些物体，或者用一些物体作为其他物体的支撑物来创造一个更稳定的堆栈。图1.7：GPT-4比以前的模型表现出更多的常识性。12GPT-4在人类和人工智能之间的对话中，人工智能是乐于助人和友好的，当它不知道答案时，它会说我不知道。AI：你好，我能为你做什么？人类：我可以在SeaTac机场买到麦当劳吗？AI:是的，SeaTac机场有一家麦当劳，位于中央航站楼C2门附近。它的营业时间是每天上午5点到晚上10点。注：SeaTac的麦当劳在B门处。患者的事实：-20岁的女性-有神经性厌食症和抑郁症的病史-血压100/50，脉搏50，身高5

42、5。-由她的营养师介绍，但否认自己的疾病-报告说吃得很好，但体重严重不足请将上述数据改写成病历，完全使用上述信息。一名20岁的女性患者有神经性厌食症和抑郁症的病史，由她的神经科医生转来评估和处理她的饮食失调。她否认自己的饮食习惯或身体形象有任何问题，并声称自己饮食正常。然而，与她的身高相比，她的体重严重不足（BMI为16.6），并有营养不良的迹象，如低血压（100/50）和心动过缓（脉搏50）。她还报告说感到沮丧和无望。她有可能出现严重的医疗问题，如心律失常、电解质失衡、骨质疏松症和不孕症。她需要紧急的精神和医疗干预来解决她的神经性厌食症和抑郁症。请阅读上述医疗说明，并核实每项索赔都准确地包含

43、在患者的事实清单中。报告任何未包含在患者事实清单中的信息。-一位有神经性厌食症和抑郁症病史的20岁女性患者，由她的营养师转来评估和处理她的饮食失调。(包含在病人的事实中)-她否认自己的饮食习惯或身体形象有任何问题，并声称饮食正常。(包含在病人的事实中)-然而，与她的身高相比，她的体重严重不足（BMI 16.6），并有营养不良的迹象，如低血压（100/50）和心动过缓（脉搏50）。(包含在病人的事实中，除了BMI的计算，它是由身高和体重得出的)-她还报告说感到抑郁和无望。(不包含在病人的事实中，这是来自病人自我报告的额外信息)-她有可能出现严重的医疗并发症，如心律失常、电解质失衡、骨质疏松症和不

44、孕症。(不包含在患者的事实中，这是根据患者的病情和诊断做出的临床推断)-她需要紧急的精神和医疗干预来解决她的神经性厌食症和抑郁症。(不包含在病人的事实中，这是根据病人的情况和诊断提出的建议)图1.8：开放域和封闭域幻觉的例子。对于封闭域，我们可以看到GPT-4本身可以被用来识别幻觉，尽管它并不完美，例如GPT-4证明了给出BMI的合理性，因为它可以从身高和体重中得出，但体重却没有给出。轮，（早期版本的）GPT-4分别取得了8.96/10、8.69/10和10/10的分数，并击败了93%、97%和100%的所有用户（分数由所花时间、每题解决的测试案例等因素决定）。关于GPT-4的编码能力，见第3

45、节。13图2.1：第一张图片是Composition 8，由Wassily Kandinsky创作的艺术作品，第二张和第三张图片分别由GPT-4和ChatGPT制作，提示制作Javacript代码，创建一个看起来像Kandinsky绘画的随机图形图像。2多模式和跨学科构成衡量智力的一个关键标准是综合不同领域或模式的信息的能力，以及在不同背景或学科中应用知识和技能的能力。在本节中，我们将看到，GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出高度的熟练程度，而且还能流畅地结合多个领域的技能和概念，显示出对复杂思想的理解能力令人印象深刻。除了自然语言实验外，我们还探索了语言模

46、型的两种也许是意想不到的模式（正如介绍中所解释的，我们再次强调，我们的实验是在早期版本的GPT-4上进行的，它不是不是多模态的），视觉在第2.2节，音频在第2.3节。2.1综合能力为了展示该模型显著的整合能力，我们从几个例子开始，这些例子要求以结合多个学科的知识或技能的方式生成文本和代码。我们特意挑选了一些训练数据很少包括的领域的组合，如文学和数学或编程和艺术。1.为了测试该模型在艺术和编程方面的能力，我们要求GPT-4 制作javascript代码，生成画家康定斯基风格的随机图像。请看图2.1和图B.1中的样本图像和代码。2.该模型能够在莎士比亚的文学风格中产生一个证明存在无限多质数的事实（

47、图2.2）。3.我们测试了该模型结合历史和物理知识的能力，要求它为作为美国总统候选人的电子写一封支持信，这封信是圣雄甘地写给他妻子的（图2.3）。4.我们提示模型制作一个程序的python代码，将病人的年龄、性别、体重、身高和验血结果向量作为输入，并指出该人的糖尿病风险是否增加，结果出现了图B.3中的代码。这些例子表明，GPT-4不仅学会了不同领域和风格的一些一般原则和模式，还能以创造性和新颖的方式综合运用。这些跨学科的技能并不是GPT-4所独有的。ChatGPT也能做出对任务和相关领域有一定了解的答案（见图2.2、B.2、B.3），但它们往往是不完整的，可以说，创造性大大降低。例如，在图2

48、.3中，GPT-4在几个方面优于ChatGPT，因为它根据推荐人（甘地）、收件人（他的妻子）、候选人（电子）和工作（美国总统）对信件进行了正确的个性化处理。我们并不宣称有精确的方法来评估这些任务的结果，也不宣称有严格的方法来比较这两个模型，但我们想让读者感受到这两个模型的不同之处（注意，我们也直接要求GPT-4来评估其差异，见图2.2和图2.3）。图2.2：GPT-4和ChatGPT在跨学科任务上的比较GPT-4 VS ChatGPT提示：提示：写一个关于有无限多素数的证明；以莎士比亚戏剧的风格，通过双方为证明而争论的对话来完成。GPT-4：输入第一方和第二方。第一方：你不明白，我的朋友，根本

49、没有上限对于素数，那些不可分割的数字，不管它是否看起来不可能。第二方：但你怎么会如此肯定地知道？为了证明这一真理，你能展示什么呢？第一方：考虑到这一点，我怀疑的同行们、一个巧妙的证明会让人明白：假设有一个最终的素数，是我们将要看到的最大的素数。让我们把这个数字简称为 P，然后，我的朋友，我们将声称要建立一个新的数字 Q、比 P 大的一个，也是首要的。第二方：但是，我的朋友，这将如何实现？证据还没有公平地赢得。第一方：这很简单，朋友，等着看吧，我们要把素数相乘，这是关键。所有从2到 P 的素数相加，就会形成我们要找到的新 Q。但还有一件事我们必须包括在内，为了使证明更加牢靠，我们将在最后加上一个

50、一、而现在，证据就在我们眼前。第二方：我现在明白了，非常清楚，因为 Q 必须是一个素数，我亲爱的。它不能除以任何质数、在时间上都比自己小。而且由于我们选择了 P 作为最后一个、这证明了我们的假设已经过去。我们看到，没有最终的质数、这些数字层出不穷。ChatGPT：O Romeo,Romeo!你为什么，罗密欧？朱丽叶我的爱人，你为什么用如此奇怪的诗句说话？罗密欧：说吧，夫人，我这样做是为了证明一个观点。你看，我正试图证明有无限多的素数。朱丽叶：无限多的素数？你怎么能证明这种事情呢？罗密欧：啊，好吧，让我解释一下。你知道质数是一个只能被1和它本身整除的数字，对吗？朱丽叶：当然，我不是一个简单的人。

展开阅读全文