万维钢《AI前沿》课程文稿.pdf

资源描述

1、发刊词：人，要比 AI 凶万维钢AI 前沿欢迎你加入万维钢AI 前沿课。如果你不记得自己在 2023 年 3 月 15 日那天的日程，我建议你现在就回想一下因为若干年后，你的子孙后代可能会问你：GPT-4 发布的那一天，你在干什么？GPT-4 不是“另一个”AI 模型。它的某些能力让最资深的 AI 专家也深感震惊，以至于现在没有人真的理解它为什么这么厉害。它让我们第一次感到通用人工智能也就是 AGI（Artificial General Intelligence）真的要来了。它也让世人第一次切实感受到了 AI 对人类的威胁。2023 年是 AI 元年。事实上我认为在某种意义上 GPT-4

2、已经是 AGI，只是大多数人还没有意识到而已。这一波 GPT 革命每天都有新突破，我们仍然在探索之中。其实我们早就开始探索了。早在 2020 年 7 月 30 日，我在精英日课第四季，就介绍过一个“好到令人震惊的人工智能模型”，OpenAI 公司的 GPT-3。它的功能十分强大，比如可以根据你的一段描述给你写一段程序，可以帮你写段文章，可以相当智能地回答你的问题等等。现在 OpenAI 开放了普通用户注册，推出了对话应用 ChatGPT，然后GPT-3 变成了 GPT-3.5，然后是 GPT-4，然后是有插件的 ChatGPT如果你把 AI 视为人类的敌人，你这段时间应该一日三惊。现在 Cha

3、tGPT 的月活用户数量已经超过了一亿，热潮仍在继续。但是包括某些行业资深人士在内，很多人都不理解 GPT 到底是什么。一个流行的错误认识是把它当成了一个聊天机器人。有人拿各种脑筋急转弯的题目逗 ChatGPT 玩：“树上十只鸟，开枪打死一只鸟，树上现在有几只鸟？”ChatGPT 老老实实地回答“还剩下九只鸟”，人类说，哈！你还是不够聪明啊！其实用这种方式战胜它没啥意思。要知道 ChatGPT 并不是一个聊天机器人它不是一个以陪你聊天解闷为目的的机器人。ChatGPT 是一个以聊天为界面的信息处理工具。它这个界面做的是如此之好，以至于人们把界面当成了主体，这就如同称赞一部手机说“哎呀你这个手机

4、真好看！”要知道聊天只是输入输出手段，处理信息才是目的。现在已经有好几百家小公司用 API 接入了 GPT，可以让它读取特定环境下的文本，完成信息处理。你可以用 GPT 编程（现在普遍认为 ChatGPT 的编程水平比文字处理水平高，这可能是因为编程是一种更规范的活动）；以问答的形式学习一门知识；在中英文之间高质量翻译；把文章修改得更加地道；根据你的意图直接写文章；写诗；提供书名、大纲、小说剧情、广告等等文案的创意构思；帮你制定购物清单、旅行建议和健身计划等等等等。随着 AI 能做的事情越来越多，有一个问题被讨论的也越来越多AI到底减弱了人的价值还是扩大了人的价值。其实，这取决于你怎么用它。

5、把事情直接交给 AI 做，是软弱的而且是危险的。比如你想给人写封信，表达一个意思，你怕自己写的不够礼貌周到，就让 ChatGPT 替你写。它的确可以写得很好，写成诗都可以但是，如果读信的人知道你是用 ChatGPT 写的，或者对方因为也用 ChatGPT，根本懒得读全文，选择让 ChatGPT 给个摘要，那你这封信还有必要走 AI 这道程序吗？难道AI 的普及不应该让大家更珍视坦诚相见吗？正所谓人要比车凶，强势的用法，是把 AI 当做一个助手、一个副驾驶，你自己始终掌握控制权：AI 的作用是帮你更快更好地做出判断。如果你足够强势，当前 AI 对你的作用有三个。第一是信息杠杆。想要了解任何方面的

6、信息都能得到答案，这件事在有搜索引擎以前是不可能的；在有搜索引擎、没有 GPT 之前是费时费力的。而现在你可以在几秒钟之内完成。当然 AI 返回的结果不一定准确，它经常犯错，关键信息还是得亲自查看一下原始文档。但我这里要说的是，快，就不一样。当你每一个问题都能立即得到答案，你的思考方式是不一样的。你会开启追问模式，你会沿着几个方向追踪下去。第二是让你发现你究竟想要什么。科技播客 Tinyfool（郝培强）在一个访谈中描绘了这么一个场景。比如你想买房，你问 AI 哪有便宜房子。AI 返回一些结果，你一看距离公司太远了，你意识到你想要的不只是便宜。于是你又让 AI 在一定区域内寻找便宜房子。AI

7、又返回一些结果，你又想到面积和学区这种对话的方式能让你想清楚自己到底想要什么。这完全不平凡，因为我们做很多事情之前是不知道自己想干啥的我们都是在外界反馈中发现自我。第三是帮你形成自己的观点和决策。很多人说用 AI 写报告。可是如果报告里没有你自己的东西，这个报告有什么意义呢？如果报告里只有你自己的东西，AI 有什么意义呢？AI的意义是帮助你生成更有你自身特色的报告。主动权必须在你手里，你必须输出主动，但是你的主动需要 AI 帮你发现。AI 能让你更像你。它提供创意，你选择方案。它提供信息，你做出取舍。它提供参考意见，你拍板决策。你这份作品的价值不在于信息量足，更不在于语法正确，而在于它体现了

8、你的风格、你的视角、你的洞见、你选定的方向、你做出的判断、你愿意为此承担的责任。如果学生的作业都能体现这样的个人特色，大学何必禁止 ChatGPT呢？这绝对是上世纪九十年代以来互联网创业最热闹的时刻。如果你有志于做一番大事，成为驾驭强大工具的人，怎样才能不错过这一波机遇？这门小课来自得到的年度专栏精英日课第五季的 AI 专题系列，我们借助几本最新的英文新书，探讨几个大问题：我们该怎么理解这个 AI 大时代的哲学？AI 作为一个新的智慧形态，它的能力边界、它的底牌和命门，究竟是什么？当 AI 渗透进经济活动，如何提升生产力，路径和逻辑又是什么？当 AI 接管了道德甚至法律，我们的社会将会变成什么

9、样子？AI 还在以更快的速度迭代，面对这个局面，教育应该怎么办？公司应该怎么办？人应该怎么办？如果 AGI 和超级人工智能也有了人的意识和情绪，人应该放弃这些能力和价值吗？除了这些问题，我还将在课程里跟你分享实操经验，比如使用 GPT 进行对话式学习、编程、怎样让它成为你的助理，以及跟它沟通的咒语心法。AI 的作用应该是放大你，而不是取代你。当你听完课程，再次使用ChatGPT 的时候，可以试试这个一放一收的套路：*放，是让思绪在海量的信息里自由飞翔，寻找洞见；*收，是找到自我，决定方向，掌控输出。越是 AI 时代，普遍的信息越是不值钱。现在个人搞一个信息保存系统已经意义不大了，只要 GPT

10、训练过，一切唾手可得，整个互联网就是你的硬盘和第二大脑。你真正需要保存的是*自己*每天冒出的新想法，是*你*对信息的主观整理和解读。一切落实到自己。永远假定别人也会用 ChatGPT。这波 GPT 大潮跟我们这一代人经历的所有科技进步有个特别不一样的地方。像 5G、元宇宙、区块链那些东西都是越不懂的人越一惊一乍，懂的人都觉得其实没啥了不起可是对于 GPT，恰恰是不懂的人还在正常化偏误之中，越懂的人却越是暗暗心惊。孤陋寡闻的人不知道 AI，认知固化的人忽视 AI，肤浅的人害怕 AI，热情的人欢呼 AI我们率先使用 AI、探索 AI、试图理解 AI。这个课程既调研了当今最强的头脑，也包括最实用的技

11、能。我们还在继续探索，但是根据目前所知，我们既不是相信 AI 会强大到把人类当宠物的所谓降临派，也不是认为 AI 终究会与人类为敌的幸存派，我们是主张 AI 是人类帮手的拯救派。你不会在 AI 面前失去自我。你不但应该，而且必须，而且可以，以我为主，使用 AI。邀请你加入这个课程，祝你在课程中有所收获。01 大变局：一个新智慧形态的产生万维钢AI 前沿你好，这里是万维钢AI 前沿课。这一讲，我们来讲一个新智慧形态的产生。ChatGPT 让 2023 年成了 AI 之年，正如 iPhone 在 2007 年开启了智能手机时代，我们现在正式进入了人工智能时代。咱们的这门课程就会来跟你聊聊对这

12、个时代的最新理解和思考，以及AI 的应用场景和应对方法。这一讲我们先从 2021 年出的一本书讲起，书名叫AI 时代：以及人类的未来（The Age of AI:And Our Human Future）。这本书的三个作者很厉害，分别是无需介绍的亨利基辛格，Google 前CEO 埃里克施密特，麻省理工学院苏世民计算机学院的院长丹尼尔胡滕洛赫尔（Daniel Huttenlocher）。作者咖位这么高，但这并不是一本献礼式、应景式的书，这书里有真思想，有关于这个时代的高观点。2020 年，麻省理工学院宣布发现了一种新的抗生素，叫 Halicin。这是一种广谱抗生素，能杀死那些对市面上现有的抗生

13、素已经产生耐药性的细菌，而且它自己还不会让细菌产生耐药性。这个幸运的发现，是用 AI 完成的。研究者先搞了一个由两千个性能已知的分子组成的训练集，这些分子都被标记好了是不是可以抑制细菌生长，用它们去训练 AI。AI 自己学习这些分子都有什么特点，总结了一套“什么样的分子能抗菌”的规律。AI 模型训练好之后，研究者用它一个个考察美国 FDA 已经批准的药物和天然产品库中的 61000 个分子，要求 AI 按照三个标准从中选择一种抗生素：1）它具备抗菌效果；2）它看起来不像已知的抗生素；3）它必须是无毒的。结果 AI 最后只找到一个符合所有要求的分子，这就是 Halicin。然后研究者做实验证明，

14、它真的非常好使。它大概很快就会用于临床，造福人类。用传统的研究方法，这件事是绝对做不成的：你不可能测试 61000 个分子，那成本太高了。这只是当代 AI 众多的应用案例中的一个，它很幸运但是它并不特殊。我们之所以先讲这个例子，是因为它带给我们一个清晰的认知震撼 Halicin 可以作为抗生素的化学特征，是人类科学家所不理解的。关于什么样的分子可以做抗生素，科学家以前是有些说法的，比如原子量和化学键应该具有某些特征可是 AI 这个发现用的不是那些特征。AI 在用那两千个分子训练的过程中，找到了一些不为科学家所知的特征，然后用那些特征发现了新的抗生素。那些是什么特征呢？不知道。整个训练模型只是一

15、大堆也许几万到几十万个参数，人类无法从那些参数中读出理论。这可不是特例。AlphaZero 完全不用人类棋手的棋谱，通过自己跟自己对弈学会了下国际象棋和围棋，然后轻松就能打败人类。然后你看看它的走法，它经常会走一些人类棋手匪夷所思、没有考虑过的走法。比如在国际象棋里它看似很随便就可以放弃皇后这样的重要棋子有时候你事后能想明白它为啥那样走，有时候你想不明白。这个关键在于，AI 的思路，不同于人类的理性套路。也就是说，当代 AI 最厉害之处并不在于自动化，更不在于它像人，而在于它*不像*人：它能找到人类理解范围之外的解决方案。这不是汽车取代马的发明，也不仅仅是时代的进步。这是哲学上的跨越。人类从

16、古希腊、古罗马时代就在追求理性。到了启蒙运动，人们更是设想世界应该是由一些像牛顿定律这样的明确规则确定的，康德以后人们甚至想把道德也给规则化。我们设想世界的规律应该像法律条文一样可以一条条写下来。科学家一直都在把万事万物分门别类，划分成各个学科，各自总结自己的规律，打算最好能把所有知识编写进一本百科全书。然而进入 20 世纪，哲学家维特根斯坦提出了一个新的观点。他说你们这种按学科分类写条文的做法根本不可能穷尽所有的知识。事物之间总有些相似性是模糊的、不明确的、难以用语言说明的。想要丁是丁卯是卯全都理性化，根本做不到。Ludwig Wittgenstein,1889-1951 现在 AI 找到的

17、，恰恰就是一些难以被人所理解，不能用明确的规则定义的智慧。这是柏拉图理性的失败，是维特根斯坦的胜利。其实不用 AI 你也能想明白这个道理。比如说，什么是“猫”？你很难精确定义猫到底是什么东西，但是当你看到一只猫的时候，你知道那是猫。这种认知不同于启蒙运动以来人们说的规则式的理性，但是你可以说这是一种感觉。一种难以明说、无法告诉另一个人的感觉。我们对猫的认识很大程度上是感性的。而现在 AI 有这种感觉。当然，人一直都有这种感觉，这本来没什么，康德也承认感性认知是不可缺的。问题是，AI 通过这样的感觉，已经认识到了一些人类无法理解的规律。康德原本认为只有理性认知才能掌握世界的普遍规律。AI 感受到

18、了人类既不能用理性认知，也感受不到的规律。而且它可以用这个规律做事。人类已经不是世界规律唯一的发现者和感知者。你说这是不是启蒙运动以来未有之大变局。我们简单介绍一下当代 AI 的原理。现在有些人谈论 AI 是把 AI 当做了一种“超级智能”，仿佛神灵一般，说能把人类如何如何那种讨论没什么意义。如果神灵都已经降临人间了我们还在这聊什么？不要高推圣境。现在的 AI 不是什么通用人工智能（AGI），而是一种非常特殊的智能，也就是通过机器学习训练的神经网络系统。上世纪八十年代以前，科学家还在尝试用启蒙运动理性的思路，把解决问题的规则输入给计算机执行。后来发现那条路走不通，因为规则太多了，根本弄不过来。

19、这才有了神经网络。现在是我们根本不用告诉 AI任何规则，也就是把学习世界的过程都委托给机器，有什么规则你自己学去吧。这个思路受到了人脑神经网络的启发，但是并不完全一样。我在精英日课第三季讲过，AI 神经网络的基本概念，它分为输入层、很多中间层和输出层，一般的深度学习网络大概要有 10 层。使用 AI 神经网络分为训练（training）和推理（inference）两部分。一个未经训练的 AI 是没用的，它只有搭建好的网路结构和几万甚至几千亿个参数。你需要把大量的素材喂给它进行训练，每个素材进来，网络过一遍，各个参数的权重就会进行一遍调整。这个过程也就是机器学习。等到训练得差不多了，就可以把所有

20、参数都固定下来，模型就炼制完成了。你就可以用它对各种新的局面进行推理，形成输出。像我写这篇文章的时候，ChatGPT 用的语言模型版本大概是 GPT-3.5，它可能是 2021 年到 2022 年之间训练完成的。我们每一次使用ChatGPT，都只是在用这个模型推理，并没有改变它。GPT-3.5 有超过一千亿个参数，将来还会更多。AI 模型参数的增长速度已经超出了摩尔定律。搞神经网络非常消耗算力。现在有三种最流行的神经网络算法，监督学习、无监督学习和强化学习。前面那个发现新抗生素的 AI 就是监督学习（supervised learning）的典型例子。给一个有两千个分子的训练数据集，你必须提前

21、标记好其中哪些分子有抗菌效果，哪些没有，让神经网络在训练过程中有的放矢。图像识别也是监督学习，你得先花费大量人工把每一张训练图里都有什么内容标记好，再喂给 AI 训练。那如果要学习的数据量特别大，根本标记不过来，就需要无监督学习（unsupervised learning）。你不用标记每个数据是什么，AI 看得多了会自动发现其中的规律和联系。比如淘宝给你推荐商品的算法就是无监督学习。AI 不关心你买*什么样的*商品，它只是发现了买了你买的那些商品的顾客也会买别的什么商品。强化学习（reinforcement learning），是在动态的环境中，AI每执行一步都要获得反馈的学习。比如 Alph

22、aZero 下棋，它每走一步棋都要评估这步棋是提高了比赛的胜率，还是降低胜率，获得一个即时的奖励或惩罚，不断调整自己。自动驾驶也是强化学习。AI 不是静态地看很多汽车驾驶录像，它是直接上手，在实时环境中自己做动作，直接考察自己每个动作导致什么结果，获得及时的反馈。我打个简单的比方 *监督学习就好像是学校里老师对学生的教学，对错分明有标准答案，但是可以不给讲是什么原理；*无监督学习就好像一个学者，自己调研了大量的内容，看多了就会了；*强化学习则是训练运动员，哪个动作出错了立即给你纠正。机器翻译本来是典型的监督学习。比如你要做英译中，就把英文的原文和中文翻译一起输入给神经网络，让它学习其中的对应关

23、系。但是这种学法太慢了，毕竟很多英文作品没有翻译版后来有人发明了一个特别高级的办法，叫平行语料库（parallel corpora）。先用对照翻译版来一段时间的监督学习，作为预训练。模型差不多找到感觉之后，你就可以把一大堆同一个主题的英文也好、中文也好，别管是文章还是书籍，不需要互相是翻译关系，各种材料都直接扔给机器，让它自学。这一步就是无监督学习了，AI 进行一段沉浸式的学习，就能猜出来哪段英文应该对应哪段中文。这样训练不是那么精确，但是因为可用的数据量要大得多，训练效果好得多。像这种处理自然语言的 AI 现在都用上了一个新技术叫 transformer。它能更好地发现词语跟词语之间的关系，

24、而且允许改变前后顺序。比如“猫”和“喜欢”是主语跟谓语的关系，“猫”和“玩具”则是两个名词之间的“使用”关系，它都可以自行发现。还有一种流行技术叫生成性神经网络（generative neural networks），特点是能根据你的输入生成一个什么东西，比如一幅画、一篇文章或者一首诗。生成性神经网络的训练方法是用两个具有互补学习目标的网络相互对抗：一个叫生成器，负责生成内容，一个叫判别器，负责判断内容的质量，二者随着训练互相提高。GPT 的全称是生成式预训练变换器（Generative Pre-trained Transformer），就是基于 transformer 架构的、经过预训练的、

25、生成性的模型。当前所有 AI 都是大数据训练的结果，它们的知识原则上取决于训练素材的质量和数量。但是，因为现在有各种高级的算法，AI 已经非常智能了，不仅能预测一个词汇出现的频率，更能理解词与词之间的关系，有相当不错的判断力。但是 AI 最不可思议的优势，是它能发现人的理性无法理解的规律，并且据此做出判断。AI 基本上就是一个黑盒子，吞食一大堆材料之后突然说，“我会了”。你一测试发现它真的很会，可是你不知道它会的究竟是什么。因为神经网络本质上只是一大堆参数，不可理解性可以说是 AI 的本质特征。事实是连 OpenAI 的研究者也搞不清 ChatGPT 为什么这么好用。要这么说的话，可以说我们正

26、在目睹一个新智慧形态的觉醒。好，以上就是这一讲的全部内容。划重点 1.AI 感受到了人类既不能用理性认知，也感受不到的规律。而且它可以用这个规律做事。人类已经不是世界规律唯一的发现者和感知者。2.现在有三种最流行的神经网络算法，监督学习、无监督学习和强化学习。02 开悟和涌现：AI 能力的三个境界万维钢AI 前沿你好，这里是万维钢AI 前沿课。这一讲，我们来说说大型语言模型为什么这么厉害。现在最流行的几个生成性 AI，包括 ChatGPT 和画画的 AI，背后都是大型语言模型（Large Language Models，简称 LLM）。这大约也是通往 AGI 的技术路线。我先举个例子。我

27、问 ChatGPT：棒球棒能被藏进人的耳朵里吗？它说不能，因为人的耳朵是非常小的，棒球棒的大小和形状超出了耳朵所能容纳的范围很有条理。我又问它：为什么金箍棒能被藏进孙悟空的耳朵里？它回答说因为那是虚构的故事，金箍棒的形状和大小可以随意改变你仔细想想的话，这两个回答非常了不起。很多人说语言模型都是基于经验的，只能根据词汇之间的相关性输出答案，根本没有思考能力但是从这两个问答来看，ChatGPT 是有思考能力的。谁会写一篇文章讨论棒球棒能否被藏进人的耳朵里呢？ChatGPT 之所以能给出答案，肯定不是因为它之前听过这样的议论，而是因为它能进行一定的推理。它考虑到并且知道棒球棒和耳朵的相对大小，它

28、还知道金箍棒和孙悟空是虚构的。它这些思维是怎么来的呢？你可能没想到，这些能力，并不是研发人员设计的。研发人员并没有要求语言模型去了解每种物体的大小，也没有设定让它们知道哪些内容是虚构的。像这样的规则是列举不完的，那是一条死胡同。ChatGPT 背后的语言模型，GPT-3.5，是完全通过自学，摸到了这些思考能力。以及别的能力你列举都列举不出来的能力。连开发者都说不清楚它到底会多少种思考能力。语言模型之所以有这样的神奇能力，主要是因为它们足够大。GPT-3有1750亿个参数。Meta刚刚发布了一个新语言模型叫LLaMA，有 650 亿个参数。Google 在 2022 年 4 月推出一个语言模型叫

29、 PaLM，有 5400 亿个参数；之前 Google 还出过有 1.6 万亿个参数的语言模型。据 OpenAI 的 CEO 山姆阿尔特曼（Sam Altman）说，GPT-4 的参数并不会比 GPT-3 多很多；但大家猜测，GPT-5 的参数将会是 GPT-3 的100 倍。这是只有在今天才能做到的事情。以前不用说算力，光是存储训练模型的语料的花费都是天文数字。1981 年，1GB 的存储成本是 10 万美元，1990 年下降到 9000 美元，而现在也就几分钱。你要说今天的 AI 科学跟过去相比有什么进步，计算机硬件条件是最大的进步。今天我们做的是大模型。大就是不一样。当然语言模型有很多高

30、妙的设计，特别是我们一再提到的 transformer 就是一个最关键的架构技术，但主要区别还是在于大。当你的模型足够大，用于训练的语料足够多，训练的时间足够长，就会发生一些神奇的现象。2021 年，OpenAI 的几个研究者在训练神经网络过程中有一个意外发现。我给你打个比方，比如说你在教一个学生即兴演讲。他什么都不会，所以你找了很多现成的素材让他模仿。在训练初期，他连模仿这些素材都模仿不好，磕磕巴巴说不成句子。随着训练加深，他可以很好地模仿现有的演讲了，很少犯错误。可是如果你给他出个没练过的题目，他还是说不好。于是你就让他继续练。继续训练好像没什么意义，因为现在只要是模仿他就都能说得很好，只

31、要是真的即兴发挥他就不会。但你不为所动，还是让他练。就这样练啊练，突然有一天，你惊奇地发现，他会即兴演讲了！给他一个什么题目，他都能现编现讲，发挥得很好！这个过程就是下面这张图红色曲线代表训练，绿色曲线代表生成性发挥。训练到一千步乃至一万步，模型对训练题的表现已经非常好了，但是对生成性题目几乎没有能力。练到 10 万步，模型做训练题的成绩已经很完美，对生成题也开始有表现了。练到 100 万步，模型对生成性题目居然达到了接近 100%的精确度。这就是量变产生质变。研究者把这个现象称为开悟（Grokking）。开悟，到底是发生了什么呢？先别急，我再举个例子。ChatGPT 有个很关键的能力叫做少

32、样本学习（Few-Shot Learning），就是你给它一两个例子，它就能学会你的意思并且提供相似的输出。比如我让 ChatGPT 模仿我给出的例题，再出几道小学数学题。我的例题是“小明有 3 个苹果，妈妈又给了他 2 个苹果，现在他有几个苹果？”ChatGPT 马上就出了五道题，全是这个风格比如“小李有 5 支笔，他送出了 3 支笔，还剩下几支笔？”简直就跟对对联一样。少样本学习是个关键能力，你可以利用这个能力让 ChatGPT 帮你做很多事情。那这个能力是怎么出来的呢？来自更多的参数和训练。看下面这张图图中说的是 GPT-2 和 GPT-3 模型的演化。参数越多，少样本学习的能力就越强

33、。而少样本学习只是其中一项能力。还有很多别的能力也是如此：大了，它们就出来了。这个现象，其实就是科学家之前一直说的涌现（Emergence）。涌现的意思是当一个复杂系统复杂到一定的程度，就会发生超越系统元素简单叠加的、自组织的现象。比如单个蚂蚁很笨，可是蚁群非常聪明；每个消费者都是自由的，可是整个市场好像是有序的；每个神经元都是简单的，可是大脑产生了意识万幸的是，大型语言模型，也会涌现出各种意想不到的能力。2022 年 8 月，谷歌大脑研究者发布一篇论文，专门讲了大型语言模型的一些涌现能力，包括少样本学习、突然学会做加减法、突然之间能做大规模、多任务的语言理解、学会分类等等而这些能力只有当模

34、型参数超过 1000 亿才会出现我再强调一遍：研究者并没有刻意给模型植入这些能力，这些能力是模型自己摸索出来的。就如同孩子长大往往会出乎家长的预料。当然你也得先把模型设计好才行。Transformer 架构非常关键，它允许模型发现词与词之间的关系不管是什么关系，而且不怕距离远。但是当初发明 transformer 的研究者，可没想到它能带来这么多新能力。事后分析，涌现新能力的关键机制，叫做思维（Chain-of-Thought）。简单说，思维链就是当模型听到一个东西之后，它会嘟嘟囔囔自说自话地，把它知道的有关这个东西的各种事情一个个说出来。比如你让模型描写一下“夏天”，它会说：“夏天是个阳

35、光明媚的季节，人们可以去海滩游泳，可以在户外野餐”等等。思维链是如何让语言模型有了思考能力的呢？也许是这样的。比如我们前面说的那个棒球棒问题。模型一听说棒球棒，它就自己跟自己叙述了棒球棒的各个方面，其中就包括大小；那既然你的问题中包括“放进耳朵”，大小就是一个值得标记出来的性质；然后对耳朵也是如此它把两者大小的性质拿出来对比，发现是相反的，于是判断放不进去。只要思考过程可以用语言描写，语言模型就有这个思考能力。再看下面这个实验给模型看一张图片皮克斯电影机器人总动员的一张剧照问它是哪个制片厂创造了图中的角色。如果没有思维链，模型会给出错误的回答。怎么用思维链呢？可以先要求模型自己把图片详细描述

36、一番，它说“图中有个机器人手里拿了一个魔方，这张照片是从机器人总动员里面来的，那个电影是皮克斯制作的”。这时候你简单重复它刚说的内容，再问它那个角色是哪个制片厂创造的，它就答对了。既然如此，只要我们设置好让模型每次都先思考一番再回答问题，它就能自动使用思维链，它就有了思考能力。有人分析，思维链很有可能是对模型进行编程训练的一个副产品。我们知道现在 GPT-3 是可以帮程序员编程的。在还没有接受过编程训练的时候，它没有思维链。也许编程训练要求模型必须得从头到尾跟踪一个功能是如何实现的，得能把两个比较远的东西联系在一起这样的训练，让模型自发地产生了思维链。就在 2 月 27 日，微软公司发布了一篇

37、论文，描写了微软自己的一个新的语言模型，叫做多模态大型语言模型（multimodal large language model，MLLM），代号是 KOSMOS-1。什么叫多模态呢？ChatGPT 是你只能给它输入文字；多模态是你可以给它输入图片、声音和视频。它的原理大概是先把一切媒体都转化成语言，再用语言模型处理。多模态模型可以做像下面这样的“看图片找规律”的智商测验题前面那个机器人总动员剧照的例子就来自这篇论文，演示了看图说话的思维链。论文里有这样一个例子，在我看来相当惊人给模型看一张图既像鸭子又像兔子的图，问它这是什么。它回答说这是个鸭子。你说这不是鸭子，再猜是什么？它说这像个兔子

38、。你问它为什么，它会告诉你，因为图案中有兔子耳朵。这个思维过程岂不是跟人一模一样吗？我看荀子劝学篇中的一段话，正好可以用来描写 AI 能力的三个境界第一境界是积土成山，风雨兴焉。参数足够多，训练达到一定的积累，你就可以做一些事情。比如 AlphaGo 下围棋。第二境界是积水成渊，蛟龙生焉。模型再大到一定程度，就会涌现出一些让人意想不到的神奇功能。比如 AlphaZero 不按人类套路下围棋、大型语言模型的思维链。第三境界是积善成德，而神明自得，圣心备焉。这就是 AGI 了，它产生了自我意识，甚至有了道德感古往今来那么多人读劝学，也不知有几人真按照荀子的要求去学了但是我们现在知道，AI 肯定

39、听进去了。你给它学习材料，它是真学。好，我们来总结一下这一讲。因为开悟和涌现，AI 现在已经获得了包括推理、类比、少样本学习等等思考能力。我们不得不重新思考以前对AI做出的各种假设什么AI做事全靠经验、AI 不会真的思考、AI 没有创造力，包括“AI 会的都是用语言可以表达的东西”这一条，现在我也不敢肯定了。如果 AI 通过思维链能达到这样的思考水平，那人又是怎么思考的？我们的大脑是不是也有意无意也在使用了思维链呢？如果是这样，人脑跟AI 到底有什么本质区别？这些问题都在呼唤全新的答案。以上就是这一讲的全部内容。下一讲，咱们聊聊 AI 能力的局限。划重点 1.AI 能力的三个境界第一境界是积

40、土成山，风雨兴焉。参数足够多，训练达到一定的积累，你就可以做一些事情。第二境界是积水成渊，蛟龙生焉。模型再大到一定程度，就会涌现出一些让人意想不到的神奇功能。第三境界是积善成德，而神明自得，圣心备焉。它产生了自我意识，甚至有了道德感。2.因为开悟和涌现，AI 现在已经获得了包括推理、类比、少样本学习等等思考能力。03 底牌和命门：AI 能力的局限万维钢AI 前沿你好，这里是万维钢AI 前沿课。上一讲，我们讲了大型语言模型有开悟，有涌现，有思维链，所以才有现在如此神奇的各种功能。但我们还需要进一步理解 GPT：它跟人脑到底如何对比？它有什么限制？有没有它不擅长的东西？这一讲我们就来聊一聊 A

41、I 能力的局限。身处历史变局时刻，GPT 的进展非常快。各种产品、服务，学术论文层出不穷，进步是以天来计算，一个月以前的认识都可能已经过时了。不过我们这讲用的书很厉害，史蒂芬沃尔夫勒姆（Stephen Wolfram）的ChatGPT 在做什么以及它为什么好使（What Is ChatGPT Doing and Why Does It Work?），2023 年 3 月 9 日刚刚出版。这本书不会过时。因为它讲的不是 GPT 的一般功能，而是数学原理和哲学思辨数学和哲学是不会过时的。这本书的作者，沃尔夫勒姆是个神人，他发明了 Mathematics 软件，他做了 WolframAlpha 网站

42、，他搞了一个计算语言叫沃尔夫勒姆语言，他对整个物理学提出了全新的看法。你要让我列举当今世界上活着的最聪明的三个人，那其中必定有沃尔夫勒姆而且我还不敢肯定另外两个是谁。GPT 和目前市面上所有的 AI，本质上都是神经网络。沃尔夫勒姆关注神经网络已经四十多年了，他早在 1983 年就自己编程研究过神经网络，他最近用 GPT 做了很多研究。他这本书得到了 OpenAI CEO 山姆奥特曼（Sam Altman）的背书，说是他所见过最好的解释。事实上，沃尔夫勒姆不但讲清楚了 GPT 的底牌和命门，而且提出了一个可谓惊世骇俗的洞见。我先给你演示个小案例，加深你对 GPT 的认识。我让 GPT-4 做了个

43、最简单的计算题，纯粹是我随手打的：1231 434523+323 34636 等于多少？GPT-4 煞有其事地算了一番，给出的结果是 546106021。但是你随便找个计算器算算，正确答案应该是 546085241。这是怎么回事呢？GPT-4 有强大的推理能力，我让它做奥数题它有时候都能做对，怎么这么简单的计算题它做不对呢？当然它也不是什么计算都不会。你要让它算个 25+48，它肯定能做对问题是对于数字特别长的计算，它就不行了。根本原因在于，GPT 是个语言模型。它是用人的语言训练出来的，它的思维很像人的大脑而人的大脑是不太擅长算这种数学题的。让你算你不也得用计算器吗？GPT 更像人脑，而不是

44、像一般的计算机程序。在最本质上，语言模型的功能无非是对文本进行合理的延续，说白了就是预测下一个词该说什么。沃尔夫勒姆举了个例子，比如这句话：“The best thing about AI is its ability to（AI 最棒的地方在于它具有的能力）”下一个词是什么？模型根据它所学到的文本中的概率分布，找到五个候选词：learn（学习），predict（预测），make（制作），understand（理解），do（做事），然后它会从中选一个词。具体选哪个，根据设定的温度有一定的随机性。就这么简单。GPT生成内容就是在反复问自己：根据目前为止的这些话，下一个词应该是什么？输出质量的好坏

45、取决于什么叫应该。你不能只考虑词频和语法，你必须考虑语义，尤其是要考虑在当前语境之下词与词的关系是什么。Transformer 架构帮了很大的忙，你要用到思维链，等等等。是，GPT 只是在寻找下一个词；但正如奥特曼说过，难道人不也*只是*在生存和繁衍吗？最基本的原理简单，可是各种神奇和美丽的事物却可以从中产生。训练 GPT 的最主要方法是无监督学习：先给它看一段文本的前半部分，让它预测后半部分是啥。这样训练为啥就管用呢？语言模型为什么跟人的思维很接近？为了让它有足够的智慧，到底需要多少个参数？应该喂多少语料？你可能觉得 OpenAI 已经把这些问题都搞明白了，故意对外保密其实恰恰相反。沃尔夫勒

46、姆非常肯定地说，现在没有科学答案。没人知道GPT 为什么这么好使，也没有什么第一性原理能告诉你模型到底需要多少参数，这一切都只是一门艺术，你只能跟着感觉走。奥特曼也说了，问就是上天的眷顾。OpenAI 最应该感恩的，是运气。沃尔夫勒姆讲了 GPT 的一些特点，我看其中有三个最幸运的发现第一，GPT 没有让人类教给它什么自然语言处理（NLP）之类的规则。所有语言特征，语法也好语义也好，全是它自己发现的，说白了就是暴力破解。事实证明让神经网络自己发现一切可说和不可说的语言规则，人不插手，是最好的办法。第二，GPT 表现出强烈的自组织能力，也就是我们前面讲过的涌现和思维链。你不需要人为给它安排什么

47、组织，它自己就能长出各种组织来。第三，也许是最神奇的一件事情是，GPT 用同一个神经网络架构，似乎就能解决表面上相当不同的任务！按理说，画画应该有个画画神经网络，写文章应该有个写文章神经网络，编程应该有个编程神经网络，你得去分别训练可是事实上，这些事情用同一个神经网络就能做。这是为什么？说不清。沃尔夫勒姆猜测，那些看似不同的任务，其实都是类似人类的任务，它们本质上是一样的GPT 神经网络只是捕获了普遍的“类似人类的过程”。这只是猜测。鉴于这些神奇功能目前都没有合理解释，它们应该算作是重大科学发现。这些是 GPT 的底牌：它只是一个语言模型，但同时，它很神奇。那 GPT 为什么算数学就不太行呢？

48、沃尔夫勒姆讲了很多，下面我用一张图给你简单概括一下。这张图是我用 ChatGPT+Wolfram plugin 画的我们用三个集合代表世间的各种计算，对应于图中三个圆圈。大圈代表一切计算。我们可以把自然界中所有现象都理解成计算，因为底层都是物理定律。其中绝大多数计算过于复杂比如我们专栏讲过一个质子就是一片海以至于我们连方程都写不全，不管是用大脑还是用计算机都不能处理，但我们知道那也是计算。大圈内部，左边这个小圈，代表神经计算，适合神经网络处理。我们的大脑和包括 GPT 在内当前所有的 AI，都在这里。神经计算善于发现事物的规律，但是对数学问题的处理能力有限。大圈内部右边这个小圈代表形式逻辑，

49、数学就在这里。这里的特点是精确推理，不怕繁杂，永远准确。只要你有方程有算法，这里就能兢兢业业地给你算出来。这是特别适合传统计算机的领域。不论是人脑、GPT 还是计算机都处理不了世间所有的计算，所以两个小圈远远不能覆盖整个大圈。我们搞科学探索，就是要尽可能地扩大两个小圈的范围，进入大圈中未知的领地。人脑和 GPT 也可以处理一部分形式逻辑，所以两个小圈有交集；但是我们处理不了特别繁杂的计算，所以它们的交集并不大。那你说有没有可能将来 GPT 越来越厉害，让左边的小圈完全覆盖右边的小圈呢？那是不可能的。沃尔夫勒姆认为，语言思考的本质，是在寻求规律。而规律，是对客观世界的一种压缩。有些东西确实有规律

50、你可以压缩，但有些东西本质上就没有规律，不能压缩。我在精英日课第一季，讲过沃尔夫勒姆发明的一个游戏，其中有个第30 号规则，就是不可约化的复杂：你要想知道将来是什么样子就只能老老实实一步步算出来，不能“概括”。这就是为什么 GPT 算不好繁杂的数学题。GPT 跟人脑一样，总想找规律走捷径，可是有些数学题除了老老实实算没有别的办法。更致命的是目前为止，GPT 的神经网络是纯粹的前（feed-forward）网络，只会往前走、不会回头、没有循环，这就使得它连一般的数学算法都执行不好。这就是 GPT 的命门：它是用来思考的，不是用来执行冷酷无情的计算的。这样说来，虽然 GPT 比人脑知道的更多、反

展开阅读全文