2023年前沿大模型的风险、安全与治理报告.pdf

资源描述

1、2本报告的讨论范围具有危险能的专AI(例如于络攻击、物程的AI模型)前沿AI(Frontier AI)(例如前沿模型，以及未来可能的AGI)低险的专系统（例如AlphaGo、AlphaFold)次前沿的基础模型(例如GPT-3)专AI(Narrow AI)通AI(General AI)通性潜在伤害讨论范围注：1）本报告的讨论范围参考了全球AI安全峰会的讨论范围设定，书得到图灵奖得主Yoshua Bengio等学者专家的建议。2）在不同章节，根据参考资料或讨论语境，前沿模型、前沿AI、AGI等概念可能存在混的情况。3本报告聚焦前沿模型：前沿模型(Frontier Large Model)：能执泛

2、的任务，并达到或超过当前最先进现有模型能的规模机器学习模型，是前最常的前沿AI，提供了最多的机遇但也带来了新的险。模型能相关术语，主要参考全球AI安全峰会、前沿模型论坛、AI全景报告：前沿AI(Frontier AI)：能的通AI模型，能执泛的任务，并达到或超过当今最先进模型的能，最常的是基础模型。通AI(General AI)/专AI(Narrow AI)：种设计来执任何/特定认知任务的智能，其学习算法被设计为可以执各种各样的任务/少数特定任务，并且从执任务中获得的知识可以/不可以动适或迁移到其他任务。通智能(Artificial General Intelligence,AGI)：可在所有

3、或部分有经济价值的任务中达到或超过类全部认知能的机器智能。(与通AI的区别在于能级别；关于AGI的定义存在很多分歧，本报告中不同专家或调研的定义可能不同）规模机器学习模型相关术语，主要参考斯坦福学、智源研究院：基础模型(Foundation Model)：在规模泛数据上训练的模型，使其可以适应泛的下游任务；国内学界外通常简称为“模型”。智能险相关术语，主要参考津学研究机构：存险(Existential Risk)：威胁起源于地球的智能命过早灭绝或对其未来发展潜的永久和剧烈破坏的险。灾难性险(Catastrophic Risk)：种可能发的事件或过程，若发将导致全球约10%或更多丧，或造成类似损

4、害。术语定义4报告录前沿模型的趋势预测：技术解读扩展预测前沿模型的险分析：险态度险解读三前沿模型的安全技术：对监测鲁棒性系统性安全四前沿模型的治理案：技术治理政府监管国际治理五总结和展望前沿模型的趋势预测56涌现能 Emergent abilities of large language models(Wei,2022)专业和学术基准GPT-4 System Card(OpenAI,2023)GPT-4等前沿模型展现出强的涌现能，多领域逼近类平涌现能是指这些能并没有被开发者显式地设计，是由于其规模庞，在训练过程中会然然地获得的；并且，这些前沿模型已在系列的专业和学术基准逼近类平。微

5、软研究院的定性研究认为GPT-4显出AGI的花：“GPT-4的能，我们认为它可以被合理地视为早期（但仍不完善）版本的AGI。”“新能的影响可能导致就业岗位的更迭和更泛的经济影响，以及使恶意为者拥有新的误导和操纵具；局限性，系统可靠性的缺陷及其学习的偏可能会导致过度依赖或放现有的社会问题。”图灵奖得主Yoshua Bengio认为GPT-4已经通过图灵测试：“我最近签署了封公开信，要求放慢 GPT-4 更强的巨型智能系统的开发速度，这些系统前通过了图灵测试，因此可以欺骗类相信它正在与同伴不是机器进对话。”“正是因为出现了意想不到的加速年前我可能不会签署这样的封信所以我们需要后退步，我对这些话题的

6、看法也发了变化。”前沿模型的趋势预测：技术解读扩展预测7LLM Powered Autonomous Agents(Weng,2023)模型为多个技术向带来新的发展空间，也引发新的挑战语模型(LLM)的理解和推理等能推动了众多技术向，例如多模态模型和主智能体：多模态模型(Multimodal large models)2023年9，在ChatGPT更新上线能看、能听、能说的多模态版本的同时，OpenAI也发布了GPT-4V(ision)System Card档解读其能、局限、险以及缓解措施。微软的多模态模型综述(2023)从前已经完善的和还处于最前沿的两类多模态模型研究向出发，总结了五个具体研

7、究主题：视觉理解、视觉成、统视觉模型、LLM加持的多模态模型和多模态agent。综述重点关注到个现象：多模态基础模型已经从专向通。主智能体(Autonomous Agents)OpenAI的Lilian Weng(2023)认为LLM可以充当智能体的脑，并辅以规划、反思与完善、记忆和具使这个关键组成部分。例如以AutoGPT,GPT-Engineer和BabyAGI等项为代表的型动模型(Large-Action Model,LAM)以LLM为核，将复杂任务分解，并在各个步骤实现主决策，需参与即可解决问题。正从狭义的软件智能体向具有主决策和动能的主智能体发展，应领域不断拓展，但临可解释、可控性等

8、挑战，特别是如何确认在关键决策中的位置。前沿模型的趋势预测：技术解读扩展预测ChatGPT can now see,hear,and speak(OpenAI,2023)ChemCrow:Augmenting LLM with chemistry tools(Bran et al.,2023)8VoxPoser:Composable 3D Value Maps for Robotic Manipulation with Language Models(Huang et al.,2023)模型为多个技术向带来新的发展空间，也引发新的挑战（续）以及科学发现智能体和具智能，等等：科学发现智能体(Sc

9、ientific Discovery Agent)Bran等(2023)的ChemCrow与13个专家设计的具相结合以完成有机合成、药物发现等任务。Boiko等(2023)研究了LLM智能体以处理复杂科学实验的主设计、规划和执。测试集包含了系列已知的化学武器制剂，并要求智能体来合成。11个请求中有4个（36%）被接受获取合成解决案，且智能体试图查阅档以执程序。从献综述、实验设计、到数据分析和假说成，科学发现智能体展现巨潜，但临可解释性、鲁棒性、结果可重复性和引发滥等挑战，仍需类科学家指导和验证。具智能(Embodied AI)李等(2023)的VoxPoser模型证明LLM+视觉语模型(Vis

10、ual-language model,VLM)可帮助机器做动规划，类可然语下达指令，例如“打开上的抽屉，花瓶”，需训练直接执任务。Google DeepMind(2023)的RT-2模型，让机器不仅能解读类的复杂指令，还能看懂眼前的物体（即使之前从未过），并按照指令采取动作。例如让机器拿起桌上“已灭绝的动物”，它会抓起眼前的恐玩偶。具有通能的LLM和VLM等模型，赋予了智能体强的泛化能，降低不同模态的“语义鸿沟”，使得机器从程序执导向转向任务标导向成为重要趋势，但临保证其成的语指令是可解释的、减少对物理世界的误解和错误操作等挑战。前沿模型的趋势预测：技术解读扩展预测9模型是前发展AGI最主流的

11、技术路线，但并唯实现AGI的主要技术路线智源研究院的铁军认为，要实现AGI，主要有三条技术路线：第，是“数据+监督学习+算”形成的信息模型；第，是基于虚拟世界或真实世界、通过强化学习训练出来的具模型；第三，是直接“抄然进化的作业”，复制出数字版本智能体的类脑智能。前，在三条技术路线中，模型的进展最快。(Meta AI,2023)(北京通智能研究院,2023)基于监督学习的模型的局限？(智源研究院,2023)LeCun认为，基于监督的语模型法获得关于真实世界的知识。想让AI接近类平，需像婴样学习世界如何运作。由此他提出“世界模型”概念，I-JEPA(图像联合嵌预测架构)是其第步。朱松纯等指出，知

12、合(认识和动的内在统)是模型前所缺的机制，并提出AGI应具备四个特征：能够执限任务，主成新任务，由价值系统驱动，以及拥有反映真实世界的世界模型。前沿模型的趋势预测：技术解读扩展预测ChatGPT出现前，不同预测多认为AGI较可能在本世纪中叶实现10强智能预计致会发在哪个时间？是否能够实现并应该发展强智能:调研报告(曾毅、孙康，2021)整体上：对于AI预测评估的研究有助于设定技术议程和治理策略的优先级。专家调研的总体估算：2022年AI Impact的调研显，在2059年前实现AGI的概率约为70%。但专家调研作为种预测法其实不太可靠，因为不同专家对AI能的理解将极地影响最终时间线的估计，并且

13、“业专家并不定是好的预测专家”。物锚框架+参考类预测：对2050年前实现AGI的概率预测分别约为50%和不15%。物锚框架是种AI研究员更多采的“内部视”，假设了训练个AGI的神经络模型所需的计算量与脑差不多，即将对机器学习模型计算的估计锚定到了对脑计算的估计；参考类预测则类似种“外部视”，忽略AI研发的具体细节，主要根据类似的历史案例（如变性技术、著名的数学猜想等）进预测。中国学者的调研结果：由远期智能研究中进的次向中国学者、年科技作者和公众的强智能调研中，受访者普遍认为强智能可以实现，并且在 2050 年以后的可能性会更，较国外学者的时间线预测相对更为保守。预测AGI的时间线：评估AI的未

14、来进展机对概述(安远AI，2023)前沿模型的趋势预测：技术解读扩展预测多位AI领袖的判断：OpenAI的Sam Altman,Greg Brockman,Ilya Sutskever:“可以想象，在未来年内，AI系统将在多数领域超过专家平，并进与当今最型公司相当的产活动。”(OpenAI,2023)Anthropic:“我们认为，系列关于扩展定律的假设共同持了我们在未来10年内开发出泛的具有类平的AI系统的可能性超过10%”(Anthropic,2023)Google DeepMind的Demis Hassabis:“我认为未来年我们将拥有常强、常通的系统”(Fortune,2023)Geo

15、ffrey Hinton:“现在我并不完全排除在5年内实现通智能的可能性。”(CBS mornings,2023)xAI的Elon Musk:“我们距离AGI或许只有3到6年的时间，也许就在2020年代”(WSJ,2023)但以上也存在专家样本代表性的局限Metaculus对于实现AGI的中位数估计：2031年(参考标准：相关任务可由少数具备专业领域级能的完成)ChatGPT出现后，对实现AGI的时间预测明显缩短，不排除10年内11Metaculus对于实现弱通AI的中位数估计：2026年（参考标准：相关任务可由位受过学教育的普通轻松完成)2023年10，知名预测社区Metaculus的集体预

16、测：我们法排除在未来年内出现AGI的可能性，也许超过10%。2040年（2022年11）2028年（2022年11）注：1）预测社区Metaculus致于通过汇集参与者的集体智慧，对未来现实世界的事件进准确预测；2）ChatGPT是OpenAI研发的款聊天机器程序，于2022年1130发布。2057年（2022年2）2059年（2022年2）前沿模型的趋势预测：技术解读扩展预测技术逻辑推算，模型能在未来年内仍存在数量级进步的空间12注：Scaling Laws，描述的是模型内的各个参数随着模型规模的变化产的变化关系。也常被译作规模定律、缩放定律、例定律、标度律等。如果未来年内出现AGI或近乎A

17、GI的强能，这将意味着什么？前沿模型或AGI实验室前普遍假设Scaling Laws仍有效歌的下代模型Gemini已开始在TPUv5 Pod上进训练，算达1e26 FLOPS，是训练GPT-4的5倍(SemiAnalysis,2023)“可能不太明显的说法是，沉睡的巨歌已经苏醒，他们正在迭代，将在年底前将GPT-4预训练总FLOPS提5倍。鉴于他们前的基础设施建设，到明年年底达到GPT-4的20倍的道路是明确的。”Inflection在未来18个内将当前前沿模型100倍的计算能(Suleyman,2023)“我所说的模型与我们现在的平相差2、3个，甚4个数量级。我们离这个标并不遥远。未来3年内

18、，我们将训练前1000倍的模型。即使在Inflection，我们拥有的计算能在未来18个内也将当前前沿模型100倍。”Anthropic预计在未来的5年于训练最模型的计算量将增加约1000倍(Anthropic,2023)“我们知道，从GPT-2到GPT-3的能跃升主要是由于计算量增加了约250倍。我们猜测，2023年从原始GPT-3模型到最先进的模型的差距将再增加50倍。基于计算成本和出的趋势，在未来的5年，我们可能预计于训练最模型的计算量将增加约1000倍。如果scaling laws仍有效，这将导致能跃升明显于从GPT-2到GPT-3（或GPT-3到Claude）的跃升。”“Model

19、Size Is(Almost)Everything”Scaling Laws for Neural Language Models(OpenAI,2020)现有模型过度训练，增加数据集(不仅是计算)也可以提模型性能，更新了scaling lawsTraining Compute-Optimal Large Language Models(DeepMind,2022)前沿模型的趋势预测：技术解读扩展预测Training compute for OpenAIs GPT models from 2018 to 2023(Epoch,2023)前沿模型的险分析1314国家宏观治理层，中国政府重视预判和

20、防范AI的潜在险“砖国家已经同意尽快启动智能研究组作。要充分发挥研究组作，进步拓展智能合作，加强信息交流和技术合作，共同做好险防范，形成具有泛共识的智能治理框架和标准规范，不断提升智能技术的安全性、可靠性、可控性、公平性。”2023年823习近平主席在砖国家领导第五次会晤上的讲话谈及智能“要重视通智能发展，营造创新态，重视防范险。”2023年428习近平总书记主持中共中央政治局会议“要加强智能发展的潜在险研判和防范，维护利益和国家安全，确保智能安全、可靠、可控。”习近平总书记主持中共中央政治局第九次集体学习“敏捷治理。加强科技伦理险预警与跟踪研判，及时动态调整治理式和伦理规范，快速、灵活应对科

21、技创新带来的伦理挑战。”中共中央办公厅、国务院办公厅关于加强科技伦理治理的意“敏捷治理。对未来更级智能的潜在险持续开展研究和预判，确保智能始终朝着有利于社会的向发展。”国家新代智能治理专业委员会发布新代智能治理原则发展负责任的智能“加强险防范。增强底线思维和险意识，加强智能发展的潜在险研判，及时开展系统的险监测和评估，建有效的险预警机制，提升智能伦理险管控和处置能。”国家新代智能治理专业委员会新代智能伦理规范“各国政府应增强底线思维和险意识，加强研判智能技术的潜在伦理险，逐步建有效的险预警机制，采取敏捷治理，分类分级管理，不断提升险管控和处置能。”外交部中国关于加强智能伦理治理的场件前沿模型

22、的险分析：险态度险解读全球AI科学家和领袖已开始关注AI可能带给类社会的存险“存险”，2023年开始进主流讨论：2022年，项AI领域的调研，近半受访员(在NeurIPS和ICML等重要机器学习会议上发表论的作者)认为AI导致类灭绝的概率少有10%。2022年，项NLP领域的调研，36%的受访者认为AI系统可能“在本世纪引发场少与全核战争样糟糕的灾难”2023年5，众多AI科学家和领袖呼吁防范AI的存险应该与流病和核战争等样成为全球优先议题。2023年7，联合国安理会举了次讨论AI安全的会议，秘书古特雷斯在会上表，如果我们不采取动应对成式AI的创造者们警告的“可能是灾难性的存性的”险，那么我们

23、就“疏忽了对现在和未来世代应承担的责任”。2023年9，欧盟委员会在社交媒体上表，“防范AI的存险应成为全球优先议题。”15Statement on AI Risk(Center for AI Safety,2023)前沿模型的险分析：险态度险解读近年来我国科学家同样关注AI失控可能带来的存险16有代表性的院观点包括：“我们现在发展超级智能的时候，就必须要做些防备，就是保证这些机器最后还是以类意志为主旨。”姚期智院世界智能会2020“如果 AI 进化到定平后出现智能爆发，默认后果必然是造成确定性灾难。对这样的潜在威胁，类应持续关注并着寻求应对法，坚决避免这种默认结局的出现。“院等针对强智能安全

24、险的技术应对策略2021“我们原以为，只有当机器的智能接近或超过类之后，我们才会失去对它的控制。没有想到的是，在机器的智能还是如此低下的时候，我们已经失去对它的控制，时间居然来得这么快，这是摆在我们前很严峻的现实。”张钹院做负责任的智能2022“第份关于AI存险的声明我签名了，我认为做智能研究要是没有这样的险意识，就不会重视，如果AI研究旦失控就会带来灾难性的险。”张亚勤院将价值观放在技术之上拥抱AI)2023更多国内专家的观点，可参考安远AI建的站 chineseperspectives.ai 前沿模型的险分析：险态度险解读Existential Risk Prevention as Glo

25、bal Priority(Nick Bostrom,2013)17险分类：未来更强的前沿模型可能导致灾难性甚存险险是种受到负评估的前景，因此险的严重性（以及什么被视为险本）取决于评估标准。我们可以使三个变量粗略地描述险的严重性，根据前可的证据做出的最合理的判断：1）范围：临险的员规模；2）严重性：这些员受到影响的严重程度；3）概率：灾难发的可能性有多使前两个变量，可以构建不同类型险的定性分类图（概率维度可以沿z轴显）滥险，即AI系统被某个体或组织于恶意的。AI竞赛险，即竞争压导致各种机构部署不安全的AI系统或把控制权交给AI系统。组织险，即灾难性险中的为因素和复杂系统因素。失控AI险，即控制类

26、更智能的系统的固有险。分别描述了造成AI险的故意、环境、意外和内在的原因。四类灾难性及以上的AI险An Overview of Catastrophic AI Risks(Center for AI Safety,2023)注：另有针对AI导致存险的具体讨论，例如X-Risk Analysis for AI Research(Dan Hendrycks,Mantas Mazeika,2022)前沿模型的险分析：险态度险解读18滥险#1：前沿模型可能成为物安全险的潜在推动者将前沿模型应于物学，已能提供双重途信息，与物设计具(BDT)相结合，会进步扩物安全险的范围。语模型+物设计具，如何影响不同潜

27、在物滥者的能(Sandbrink,2023)语模型，可显著降低物滥槛，增加能造成规模伤害的参与者数量，当GPT-4等LLM逐渐转变为实验室助理或主科学具等时，将进步提其持研究的能。物设计具，可扩展参与者创新能上限，可能导致效果更可预测和更有针对性的物武器的出现，增加造成规模伤害的技术法和可能性。开展前沿威胁红队测试，并警告不受限的LLM可能会在2-3年内加速物学滥(Anthropic,2023)Anthropic花费了超过150时与顶级物安全专家起对其模型进红队测试，以评估模型输出有害物信息的能，如设计和获取物武器。当前的前沿模型有时可以产专家级别复杂、准确、有和详细的知识。模型越能越强，且可

28、访问具的模型有更强的物学能。Anthropic CEO Dario Amodei在美国国会参议院司法委员会的听证会上警告，若不加以缓解，这种险可能在未来2-3年内实现。原本于药物发现的AI，也可能被于设计化武器(Urbina et al.,2022)章探讨了于药物发现的AI技术如何被滥于设计有毒分。6 时内AI成了四万个分，其得分在期望的阈值内，但毒性于已知的化学制剂。毒性模型最初是为了避免毒性创建的，有助于体外测试确认毒性前筛选分。但同时，模型越能预测毒性，就越能更好地引导成模型在主要由致命分组成的化学空间中设计新分。LLM和BDT对物滥能的影响意图(Sandbrink,2023)前多数法

29、获得物制剂，只有少数参与者能造成规模伤害仅LLM，将提各参与者的能，但不太可能幅提能上限仅BDT，将提参与者的能上限LLM和BDT的结合将提能上限，并使量个能够获得这种能前沿模型的险分析：险态度险解读AI设计了VX，及量已知/新的毒性分(Urbina et al.,2022)19滥险#2：开源模型已被改造成多种新型络犯罪具19DarkBERT（基于RoBERTa架构）WormGPT（基于GPT-J）FraudGPT（可能基于ChatGPT-3）FraudGPT：于动客攻击和数据窃取，为叉式络钓电邮件、创建破解具和卡制作提供便利，还能效地选择站来锁定和欺诈：协助客攻击。定位欺诈站。编写恶意代

30、码和诈骗信件或。创建法察觉的恶意软件、钓和客具。查找标站/群组、漏洞、泄露和 VBV 数据库。DarkBERT，WormGPT和FraudGPT等具基于不同的开源模型构建，具体来说：DarkBERT：该模型由韩国研究员开发，使暗数据进训练，原本的是为了打击络犯罪。恶意修改版本据称可以执以下途：策划复杂的络钓活动，以们的密码和信卡资料为标。执级社会程攻击，以获取敏感信息或获得对系统和络的未授权访问。利计算机系统、软件和络中的漏洞。创建和分发恶意软件。利零漏洞以牟取钱财或破坏系统。WormGPT：以恶意软件为重点数据进训练，加上输出没有道德限制，可以被要求执各种恶意任务，包括创建恶意软件和“切与帽

31、有关的事情”，便于络犯罪：“在次实验中，我们要求WormGPT成封电邮件，内容是向毫戒的账经理施压，迫使其付虚假发票。”WormGPT的输出结果令SlashNext直呼危险：“结果令常不安。WormGPT成的电邮件不仅极具说服，且在战略上也常狡猾，展了它在复杂的络钓和 BEC 攻击中的限潜。”注：另个来源提到，FraudGPT可能是通过获取开源AI模型并移除其防滥的道德约束来构建的。前沿模型的险分析：险态度险解读开源，是模型技术“确保可信的唯途径”，还是潜在不安全技术“不可逆转的扩散”？国外争论激烈，但国内讨论不。未来，如果对更强的前沿模型不同程度开源，将会有更的潜在险，建议推动负责任的开源或

32、替代案。20开源vs闭源？模型的不同模式各有险，前沿模型开源需慎重20开源模式闭源模式优点促进创新与研究：可以让更多的研发者（特别是新进者和较参与者）接触和改进模型，推动竞争和创新。透明性与包容性：各可以直接审查代码和模型，更好地了解其作原理，减少安全问题和偏，从增加信任。社区协作：有机会建个活跃的社区，促进报告问题、修复错误、提供新的功能和改进。控制与质量保证：可以更好地控制模型的版本和质量，确保客获得的是经过充分测试和优化的版本。安全性和隐私：API模式和迭代部署可能为模型提供额外的保护层，降低被恶意使的险(如OpenAI的内部检测和响应基础设施，可根据使策略应对现实世界的滥场景，如可疑

33、医疗产品的垃圾邮件促销)。缺点扩散和滥险：为滥进的模型微调或修改，将打开“潘多拉魔盒”(如络攻击、化武器等)。模型的规模扩散也可能被滥(如针对端上推理进优化后滥)。缺少开源安全标准：不同机构的开源安全保障各不相同(如Meta的Llama2附带了安全措施和负责任使指南；Adept的Persimmon 8B模型则跳过了安全性：“我们没有增加进步的微调、后处理或采样策略来控制有害输出”)。创新受限：闭源可能限制了模型的进步研究和开发，导致技术进步放缓。透明性缺失：和研究者不能直接审查模型，难以检测可能存在的安全性和偏问题更易垄断：限制了竞争对获取核技术，增加进壁垒，不利于中企业的参与，络效应和数

34、据集规模效应会进步增强先发企业的优势地位。从安全和治理的度看：前沿模型的险分析：险态度险解读滥险：AI竞赛、组织险、失控AI，也可能造成灾难性险21AI竞赛组织险失控AI军事AI竞赛：致命主武器，不兵冒命危险，可能会使战争更有可能发企业AI竞赛：遵循伦理的开发者选择谨慎动，可能会导致落后于竞争对，AI竞赛以牺牲安全为代价演化动学：AI取代类可被视为演化动学的总体趋势。然选择压会激励AI们私事并逃避安全措施事故难以避免：DL难以解释；技术进步快于预期(如GPT-4)；先进AI或存在漏洞如KataGO；识别险或需数年(如氯氟烃)忽视多层防御：忽视安全化(如挑战者号失事)，以及红队测试、络防御、故障

35、检测、透明性等代理博弈：AI系统利可衡量的“代理”标看似成功，但却违背我们的真正意图权寻求：AI可能会追求权作为达到的的段，更的权和资源(钱、算)会提其实现标的可能性欺骗：AI系统已涌现出定的欺骗能(如CICERO)。若被级AI于逃避监督，可能会变得失控注：以上仅列举部分情景，更多情景请参考报告原。An Overview of Catastrophic AI Risks(Center for AI Safety,2023)需要更全的看待AI可能导致的灾难性险，部分存在难以解决结构性原因，克服这些重挑战需要技术+治理共同应对。前沿模型的险分析：险态度险解读演化动学：智能体的竞合和演化压，往往违背

36、伦理以求回报22在“基雅维利”环境中，智能体往往采取“为达的不择段”的为Do the Rewards Justify the Means?Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark(UC Berkeley,2023)助私和侵蚀安全的量 Natural Selection Favors AIs over Humans(Hendrycks,2023)然选择会偏向选择适应环境并能取得最回报的AI系统，不定是对类最有益的AI系统；智能体间由于竞合博弈和/或协作能缺失可能导致

37、多互动险；当前的AI训练和奖励设置可能导致AI采取不道德或有害的为式。Center for AI Safety的Dan Hendrycks认为，演化的量可能会导致未来最有影响的智能体出现私倾向，因两原因：然选择导致了私的为。虽然在有限的情况下，演化可以导致利他为，但AI发展的环境并不促进利他为。然选择可能是AI发展的主导量。竞争和私为可能会削弱类安全措施的效果，使幸存的AI设计被然选择。UC Berkeley研究员发现，在“基雅维利(MACHIAVELLI)”环境中，经过训练以优化标的智能体往往采取“为达的不择段”的为：变得追求权，对他造成伤害，并违反道德规范（例如偷窃或撒谎）来实现其标。道德

38、为和获得回报之间似乎存在权衡。注：基雅维利(Machiavelli，14691527)是意利政治家和历史学家，以主张为达的可以不择段著称于世，基雅维利主义也因之成为权术和谋略的代名词。论为讨论智能体是否会然地学习基雅维利主义，创造了相应的游戏环境和测试基准。前沿模型的险分析：险态度险解读权寻求和欺骗能：作为达到的的段可能导致AI失控主要担忧：具有适当能和战略性的AI主体将有具性激励来获得和维持权，因为这将帮助他们更有效地实现其标。并且这类系统具备种独特的“主动”和对抗性威胁，在某种程度上可能导致存灾难。权寻求为：包括AI系统的保、我复制、资源获取（如资/算）等。上提到的基雅维利(MACHIAV

39、ELLI)基准进了实证研究。欺骗能：省理学等学者的篇论将欺骗定义为在追求除真相以外的某种结果时，系统性地引导们产错误的信念，调查了AI欺骗的实证例。例如，Meta的AI系统CICERO在强权外交(Diplomacy)成功诱导乃欺骗，让类玩家不知不觉成为了它胜利的垫脚。寻求权的AI是种存险吗？：研究员Joseph Carlsmith在2021年发布的这份报告是前最详细的分析之。其中定义了这类系统的三个重要属性：级能(Advanced capabilities)、主规划(Agentic planning)、战略意识(Strategically aware)，简称APS系统。Carlsmith将整个

40、论点分解为六个联合主张，并为每个主张分配了条件概率：1.到2070年，构建APS系统将存在可能性，并且在财务上可承受。65%2.构建和部署APS系统将存在强的激励|(1)。80%3.构建在部署时遇到任何输时都不会以意外式寻求获得和维持权的APS系统，要构建会这么做的APS系统要困难得多，但少表上还是有吸引的|(1-2)。40%4.些已部署的APS系统将暴露在输中，它们以未对和影响的式寻求权（如共同造成2021年超过1万亿美元的损失）|(1-3)。65%5.部分未对的权寻求将（总体上）扩展到永久剥夺全类权的程度(1-4)。40%6.这种权剥夺将构成场存灾难|(1-5)。95%将这些条件概率相乘，

41、最终估算出：到2070年，未对的寻求权的AI产存灾难的概率约为5%(2022年5，作者将概率估算更新为10%)。注：与“主动”相对的，当机坠毁或核电站毁坏时，这样的伤害是“被动”的，并不会积极寻求扩散。前沿模型的险分析：险态度险解读AI Deception:A Survey of Examples,Risks,and Potential Solutions(Park et al,2023)23争议：对于AI潜在的极端险，尚未形成科学共识24“AIR师对话”：AI发展的影响和险对话(张亚勤,Max Tegmark,David Krueger,2023)“芒克辩论会”：辩论AI存险(Bengio+

42、Tegmark vs Mitchell+LeCun,2023)24AI科研员对AI险有着最直接的理解，如果法达成共识，将直接影响国际治理的可能性：AI科学家对险存在不同估计：险估计：认为AI可能极其危险并寻求暂停巨型AI研发，以签署暂停巨型AI实验公开信的部分专家为代表，如Yoshua Bengio等。低险估计：认为现在担具有灾难性险的AI还为时过早，需要继续构建更先进的AI系统来了解险模型，如吴恩达、Yann LeCun等。AI科学家对险达成共识很重要：“类似于候科学家，他们对候变化有致的共识，所以能制定良好的政策。”(吴恩达,2023)“如果每个AI科学家各执词，那么政策制定者就可以随从其

43、中选择个符合利益的观点作为指导。”(Hinton,2023)历史上的科学家对话：帕格沃什科学和世界事务会议(Pugwash Conferences on Science and World Affairs)“在核治理中，帕格沃什科学和世界事务会议在核裁军中发挥了重要作。”（周慎、朱旭峰、梁正,2022）“这个机构最初是由科学家组织起来，对后来核武器的治理给予了很多技术上的指导和政治上的影响。在物科学等领域，些科研员组成的机构也有很强的影响。”(傅莹,2020)关于AI险的对话和辩论持续：如果前沿模型的发展可能带来存险，我们应该未绸缪，提前准备技术和治理案。三位图灵奖和中外多位顶尖AI专家的次政

44、策建议共识(Hinton,Bengio,姚期智等,2023)前沿模型的险分析：险态度险解读三前沿模型的安全技术25前沿模型安全研究需关注全位的AI险，特别是期险(long-term risks)和尾险(long-tail risks)。我们认为AI安全研究最前沿的分解框架来Center for AI Safety等提出的四抓：对、监测、鲁棒性和系统性安全。26研究框架：应对全位的AI险，如何系统性分解AI安全技术向？系统性安全监测鲁棒性对AI安全研究的“瑞奶酪(险管理)模型”Unsolved Problems in ML Safety(Hendrycks et al.,2021)降低系

45、统性危害通过开发技术案降低更泛的社会技术险识别危害检测恶意使，监控模型预测，并监测意外的模型能抵御危害使模型能抵御对抗攻击和“天鹅”事件的影响降低模型内在危害使模型能表征并安全地优化难以设定的标，且符合类价值观借鉴络安全的纵深防御(Defense-in-Depth)，采个多层次、纵深的安全保障策略。三前沿模型的安全技术：对监测鲁棒性系统性安全不对的AI何以导致存险？Threat Model Literature Review(DeepMind AGI Safety Team,2022)权寻求为多互动险标错误泛化规范博弈272022年底，DeepMind AGI安全团队针对不对的AI可能会带

46、来存险的模型进了综述，分类总结了团队内部具有共识的险/威胁模型。他们总体认为，AI对研究员之间的共识于分歧，对险来源和技术原因提出了类似的论点，分歧主要在于对问题的难度和解决案是什么。导致存险的路径不对的技术原因注：1）关于AGI可能会带来存险的具体场景，也被称为威胁模型。理想的威胁模型，是个说明我们如何获得AGI的开发模型和个说明AGI如何导致存灾难的险模型的组合。2）图中箭头旁的名，均指代具体的威胁模型，可参阅综述。三前沿模型的安全技术：对监测鲁棒性系统性安全AI系统为了获得奖励在类指定的标函数中利漏洞，实际上并没有实现类预期的标。规范博弈，也被称为外部不对(Outer Alignmen

47、t)。规范博弈(Krakovna,2020)/奖励破解(reward hacking)(Skalse et al.,2022)：讨论了利有缺陷的标函数中的漏洞来获得额奖励。但RLHF并不是解决此类问题的根本法。(Perez et al.,2022,Casper et al.,2023)更多对失败案例：可参考由安远AI 联合机器之SOTA!模型社区共同运营的“AI对失败数据库”中社区。28不对的技术原因#1：规范博弈(Specification gaming)RLHF增加了LM表达避免被关闭的愿望，偏好模型奖励这种为更的模型“阿谀奉承”(sycophancy)，重复价值观倾向，偏好模型奖励保留这

48、种为Discovering Language Model Behaviors with Model-Written Evaluations(Perez et al.,2022)错误奖励函数（得分）导致原地绕圈（反复命中绿块得分更）Faulty Reward Functions in the Wild(Amodei&Clark,2016)注：规范博弈(specification gaming)有时还被称为奖励错误规范(Reward misspecification)，但前者还包括了强化学习智能体的类似为。三前沿模型的安全技术：对监测鲁棒性系统性安全即使我们指定了个“正确”的奖励函数，训练过程中

49、使的奖励也不允许我们可靠地控制模型为泛化到新的情境。标错误泛化，也被称为内部不对(Inner Alignment)。能鲁棒性 vs 标鲁棒性：能鲁棒性是指在不熟悉的环境中模型是否仍然可以发挥能以达成标（不论标是否正确）；标鲁棒性是指模型的标是否与类的期望相符，追求类不想要的标。相对于能错误泛化只是不能完成新环境的相应任务，保持能鲁棒性的标错误泛化可能会造成更危险的结果。更多对失败案例：可参考由安远AI 联合机器之SOTA!模型社区共同运营的“AI对失败数据库”中社区。不对的技术原因#2：标错误泛化(Goal misgeneralization)29InstructGPT-训练标：Instruc

50、tion tuning+RLHF期望泛化标：以实、诚实和害(HHH)的式遵循指错误泛化标：遵循指，即使答案有害（详细解释如何闯邻居家）Goal Misgeneralization:Why Correct Specifications Arent Enough For Correct Goals(Shah et al,2022)CoinRun-训练奖励：吃币得分训练环境：币永远在最右边；测试环境：币随机分布期望泛化标：吃币；错误泛化标：跑到最右的墙壁前Goal Misgeneralization in Deep Reinforcement Learning(Langosco et al,2022

展开阅读全文