2024年先进人工智能安全国际科学报告.pdf

资源描述

1、先进人工智能安全先进人工智能安全国际科国际科学报告学报告中期报告2024年5月贡献者椅子椅子Yoshua Bengio教授，蒙特利尔大学/Mila-魁北克人工智能研究所专家咨询小组专家咨询小组Prof.Bronwyn Fox，联邦科学与工业研究组织(CSIRO)(澳大利亚)andr Carlos Ponce de Leon Ferreira deCarvalho，圣保罗大学数学和计算机科学研究所(巴西)Dr.Mona Nemer，加拿大首席科学顾问(加拿大)Raquel Pezoa Riv era，Federico Santa 3月 a技术大学(智利)曾毅博士，曾毅博士，中国科学院空间研究所(

2、中国)Juha heikkil，连接DG(欧洲联盟)Guillaume Avrin，企业总局(法国)Antonio kr ger，德国人工智能研究中心(德国)教授教授Balaraman Ravindran，印度理工学院，马德拉斯(印度)Prof.Hammam Riza，KORIKA(印度尼西亚)Dr.Ciar n Seoighe，爱尔兰科学基金会(爱尔兰)Dr.Ziv Ka tzir，以色列创新局(以色列)Dr.Andrea Monti，基耶蒂-佩斯卡拉大学(意大利)Dr.Hiroaki Kitano，日本索尼集团Mary Kerema，信息通信技术和数字经济部(肯尼亚)何塞何塞拉蒙拉蒙洛佩斯

3、洛佩斯波蒂略博士，波蒂略博士，元素Q(墨西哥)Prof.Haroon Sheikh，荷兰政府政策科学委员会(荷兰)Dr.Gill Jolly，商业、创新和就业部(新西兰)Dr.Olubunmi Ajala，ninnovation and DigitalEconomy(尼日利亚)Dominic Ligot，CirroLytix(菲律宾)教授教授Kyoung Mu Lee，首尔国立大学电气与计算机工程系(大韩民国)Ahmet Halit hadip，土耳其工业和技术部(土耳其共和国)Crystal Rugege，人工智能和创新政策国家中心(卢旺达)Dr.Fahed Albalawi，沙特数据和人工

4、智能管理局(沙特阿拉伯王国)Denise Wong，信息通信媒体发展管理局(IMDA)数据创新和保护小组(新加坡)dr.Nuria Oliver，ELLIS Alicante(西班牙)Dr.Christian Busch，瑞士联邦经济事务、教育和研究部Oleksii Molchanovskyi，乌克兰人工智能发展专家委员会(乌克兰)Marwan Alserkal，内阁事务部，总理办公室(阿拉伯联合酋长国)Saif M.Khan，美国.商务部(美国)Dame Angela McLean，英国政府首席科学顾问Amandeep Gill，联合国技术特使(联合国)写作小组写作小组Daniel Priv

5、itera(首席作家)，基拉中心Tamay Besiroglu，A时代IRishi Bommasani，斯坦福大学马萨诸塞州Stephen Casper，Ins技术研究所Yejin Choi，华盛顿大学/A12卡内基梅隆大学Hoda Heidari，Mila-魁北克人工智能研究所HodaHeidari，Leila Khalatbari，香港科技大学科学协调员科学协调员Sren Mindermann,Mila-Quebec AI Institu te高级顾问高级顾问Bayo Adekanmbi，尼日利亚数据科学Paul Christiano，在美国人工智能安全研究所担任高级顾问之前David D

6、alrymple，研究+先进发明机构(ARIA)俄勒冈州立大学Thomas G.Dietterich，Edward Felten，普林斯顿大学香港科技大学Pascale Fung在担任Meta职位之前曾担任高级顾问Pierre-Olivier Gourinchas,International MonetaryFund(IMF)Nick Jennings CB FREng FRS，拉夫堡大学Andreas Krause，苏黎世联邦理工学院Percy Liang，伯南布哥联邦大学斯坦福大学Teresa Ludermir，Vidushi Marda,REAL MLHelen Margetts OBE

7、 FBA，牛津大学/艾伦图灵研究所秘书处秘书处Shayne Longpre，麻省理工学院Vasilios Mavroudis，伊利诺伊大学香槟分校Mantas Mazeika，艾伦图灵研究所Kwan Yee Ng,Concordia AIChinasa T.Okolo，博士，博士，布鲁金斯学会Deborah Raji,MozillaTheodora Skeadas，人文情报弗洛里安弗洛里安特拉梅尔，特拉梅尔，苏黎世联邦理工学院John A.McDermid OBE FREng，约克大学普林斯顿大学Arvind Narayanan，AlondraNelson，KAIST计算学院高级研究学院Ali

8、ceOh，Gopal Ramchurn，英国RAI/UKRI TASHub/南安普敦大学Stuart Russell，加利福尼亚大学，伯克利斯坦福大学Marietje Schaake，Dawn Song，加州大学伯克利分校Alv aro Soto，智利天主教大学Lee Tiedrich，杜克大学ga lvaroquaux，国家数字科学与技术研究所(Inria)姚明，姚明，清华大学跨学科信息科学研究所张亚张亚勤，勤，清华大学由AI安全研究所主办的英国政府秘书处英国政府秘书处Benjamin Prudhomme，-魁北克AI Institut e致谢致谢秘书处感谢以下英国组织的有益支持，评论和反馈

9、:Ada Lovelace研究所，Alan Turing研究所，长期复原力中心，人工智能治理中心和英国人工智能安全研究所。还要特别感谢丹亨德里克斯、迪伦哈德菲尔德梅内尔和帕梅拉萨缪尔森。International Scientific Report on the Safety of Advanced AI:Interim Report5前言前言7执行摘要执行摘要91导言导言152的的能力能力182.1通用AI如何获得其能力？182.2当前的通用AI系统能够实现192.2.1能力按方式202.2.2能力和限制技能212.3最近的趋势能力及其驱动因素222.3.1最近的趋势在计算，数据和算法222

10、.3.2最近的趋势能力252.4能力进步在未来292.4.1，如果资源继续快速扩展，这是否会导致快速发展？302.4.2将迅速扩大资源规模？302.4.3算法的进步会带来快速的进步？323方法评估和理解通用人工智能系统方法评估和理解通用人工智能系统343.1通用AI评估用于评估模型功能和影响。343.2模型性能分析方法353.2.1案例研究353.2.2基准353.2.3红色团队和对抗性攻击363.2.4审计373.3模型透明度、解释和解释383.4挑战与研究通用AI系统394风险风险414.1恶意使用风险414.1.1伤害个人通过虚假内容414.1.2虚假信息和操纵舆论424.1.3网络犯罪

11、444.1.4双重用途科学风险454.2故障风险474.2.1风险来自产品功能问题474.2.2偏见和代表性不足的风险494.2.3失控514.3系统性风险544.3.1劳动力市场风险544.3.2全球AI鸿沟574.3.3市场集中风险和单点故障58International Scientific Report on the Safety of Advanced AI:Interim Report64.3.4危害环境594.3.5隐私风险604.3.6版权侵权614.4交叉风险因素634.4.1交叉技术风险因素634.4.2跨领域的社会风险因素665的的技术方法来减轻风险技术方法来减轻风险68

12、5.1风险管理与安全工程685.1.1风险评估695.1.2风险管理705.2培训更多值得信赖的模型725.2.1使通用AI系统与开发人员的意图保持一致725.2.2减少幻觉的谎言745.2.3提高对故障的鲁棒性745.2.4消除危险能力755.2.5分析和编辑内部工作的模型755.3监测和干预765.3.1检测通用AI生成的内容765.3.2检测异常和攻击775.3.3解释模型动作775.3.4将保障措施纳入AI系统775.4技术方法公平和表示在通用人工智能系统785.4.1减轻偏见和歧视的工作贯穿于通用人工智能的开发和部署阶段795.4.2通用人工智能系统的公平性是实现的？805.4.3挑

13、战实现公平的通用AI系统815.5隐私方法的通用AI系统816结论结论83主席关于中期报告的说明主席关于中期报告的说明84不同观点不同观点86词汇表词汇表87参考文献参考文献917关于高级AI安全性的国际科学报告:中期报告前言这份报告是人工智能安全之旅的开始这份报告是人工智能安全之旅的开始，我很荣幸主持发布首届高级人工智能安全国际科学报告。我很自豪地发布这份中期报告，这是自2023年11月布莱奇利公园人工智能安全峰会委托这项工作以来的六个月里，许多专家付出了巨大努力的结果。我们知道先进的人工智能正在迅速发展，而且这些先进的人工智能系统如何影响我们未来的生活和工作方式存在很大的不确定性。人工智能

14、有巨大的潜力让我们的生活变得更好，但它也带来了伤害的风险。这就是为什么要进行彻底的分析现有的科学文献和专家意见至关重要。我们知道的越多，我们就越有能力塑造我们的集体命运。我们的使命很明确:推动对高级人工智能安全性的共享、基于科学的、最新的理解，并随着时间的推移继续发展这种理解。该报告正确地强调了专家之间存在共识的领域，以及对高级人工智能的能力和风险的分歧，特别是那些预计在未来开发的。为了有效地履行我们的使命，我们的目标是解决知识分子诚实的专家社区之间的分歧。通过剖析这些差异，我们为明智的决策铺平了道路，并刺激了有助于消除迷雾和减轻风险所需的研究。我感谢我们的国际专家咨询小组的宝贵意见，这些意见

15、最初确定了报告的范围，后来又对整个草案提供了反馈。他们的不同观点和认真审查扩大并加强了这份临时报告。同样值得认可的是我敬业的作家和高级顾问团队。他们在过去几个月的承诺创造了一个超出我预期的临时产品。我还要感谢英国政府启动这一进程并提供出色的运营支持。对我来说，同样重要的是，英国政府同意撰写这份报告的科学家应该拥有完全的独立性。这份中期报告只是旅程的开始。毫无疑问，这份报告在第一次尝试中未能捕捉到的观点和证据。在这样的科学过程中，反馈是宝贵的。我们将纳入更多的证据和科学的观点，因为我们对最终版本的工作。Yoshua Bengio教授教授蒙特利尔大学/Mila-魁北克人工智能研究所和主席8关于高级

16、AI安全性的国际科学报告:中期报告AI安全是一个共同的全球问题安全是一个共同的全球问题我很高兴向您介绍有关高级AI安全性的第一份国际科学报告的临时更新，这是2023年11月在布莱奇利公园举行的开创性AI安全峰会的重要成果。这份具有里程碑意义的报告代表了全球前所未有的努力，以建立对人工智能快速发展所带来的机遇和风险的共同的，基于科学的理解，并证明了“布莱奇利效应”-召集才华横溢的头脑来应对人类最大的挑战之一。我们认为，要实现人工智能造福人类的巨大潜力，需要积极努力，以确保安全、负责任地开发和部署这些强大的技术。没有一个国家能够独自应对这一挑战。这就是为什么我如此热衷于将一群世界领先的专家聚集在一

17、起，贡献他们的知识和观点。我要特别感谢Yoshua Bengio教授作为主席在巧妙地指导这一复杂的国际努力方面发挥的领导作用。至关重要的是，该报告还揭示了我们当前知识中的重大差距以及迫切需要进一步研究和讨论的关键不确定性和辩论。我真诚地希望，这份报告及其背后的合作进程能够成为缩小关键知识差距所需的研究和政策努力的催化剂，并为未来具有挑战性的政策选择提供宝贵的投入。我们还有很多东西要学，但这份报告标志着一个重要的开始。英国期待继续与国际伙伴合作，促进负责任的、以人为本的人工智能发展方法-利用这些强大的工具来改善生活和生计，同时警惕地防范下行风险和伤害。我们可以共同努力，建设一个全人类都能从人工智

18、能的奇迹中受益的未来。，Rt Hon Michelle Donelan议员，议员，科学，创新和技术部国务卿向前迈出的关键一步，呼吁向前迈出的关键一步，呼吁AI安全采取行动安全采取行动人工智能的快速发展将以深刻和不可预见的方式重塑我们的世界。从革命性的医疗保健和运输到自动化复杂任务和解锁科学突破，人工智能的积极影响潜力是不可否认的。然而，除了这些显著的可能性之外，还存在着重大的挑战，需要采取前瞻性的方法。关注的范围从嵌入算法中的意外偏见到自治系统超过人类控制。这些潜在风险凸显了迫切需要进行全球对话，以确保人工智能的安全和负责任的发展。在这种情况下，国际人工智能安全报告将为全球合作提供重要的基础。

19、该报告汇集了来自30个国家、欧盟和联合国的专家的知识，提供了对人工智能安全性的全面分析。通过关注对通用人工智能能力和风险的早期科学理解，并评估评估和缓解这些风险的技术方法，该报告将引发多方利益相关者之间的持续对话和合作。我希望基于这份报告，来自30个国家、欧盟和联合国的专家继续进行平衡的讨论，实现可接受的、适合发达国家和发展中国家具体情况的人工智能风险缓解，从而创造一个创新和负责任的人工智能和谐共存的未来。Lee jong-ho，大韩民国MSIT部长9关于高级AI安全性的国际科学报告:中期报告执行摘要关于本报告这是第一份“关于高级ai安全性的国际科学报告”的临时出版物。由75位人工智能(AI)

20、专家组成的多元化小组为本报告做出了贡献，其中包括由30个国家，欧盟(EU)和联合国(UN)提名的国际专家咨询小组。在本报告主席的领导下，撰写本报告的独立专家集体对其内容拥有完全的酌处权。在人工智能发展取得前所未有的进展之际，这份第一份出版物将其重点限制在近年来发展特别迅速的一种人工智能上:通用人工智能，即可以执行各种任务的人工智能。在快速发展的过程中，通用人工智能的研究目前正处于科学发现的时代，尚未成为科学定论。世界各地的人们只有在风险得到适当管理的情况下，才能安全地享受通用人工智能的许多潜在好处。本报告着重于识别这些风险，并评估评估和减轻这些风险的技术方法。它的目的不是全面评估通用人工智能的

21、所有可能的社会影响，包括其许多潜在的好处。这份中期报告有史以来第一次汇集了30个国家、欧盟和联合国提名的专家以及其他世界领先的专家，为通用人工智能安全的讨论和决策提供了一个共享的科学、循证基础。我们仍然在围绕通用人工智能能力、风险和风险缓解的几个问题上存在分歧，无论是次要的还是主要的。但我们认为这个项目对于提高我们对这项技术及其潜在风险的集体理解，以及更接近达成共识和有效的风险缓解至关重要，以确保人们能够安全地体验通用人工智能的潜在好处。赌注很高。我们期待着继续这一努力。执行摘要的要点如果管理得当，通用人工智能可以用于促进公共利益，可能会带来更好的福祉，更多的繁荣和新的科学发现。然而，通用人工

22、智能出现故障或被恶意使用也可能造成伤害，例如，在高风险环境中做出有偏见的决定，或者通过诈骗、虚假媒体或侵犯隐私。随着通用人工智能能力的不断发展，可能会出现诸如大规模劳动力市场影响，人工智能黑客攻击或生物攻击以及社会失去对通用人工智能的控制等风险，尽管研究人员对这些情况的可能性存在争议。对这些风险的不同看法往往源于对社会将采取的限制措施、这些措施的有效性以及通用人工智能能力的推进速度的不同期望。通用人工智能能力的未来进展速度存在相当大的不确定性。一些专家认为，到目前为止，进展最有可能放缓，而另一些专家则认为，极快的进展是可能的或可能的。开发人员可以采用各种技术方法来评估和降低通用人工智能的风险，

23、监管机构也可以要求，但它们都有局限性。例如，用于解释为什么通用AI模型产生任何给定输出的当前技术受到严重限制。International Scientific Report on the Safety of Advanced AI:Interim Report10通用人工智能技术的未来是不确定的，即使在不久的将来，也可能出现各种各样的轨迹，包括非常积极和非常消极的结果。但关于AI的未来，没有什么是不可避免的。社会和政府的决定将决定人工智能的未来。这份临时报告旨在促进对这些决定的建设性讨论。这份报告综合了对通用人工智能的科学理解-人工智能可以执行各种各样的任务-重点是理解和管理其风险。使用人工智

24、能的系统的能力一直在迅速发展。这凸显了人工智能为商业、研究、政府和私人生活创造的许多机会。它还提高了人们对与先进人工智能相关的当前危害和未来潜在风险的认识。关于高级人工智能安全的国际科学报告的目的是朝着对人工智能风险以及如何减轻风险的国际共识迈出一步。该报告的第一份临时出版物将其重点限制在一种能力发展特别迅速的人工智能上:通用人工智能，即可以执行各种任务的人工智能。在快速发展的过程中，通用人工智能的研究目前正处于科学发现的时代，尚未成为科学定论。该报告概述了当前对通用人工智能及其风险的科学理解。这包括确定科学共识的领域以及存在不同观点或开放研究问题的领域。世界各地的人们只有在风险得到适当管理的

25、情况下，才能安全地享受通用人工智能的潜在好处。本报告的重点是识别通用人工智能的风险，并评估评估和缓解这些风险的技术方法，包括使用通用人工智能来缓解风险。它的目的不是全面评估通用人工智能的所有可能的社会影响，包括它可能提供的好处。根据许多指标，通用AI能力近年来增长迅速，并且在如何预测未来进展方面没有达成共识，使得各种场景出现可能根据许多指标，通用AI能力正在迅速发展。五年前，领先的通用人工智能语言模型很少能产生连贯的文本段落。今天，一些通用的人工智能模型可以在广泛的主题上进行多轮对话，编写简短的计算机程序，或者从描述中生成视频。然而，通用人工智能的能力很难可靠地估计和精确定义。通用人工智能的发

26、展速度取决于技术进步的速度和监管环境。本报告侧重于技术方面，不讨论监管工作如何影响通用人工智能的开发和部署速度。近年来，人工智能开发人员迅速提高了通用人工智能功能，主要是通过不断增加用于训练新模型(一种称为“扩展”的趋势)和改进现有算法的资源。例如，最先进的人工智能模型用于训练的计算资源(“计算”)每年增加约4倍，训练数据集大小增加2.5倍，算法效率(相对于计算的性能)增加1.5倍。“缩放”是否导致了诸如因果推理等基本挑战的进展，研究人员之间存在争议。International Scientific Report on the Safety of Advanced AI:Interim Rep

27、ort11通用人工智能能力的未来进展速度对管理新兴风险具有重大影响，但专家们对即使在不久的将来也会发生什么持不同意见。专家们以各种方式支持通用人工智能能力缓慢、快速或极快发展的可能性。这种分歧涉及一个关键问题:继续“扩展”资源和改进现有技术是否足以产生快速进展并解决可靠性和事实准确性等问题，还是需要新的研究突破来大幅提高通用AI能力？几家开发通用人工智能的领先公司正在押注“扩展”以继续带来性能改进。如果最近的趋势继续下去，到2026年年底，一些通用人工智能模型将使用比2023年发布的最计算密集型模型多40倍至100倍的计算进行训练，并结合使用这种计算效率提高3倍至20倍的训练方法。然而，进一步

28、增加数据和计算存在潜在的瓶颈，包括数据的可用性、人工智能芯片、资本支出和本地能源容量。开发通用人工智能的公司正在努力解决这些潜在的瓶颈。一些研究工作旨在更可靠地理解和评估通用AI，但我们对通用AI模型和系统如何工作的总体理解是有限的管理通用人工智能风险的方法通常基于这样的假设，即人工智能开发人员和政策制定者可以评估通用人工智能模型和系统的能力和潜在影响。但是，虽然技术方法可以帮助评估，但所有现有方法都有局限性，无法提供强有力的保证，以防止与通用人工智能相关的大多数危害。总体而言，对通用人工智能的内部运作、能力和社会影响的科学理解非常有限，专家普遍认为，提高我们对通用人工智能的理解应该是当务之急

29、。一些关键挑战包括:开发人员仍然对他们的通用AI模型如何运行知之甚少。这是因为通用AI模型不是传统意义上的编程。相反，他们是经过训练的:人工智能开发人员建立了一个涉及大量数据的训练过程，这个训练过程的结果就是通用人工智能模型。这些模型可以由数万亿个称为参数的组件组成，并且它们的大部分内部工作都是难以理解的，包括对模型开发人员来说。模型解释和可解释性技术可以提高研究人员和开发人员对通用AI模型如何运行的理解，但这项研究还处于起步阶段。通用AI主要通过在各种输入上测试模型或系统来评估。这些抽查有助于评估优势和劣势，包括漏洞和潜在的有害能力，但不提供定量的安全保证。测试通常会忽略危险，高估或低估功能

30、，因为通用AI系统在不同情况下，不同用户或对其组件进行其他调整时可能会表现不同。原则上，独立参与者可以审核公司开发的通用AI模型或系统。但是，公司通常不向独立审计师提供必要的直接访问模型或有关严格评估所需的数据和方法的信息。一些政府正在开始建设进行技术评估和审计的能力。很难评估通用人工智能系统的下游社会影响，因为对风险评估的研究还不足以产生严格和全面的评估方法。此外，通用人工智能具有广泛的用例，这些用例通常不是预定义的，只是受到轻微的限制，使风险评估进一步复杂化。了解通用人工智能模型和系统的潜在下游社会影响需要细致入微的多学科分析。增加多样化的代表性International Scientif

31、ic Report on the Safety of Advanced AI:Interim Report12通用人工智能开发和评估过程中的观点是一项持续的技术和制度挑战。通用人工智能可能对个人和公共安全和福祉构成严重风险该报告将通用AI风险分为三类:恶意使用风险，故障风险和系统性风险。它还讨论了导致许多风险的几个交叉因素。恶意使用。恶意使用。与所有强大的技术一样，通用AI系统也可能被恶意使用以造成伤害。可能的恶意使用类型包括相对证据充分的类型，例如通用AI实现的诈骗，以及一些专家认为未来几年可能发生的类型，例如恶意使用通用AI的科学功能。通过通用AI生成的虚假内容对个人造成的伤害是一种相对有

32、据可查的通用AI恶意使用。通用AI可用于增加诈骗和欺诈的规模和复杂性，例如通过通用AI增强的“网络钓鱼”攻击。通用人工智能也可以用来生成虚假的妥协内容，包括未经个人同意的个人，例如未经同意的deepfake色情内容。另一个令人担忧的领域是恶意使用通用人工智能来提供信息和操纵公众舆论。通用人工智能和其他现代技术使生成和传播错误信息变得更加容易，包括影响政治进程。像水印内容这样的技术对策虽然有用，但通常可以被适度复杂的参与者规避。通用人工智能也可能被恶意用于网络犯罪，提升个人的网络专业知识，并使恶意用户更容易进行有效的网络攻击。通用AI系统可用于扩展和部分自动化某些类型的网络操作，例如社交工程攻击

33、。但是，通用AI也可以用于网络防御。总体而言，尚无任何实质性证据表明通用AI可以自动执行复杂的网络安全任务。一些专家还对通用人工智能可能被用来支持生物武器等武器的开发和恶意使用表示担忧。没有强有力的证据表明目前的通用人工智能系统会带来这种风险。例如，尽管目前的通用人工智能系统显示出与生物学相关的不断增长的能力，但有限的研究并没有提供明确的证据表明，目前的系统可以比使用互联网更容易地“提升”恶意行为者来获取生物病原体。然而，未来的大规模威胁几乎没有得到评估，也很难排除。故障风险。故障风险。即使用户无意造成伤害，由于通用AI的故障，也可能会产生严重的风险。这种故障可能有几种可能的原因和后果:基于通

34、用人工智能模型和系统的产品的功能可能会被用户理解得很少，例如由于误解或误导性广告。如果用户随后以不合适的方式或出于不合适的目的部署系统，这可能会造成损害。人工智能系统中的偏见通常是一个很明显的问题，对于通用人工智能来说也没有解决。通用人工智能输出可能会在种族、性别、文化、年龄和残疾等受保护特征方面存在偏见。这可能会产生风险，包括在高风险领域，如医疗保健，工作招聘和金融贷款。此外，许多广泛使用的通用人工智能模型主要是在不成比例地代表西方文化的数据上训练的，这可能会增加对这些数据不能很好地代表的个人造成伤害的可能性。International Scientific Report on the Sa

35、fety of Advanced AI:Interim Report13“失控”情景是潜在的未来情景，在这种情景中，社会不再能够有意义地限制通用人工智能系统，即使它们显然正在造成伤害。人们普遍认为，目前的通用人工智能缺乏构成这种风险的能力。一些专家认为，目前开发通用自主人工智能(可以行动、计划和追求目标的系统)的努力，如果成功，可能会导致失控。专家们对失控情况的合理性，何时可能发生以及减轻这种情况的难度持不同意见。系统性风险。系统性风险。通用人工智能技术的广泛发展和采用带来了一些系统性风险，从潜在的劳动力市场影响到隐私风险和环境影响:通用人工智能，特别是如果它进一步迅速发展，有可能自动化非常广

36、泛的任务，这可能会对劳动力市场产生重大影响。这可能意味着许多人可能会失去目前的工作。然而，许多经济学家预计，潜在的失业可能会被创造新的就业机会和非自动化部门需求的增加所抵消，甚至可能完全抵消。通用人工智能的研发目前主要集中在少数西方国家和中国。这种“AI划分”是多原因的，但部分原因是开发通用AI所需的计算访问级别不同。由于低收入国家和学术机构获得计算机的机会比高收入国家和技术公司少，因此它们处于不利地位。通用人工智能发展的市场集中度使社会更容易受到几种系统性风险的影响。例如，少量的广泛使用金融或医疗保健等关键部门的通用人工智能系统可能会在这些相互依赖的部门中同时造成广泛的故障和中断，例如由于错

37、误或漏洞。在通用AI开发和部署中不断增长的计算使用量迅速增加了与通用AI相关的能源使用量。这种趋势没有显示出放缓的迹象，2可能导致进一步增加的CO排放和水消耗。通用AI模型或系统可能会对隐私构成风险。例如，研究表明，通过使用对抗性输入，用户可以从模型中提取包含有关个人信息的训练数据。对于未来针对敏感个人数据(如健康或财务数据)进行训练的模型，这可能会导致特别严重的隐私泄露。通用人工智能开发中潜在的版权侵权对传统的知识产权法以及同意、补偿和数据控制系统构成了挑战。不明确的版权制度阻碍了通用AI开发人员宣布他们使用的数据，并且不清楚在未经许可的情况下使用其作品来训练通用AI模型的创作者会受到哪些保

38、护。交叉风险因素交叉风险因素支撑通用人工智能相关风险的支撑通用人工智能相关风险的是几个交叉风险因素-通用人工智能的特征增加了不是一个而是几个风险的概率或严重性:跨领域的技术风险因素包括难以确保通用AI系统可靠地按预期运行，我们对其内部工作原理缺乏了解，以及正在开发的通用AI“代理”可以在减少监督的情况下自主行动。社会交叉风险因素包括技术进步的速度和监管反应的速度之间的潜在差距，以及人工智能开发人员快速发布产品的竞争激励，这可能是以彻底的风险管理为代价的。International Scientific Report on the Safety of Advanced AI:Interim Re

39、port14有几种技术方法可以帮助降低风险，但目前没有一种已知的方法能够提供强有力的保证或保证，防止与通用人工智能相关的伤害。虽然本报告没有讨论减轻通用人工智能风险的政策干预措施，但它确实讨论了研究人员正在取得进展的技术风险缓解方法。尽管取得了这一进展，但目前的方法并没有可靠地防止在现实世界环境中甚至公开有害的通用AI输出。使用了几种技术方法来评估和减轻风险:在训练通用AI模型以更安全地运行方面取得了一些进展。开发人员还训练模型，使其对旨在使其失败的输入更加健壮(“对抗性训练”)。尽管如此，对手通常可以找到替代投入，以低至中等的努力降低保障措施的有效性。将通用人工智能系统的功能限制在特定的用例

40、中，有助于降低不可预见的故障或恶意使用带来的风险。有几种技术可用于识别风险，检查系统操作以及在部署通用AI系统后评估性能。这些做法通常被称为“监控”。减轻通用AI系统中的偏见可以在系统的整个生命周期中解决，包括设计，培训，部署和使用。然而，完全防止通用人工智能系统中的偏见是具有挑战性的，因为它需要系统的训练数据收集、持续的评估和有效的偏见识别。它还可能需要权衡公平性与其他目标，如准确性和隐私，并决定什么是有用的知识，什么是不应该反映在输出中的不良偏见。隐私保护是研究和开发的活跃领域。简单地在培训中尽量减少敏感个人数据的使用是一种可以大大降低隐私风险的方法。然而，当有意或无意地使用敏感数据时，用

41、于降低隐私风险的现有技术工具难以扩展到大型通用AI模型，并且可能无法为用户提供有意义的控制。结论:广泛的通用人工智能轨迹是可能的，这在很大程度上取决于社会和政府的行为通用人工智能的未来是不确定的，即使在不久的将来，也可能出现各种各样的轨迹，包括非常积极和非常消极的结果。但通用人工智能的未来并不是不可避免的。通用人工智能是如何开发的，由谁开发，它旨在解决哪些问题，社会是否能够获得通用人工智能的全部经济潜力，谁从中受益，我们面临的风险类型，我们投入多少研究以降低风险-这些和许多其他问题取决于社会和政府今天和未来做出的选择，以塑造通用人工智能的发展。为了帮助促进关于这些决策的建设性讨论，本报告概述了

42、科学研究的现状以及关于管理通用人工智能风险的讨论。赌注很高。我们期待着继续这一努力。15关于高级AI安全性的国际科学报告:中期报告1介绍我们正处于一场技术革命之中，这场革命将从根本上改变我们的生活、工作和相互联系的方式。人工智能(AI)有望改变我们社会和经济的许多方面。科学界普遍认为，人工智能系统的能力在过去五年中在许多任务上取得了快速进展。大型语言模型(llm)是一个特别突出的例子。在2019中，GPT-2，当时最先进的LLM，无法可靠地产生连贯的文本段落不能总是数到十。在撰写本文时，像克劳德3，GPT-4和双子座Ultra这样最强大的llm可以始终如一地进行多轮对话，编写简短的计算机程序，

43、在多种语言之间进行翻译，在大学入学考试中获得高分，并总结长文档。这种能力的逐步变化以及持续进步的潜力，可以在许多方面帮助提高公众利益。其中最有希望的前景是人工智能在教育、医疗应用、广泛领域的研究进展以及导致繁荣的创新增加方面的潜力。这一快速进展也提高了人们对与最有能力的人工智能类型相关的当前危害和未来潜在风险的认识。本报告旨在促进对先进人工智能安全的国际共享科学理解。为了开始就先进人工智能的风险达成国际共识，政府代表和学术界、商界和民间社会的领导人于2023年11月在英国布莱奇利公园召开了首届国际人工智能安全峰会。在峰会上，出席会议的国家以及欧盟和联合国同意支持制定关于先进人工智能安全的国际科

44、学报告。本报告旨在促进对先进人工智能安全的国际共享科学理解。这是该报告的第一份临时出版物:第一份报告的最终版本将在法国AI峰会之前发布。一个由75位人工智能专家组成的国际小组，他们的观点广泛，相关的背景也多种多样，为这份中期报告做出了贡献。报告所考虑的证据包括相关的科学，技术和社会经济证据。由于人工智能领域正在飞速发展，因此并非本报告使用的所有来源都经过同行评审。但是，该报告致力于仅引用高质量的来源。高质量源的标准包括:该作品构成了推动该领域发展的原始贡献。该作品全面地与现有的科学文献相结合，在适当的情况下引用其他人的工作，并对其进行准确的解释。该作品真诚地讨论了对其主张的可能异议。这篇文章清

45、楚地描述了其分析所采用的方法。它批判性地讨论了方法的选择。这篇文章清楚地强调了它在方法上的局限性。这篇文章在科学界很有影响力。由于对先进人工智能风险的科学共识仍在形成中，因此在许多情况下，该报告并未提出自信的观点。相反，它提供了科学理解和共识的当前状态的快照，或者缺乏科学理解和共识。在文献中存在空白的地方，报告指出了这些空白，希望这将促进进一步的研究。此外，本报告没有评论哪些政策选择是对其讨论的风险的适当回应。最终，政策制定者必须选择如何平衡先进人工智能带来的机遇和风险。International Scientific Report on the Safety of Advanced AI:I

46、nterim Report16政策制定者还必须判断适当的审慎和谨慎程度，以应对仍然模棱两可的风险。该报告的第一次迭代侧重于“通用”AI，即可以执行广泛任务的AI人工智能(AI)是指使用广泛适用的方法开发的先进的基于机器的系统，以实现给定的目标或回答给定的问题。人工智能是一个广泛且快速发展的研究领域，有许多不同种类的人工智能。本中期报告并未涉及所有类型的高级AI的所有潜在风险。该报告的第一次迭代侧重于通用AI，即可以执行各种任务的AI。通用人工智能系统，现在通过ChatGPT等应用程序为许多人所知，在过去的18个月里，公众和政策制定者对人工智能产生了前所未有的兴趣。它的能力一直在迅速提高。通用A

47、I不同于所谓的“窄AI”，这是一种专门执行一项特定任务或一些非常相似的任务的AI。为了更好地理解我们如何在本报告中定义通用AI，区分“AI模型”和“AI系统”很有用。人工智能模型可以被认为是原始的数学本质，通常是人工智能应用的“引擎”。AI系统是多个组件的集合，包括一个或多个AI模型，旨在以某种方式对人类特别有用。例如，ChatGPT应用程序是一个AI系统。它的核心引擎GPT-4是一个人工智能模型。本报告涵盖了AI模型和AI系统的风险，如果它们是“通用”AI模型或系统。我们认为AI模型是通用的，如果它可以执行或可以适应执行各种各样的任务。我们认为AI系统是通用的，如果它是基于通用模型，但如果它

48、是基于从通用模型派生的专用模型。在通用AI领域，本报告重点关注通用AI，它至少与当今最先进的通用AI(如GPT-4 Turbo、Claude 3和Gemini Ultra)一样强大。在我们的定义中，模型或系统不需要具有多种模态，如语音，文本和图像，就可以被认为是通用的。相反，可以在特定领域内执行各种任务的人工智能，如结构生物学，在我们的定义中也被视为通用。重要的是，不要将通用AI与“人工通用智能”(AGI)混淆，AGI有时用于指代潜在的未来AI系统，该系统在所有或几乎所有认知任务上的表现均等于或超过人类。通用AI是一个较弱的概念。本报告没有解决“狭窄ai”带来的风险，“狭窄ai”经过培训可以执

49、行非常有限的任务，并且捕获了相应的非常有限的知识体系。编写这份中期报告的时间有限，导致人们把重点放在先进的通用人工智能上，因为这方面的进展最为迅速，相关风险的研究和理解也较少。然而，从风险和安全的角度来看，狭义人工智能也可能具有高度相关性，报告中使用了与这些系统风险相关的证据。狭义的人工智能模型和系统被广泛用于医药、广告或银行等领域的产品和服务，并且可能在其中许多领域带来重大风险。这些风险可能导致诸如有偏见的招聘决定，车祸或有害的医疗建议等危害。窄AI也被用于各种军事应用。一个应用，虽然是人工智能在军队中的应用的一个非常小的子集，(1)涉及，例如，致命的自主武器系统(law)。这些主题在其他论

50、坛中都有涉及，不在本中期报告的范围之内。一个庞大而多样的领先国际专家小组为本报告做出了贡献，其中包括来自所有联合国区域集团以及欧盟和联合国的30个国家提名的代表。虽然我们的个人观点有时会有所不同，但我们坚信，关于人工智能的建设性科学和公共讨论对于世界各地的人们安全地获得这项技术的好处是必要的。我们希望这份临时报告能够有助于这一论述，并成为International Scientific Report on the Safety of Advanced AI:Interim Report17未来的报告将逐步改善我们对高级人工智能的能力和风险的共同理解。该报告分为六个主要部分。在此介绍之后，2。C

展开阅读全文