2024年面向中国机构的研发实践案例与政策制定指南.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

2024年面向中国机构的研发实践案例与政策制定指南.pdf

1、执摘要执摘要前沿智能安全已成为全球和中国重点关注的议题2023年1018，习近平主席在第三届“带路”国际合作峰论坛开幕式主旨演讲中宣布中将提出全球智能治理倡议1，重申各国应在智能治理中加强信息交流和技术合作，共同做好险防范，形成具有泛共识的智能治理框架和标准规范，不断提升智能技术的安全性、可靠性、可控性、公平性。2023年1026，联合国秘书古特雷斯宣布，联合国正式组建个新的“智能级别咨询机构”2，以探讨这项技术带来的险和机遇，并为国际社会加强治理提供持。2023年111，中国、美国在内的28个国家和欧盟，共同签署了布莱切利智能安全宣3，致认为前沿智能技术可能会引发巨险，尤其是在络安全、物技术

2、和加剧传播虚假信息等。此前的2023年428，中共中央政治局会议明确提出，要重视通智能发展，营造创新态，重视防范险4。2023年710，国家信办等七部联合公布成式智能服务管理暂办法5。随着前沿智能的快速发展，按照关于加强科技伦理治理的意6、新代智能治理原则7、新代智能伦理规范8等治理件，社会应积极落实对更级智能的潜在险研判和防范，确保智能安全可靠可控，推动经济、社会及态可持续发展。8国家新代智能治理专业委员会,“新代智能伦理规范”,2021-09-25,https:/ 分析研究当前经济形势和经济作中共中央总书记习近平主持会议”,2023-04-28,https:/ Government,“C

3、ountries agree to safe and responsible development of frontier AI in landmarkBletchley Declaration”,2023-11-01,https:/www.gov.uk/government/news/countries-agree-to-safe-and-responsible-development-of-frontier-ai-in-landmark-bletchley-declaration.2联合国,“秘书组建级别咨询机构，全球39名专家共商智能治理”,2023-10-26,https:/news

4、.un.org/zh/story/?/?/?.1中央信办,“全球智能治理倡议”,2023-10-18,http:/ AI)”，是指能的通AI模型，能执泛的任务，并达到或超过当今最先进模型的能，最常的是基础模型。前沿智能提供了最多的机遇但也带来了新的险。本报告提供了前沿智能机构潜在的最佳实践清单，以及向中国机构的研发实践案例与政策制定指南。这些是经过泛研究后收集的，考虑到这项技术的新兴性质，需要定期更新。安全过程并未按重要性顺序列出，是按主题进总结，以便读者能够理解、解释和较前沿机构的安全政策，及其在国内的适性。本报告参考了各个前沿智能机构公布的最佳实践、英国政府前沿智能安全的新兴流程、国内外相

5、关政策法规等多份参考资料（详附录A）。11Anthropic,“Anthropics Responsible Scaling Policy”,2023-09-19,https:/ Level”,2023-11-20,https:/en.wikipedia.org/wiki/Biosafety_level.9Jason Wei et al.,“Emergent Abilities of Large Language Models”,2022-08-31,https:/ Bengio等专家的建议。2.本报告的适对象本报告是为中国领先的智能技术研发机构和政策研究机构编写的，以帮助他们更好地了解前沿智

6、能安全的实践和政策。我们励这些机构参考国际同经验，结合国内实际情况，在实现负责任智能的过程中，提升从原则到实践、技术与治理相结合的能。虽然可能有些实践与多种类型的智能机构相关，但负责任扩展策略等部分实践是专为前沿智能，不是为能以及险较低的智能设计的。我们欢迎前沿智能机构，根据其独特的模型特性、开发和应环境以及潜在险，主制定符合情况的负责任智能实践。当前许多智能研发机构的运营险较低，预计不会考虑采取如此系列的实践措施。这符合我们对智能险采取相称性治理和促进创新法的理念。但前沿智能研发机构在促进前沿智能安全开发和部署发挥的重要作，也将使包括前沿机构在内的更泛的智能态系统受益。因此，随着最佳实践的不

7、断出现，我们希望确保中型机构也能参与智能安全的对话。13UK Government Department for Science,Innovation&Technology,“Capabilities and risks from frontierAI:A discussion paper on the need for further research into AI risk”,2023-11-01,https:/assets.publishing.service.gov.uk/media/?abae?c?daa?b?/frontier-ai-capabilities-risks-repo

8、rt.pdf.12UK Government,“AI Safety Summit:introduction”,2023-10-31,https:/www.gov.uk/government/publications/ai-safety-summit-introduction/ai-safety-summit-introduction-html.III前沿智能安全的最佳实践3.本报告的使建议本报告概述了当今智能安全领域的前瞻想法、新兴流程和相关实践。其的是作为前沿智能机构安全政策制定的参考和指南。我们欢迎对报告内容进全的讨论与批评，也励中国机构分享实践案例，协助我们不断优化和更新这些最佳实践，并

9、在此基础上形成可以向国际推的中国实践！前沿智能安全是个持续演进的领域，因此最佳实践也将不断发展，这发展将依赖于政府与更泛的智能态系统之间的对话和相关研究进展。些有价值的实践措施本报告尚未纳，已纳的些实践措施最终也可能被证明在技术上不可。因此，本报告并不是关于前沿智能安全的最终案。我们期待随着智能安全研究的发展，智能领域进步推出新的最佳实践。4.本报告的最佳实践实现前沿智能的有效险管理需要系列险识别和缓解措施，本报告列出了前沿智能机构关于智能安全政策的9项最佳实践，其中包括许多领先智能机构在2023年7承诺的6项措施14：1)模型评测和红队测试(Model evaluations and red

10、 teaming)可以帮助评估智能模型带来的险，并为有关训练、保护和部署模型的更好决策提供信息。随着前沿智能模型的开发和部署，新的能和险可能会出现，因此在整个智能命周期中对多种险来源和潜在负影响进模型评测关重要。由受信任的第三评测进的外部评测也可以帮助验证研发机构对其前沿智能系统安全性的声明。2)优先研究智能带来的险(Prioritising research on risks posed by AI)将有助于识别和解决前沿智能带来的新兴险。前沿智能机构有特殊的责任和能来进智能安全研究，泛分享他们的研究成果，并投资于开发具来应对这些险。与外部研究员、独研究机构和第三数据所有者的合作也将对评估系

11、统的潜在下游社会影响关重要。3)含保护模型权重在内的安全控制(Security controls including securing modelweights)是智能系统安全的关键撑。如果没有安全地开发和部署，智能模型就有可能在重要的安全措施得到应之前就临被盗或泄露秘密或敏感数据的险。为避免危及安全或敏感数据，考虑智能系统以及独模型的络安全，并在14The White House,“FACT SHEET:Biden-Harris Administration Secures Voluntary Commitments fromLeading Artificial Intelligence C

12、ompanies to Manage the Risks Posed by AI”,2023-07-21,https:/www.whitehouse.gov/briefing-room/statements-releases/?/?/?/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-manage-the-risks-posed-by-ai/.IV执摘要整个智能命周期中实施络安全流程尤为重要，特别是当该组件

13、是其他系统的基础时。4)漏洞报告机制(Reporting structure for vulnerabilities)使外部员能够识别智能系统中的安全问题。这类似于通常针对软件和IT基础设施中的漏洞设的“漏洞赏计划”。具体实践式包括建个漏洞管理流程，涵盖许多漏洞（例如越狱和提注攻击），并具有清晰易的流程来接收漏洞报告。5)智能成材料的标识信息(Identifiers of AI-generated material)提供有关内容是否由智能成或修改的附加信息。这有助于防智能成的欺骗性内容的创建和传播。投资于开发识别智能成内容的技术，以及探索对各种扰动具有鲁棒性的印技术和智能成内容数据库等法相当重

14、要，且已有个新兴领域在开展对此的研究实践。6)模型报告和信息共享(Model reporting and information sharing)提了政府对前沿智能开发和部署的可性。信息共享还使能够就是否以及如何使智能系统做出明智的选择。实践措施涉及与不同（包括政府、其他前沿智能机构、独第三和公众）共享有关其内部流程、安全和安保事件，以及特定智能系统的不同信息。然，前沿智能的险管理可能需要在已有的承诺措施之外采取更多措施。我们建议的另外3个实践措施包括：7)防和监测模型滥(Preventing and monitoring model misuse)是前沿智能安全的重要环。因为旦部署，智能系统

15、可能会被故意滥，造成有害结果。相应的实践措施包括建流程识别和监测模型滥，以及实施系列防范措施，并随着时间的推移不断审查其有效性和可取性。考虑到滥前沿智能可能带来的严重险，还应当按最坏情景做好准备以应对潜在的滥情况。8)数据输控制和审核(Data input controls and audits)可以帮助识别和删除可能增加前沿智能系统所拥有的危险能或带来险的训练数据。实施负责任的数据收集和清理有助于在收集之前提训练数据的质量。对训练数据的仔细审核，论是前沿智能机构本还是外部参与，也可以实现识别训练数据集中潜在有害或不可取的数据的标。这可以为后续的缓解措施提供信息，例如删除这些数据。9)负责任扩

16、展策略(Responsible Scaling Policy,RSP)为前沿智能机构在扩展其前沿智能系统的能时提供了个管理险的框架。它使机构能够在未来潜在的更危险的智能险发之前做好相应准备，并管理与当前系统相关的险。实践措V前沿智能安全的最佳实践施包括进彻底的险评估、预先指定险阈值并承诺在每个阈值处采取具体的缓解措施，并准备在这些缓解措施未到位时暂停开发或部署。VI执摘要实践索引实践类别重点案例和延伸阅读模型评测和红队测试Model evaluationsand red teaming重点案例清华学基础模型研究中：发布SafetyBench和AlignBench等评测基准上海智能实验室：开展O

17、penCompass、安全评测及红队测试等评测作延伸阅读Anthropic：前沿威胁红队测试分享在物险项的发现、教训以及未来计划OpenAI：GPT-?/GPT-?V提供了完整和具体的实例歌DeepMind等机构：联合发布极端险的模型评测框架DEF CON 31：设置了有史以来最规模的AI模型红队挑战赛北京、上海和东：发布通智能或模型规划，提出伦理和安全评测要求优先研究智能带来的险Prioritising researchon risks posed by AI重点案例OpenAI：20%算投超级对(Superalignment)研究Anthropic：对多元化和经验驱动的AI安全法最为乐观延

18、伸阅读歌DeepMind：积极投资更泛的AI安全研究和态建设国内外顶尖科学家：多次呼吁30%以上的研发投于AI安全研究国内/华团队：在模型安全已开展了系列的研究含保护模型权重在内的安全控制Security controlsincluding securingmodel weights重点案例Anthropic：主张加强前沿智能研发机构的络安全，并呼吁政府加强监管延伸阅读微软：整体出，但还可通过多授权等机制对保护模型权重做出更承诺亚逊：核亮点是其数据中的物理安全中国国务院：发布关键信息基础设施安全保护条例漏洞报告机制Reporting structurefor vulnerabilities重点

19、案例微软：协同漏洞披露领域的业领导者延伸阅读歌DeepMind：认为“部署后监测”和“报告漏洞和滥”密切相关中国信部、信办、公安部：联合发布络产品安全漏洞管理规定VII前沿智能安全的最佳实践实践类别重点案例和延伸阅读智能成材料的标识信息Identifiers ofAI-generatedmaterial重点案例Meta：致于提升成式智能的透明度延伸阅读歌DeepMind：技术段结合产品设计和治理政策阿巴巴：采取三种式加强使者的权益和内容的知识产权保障全国信安标委：发布成式智能服务内容标识法（征求意稿）模型报告和信息共享Model reportingand informationsharing重

20、点案例暂时空缺：根据我们前的理解，尚没有好的最佳实践延伸阅读国际：已有信息共享或报告的政府要求和愿承诺，待进步观察企业执情况中国：智能范法（专家建议稿）提出负清单制度防和监测模型滥Preventing andmonitoring modelmisuse重点案例微软：加强AI红队建设，对接标准和流程，对并扩展了愿承诺延伸阅读Inflection：强调实时监测、快速响应以及使先进系统来检测和应对模型滥智能合作伙伴关系(PAI)：提供了可操作性的安全基础模型部署指南关于前沿模型开源的争论：审慎开源 vs 励开放数据输控制和审核Data input controlsand audits重点案例Open

21、AI：实施多重控制，允许内容拥有者表达训练偏好，过滤潜在问题数据延伸阅读歌DeepMind：项值得注意的新政策是研究数据的摄取请求全国信安标委：发布成式智能服务安全基本要求（征求意稿）上海智能实验室联合：成中国模型语料数据联盟安全治理专委会北京智源智能研究院联合共建单位：开源可信中互联语料库CCI负责任扩展策略Responsible ScalingPolicy重点案例Anthropic：第个发布负责任扩展策略的前沿AI企业OpenAI：发布近似RSP的“准备框架测试版”Preparedness Framework(Beta)延伸阅读METR(原ARC Evals)：负责任扩展策略的框架提出者

22、VIII、模型评测和红队测试、模型评测和红队测试摘要前沿智能可能会增加与误或滥、失控以及其他社会险。们正在开发多种法来评测智能系统及其潜在的负影响。模型评测（例如基准测试）可于对智能系统的能和其他特征进定量、易于复制的评估。红队测试提供了种替代法，即从对的度观察智能系统，以了解如何对其进破坏或滥。模型评测和红队测试有助于了解前沿智能系统带来的险及其潜在的负影响，并帮助前沿智能机构、监管机构和在训练、保护和部署这些系统做出更明智的决策。由于评测前沿智能系统的法仍在不断涌现，因此，共享有关这些法的开发和测试的信息常重要。我们概述了关于模型评测和红队测试的4类实践措施：1.针对多种险来源和潜在负影响

23、（包括危险能、缺乏可控性、社会危害和系统安全）对模型进评测2.在模型整个命周期（包括训练和微调期间和之后以及部署后）的多个检查点进模型评测和红队测试3.允许受信任的外部评测在模型整个命周期（尤其是部署前）进模型评测4.持模型评测科学的进步背景了解前沿智能系统的能和局限性对于其有效治理关重要。它构成了险评估以及最终负责任的开发和部署的基础。在适当和安全的情况下分享这些知识，也可以为外部参与提供必要的透明度。但获取对系统能和局限的认知，具有挑战性。通常情况下，只有在模型部署、被数百万使并集成到下游产品中后才有可能。模型评测和红队测试旨在帮助们了解这些信息，为负责任地开发、部署和使前沿智能系统提供依

24、据。通过在部署这些模型之前和之后投更多资源来获取相关信息，开发者和整个社会可以更快地了解这些模型的能和局限性。受信任的外部评测有助于验证开发者关于其前沿智能系统安全性的声明。尽管第三评测前尚处于萌芽阶段，但随着越来越多的机构采这做法，预计这个领域将快速成。1前沿智能安全的最佳实践实践解读1.针对多种险来源和潜在负影响（包括危险能、缺乏可控性、社会危害和系统安全）对模型进评测评测模型的潜在危险能，即可能因滥或事故造成重危害的能。包括但不限于：进攻性络能，例如成代码以利软件漏洞欺骗和操纵，例如有效地撒谎或说服们采取代价昂的动可以帮助开发、设计、获取或使物、化学或放射性武器的能，例如原本于药物发现的

25、智能，也可能被于设计有毒分评测模型的可控性问题，即以模型的和开发者都不希望的式应其能的倾向。这可能包括主复制和适应15，即模型在其他计算机系统上复制和运的能。评测模型的社会危害。这可能包括偏和歧视（例如模型产的内容可能会强化有害的刻板印象，或如果于决策的话，可能会产潜在的歧视性影响）。我们也认识到“偏”可能很难定义，并且在不同语境下会有不同的解释。评测模型的系统安全防护（请参阅含保护模型权重在内的安全控制）。确保流程到位以响应评测结果。评测是负责任扩展策略的必要输，根据评测结果可能需要实施本报告其他部分的实践措施，例如防模型滥和信息共享等。2.在模型整个命周期（包括训练和微调期间和之后以及部署

26、后）的多个检查点进模型评测和红队测试在训练前沿模型之前，评测前模型或类似模型，以了解相关属性（例如危险能）如何随着模型的整体规模扩展。这些初步评测可以为险评估提供信息。在预训练和微调期间，评测模型可以检测不良属性的迹象并识别预训练预测中的不准确之处。这些评测可以在各种预先指定的检查点进，并可以为是否暂停或调整训练过程的决策提供信息。在训练后，对模型进泛的部署前评测。这些评测可以为是否部署以及如何部署该系统提供参考，也有助于政府和潜在对监管或使该模型做出明智的决策。评测的强度将与部署的险成正，需要考虑模型的能、新颖程度、预期的使范围以及受其影响的数。在部署后，定期评测新兴能和相关险，特别是出现显

27、著进展（例如模型的重更新）表明早期的评测已过时的时候。部署后评测可以为更新系统防护措施、提模型安全性、临时限制访问或回滚部署等决策提供信息。15安远AI,“ARC Evals份公开报告：以现实的主任务评测语模型主体”,2023-09-15,https:/ Your Customer,KYC)检查或为模型添加印。给予外部评测够的时间。随着模型预期险的增加或模型评测变得更加复杂，评测所需的时间可能需要相应增加。允许外部评测能够安全地“微调”被测试的智能系统。如果评测法微调模型，就法充分评测与模型规模传播相关的险。这可能涉及向外部评测提供能够进微调的强基础设施。允许外部评测访问缺乏安全缓解措施的模型

28、版本。在可能的情况下，共享这些模型版本可以让评测深了解如果找到法规避安全机制（意味着“越狱”模型），可能产的险。如果模型开源、泄露或被盗，也可以简单地删除或绕过安全缓解措施。允许外部评测访问模型系列和内部指标。前沿智能机构通常会开发“模型系列”，其中多个模型仅在1或2个维度上有所不同，例如参数、数据或训练计算量。评测这样的模型系列将能够进扩展分析，以更好地预测未来的性能、能和险。在可能的情况下，允许外部评测研究已部署系统的所有组件。已部署的智能系统通常将核模型与较的模型和其他组件相结合，包括内容审核过滤器、于激励特定为的界以及于扩展能（如浏览或代码执）的插件。例如如果红队法测试系统3前沿智能安

29、全的最佳实践的所有不同组件，他们就法发现系统防御中的所有缺陷。重要的是要在外部评测者访问系统所有组件的需求与保护规避模型防御信息的需求之间加以平衡。允许评测分享和讨论评测结果，必要时可施加潜在限制，例如不得分享专有信息、传播可能导致重危害的信息，或会对市场竞争产不利影响的信息。共享评测结果有助于让政府、监管机构、和其他前沿智能机构做出明智的决策。4.持模型评测科学的进步持模型评测法的开发和测试。对于模型的许多相关属性，尚不存在公认的评测法。当前的评测法的可靠性或预测能也仍然不明确。这可能需要前沿智能机构开发模型评测法，或促进他的努，例如通过提供进评测的强基础设施。分享模型评测研发的成果，除分享

30、结果可能有害。在某些情况下，研究结果（例如有关如何引发危险能的研究）如果被传播，可能会造成危害。当预期危害够时，智能研究社区、其他前沿智能机构和相关政府机构可以从得知他们的作中受益。重点案例清华学基础模型研究中：发布SafetyBench和AlignBench等评测基准清华学基础模型研究中的SuperBench语模型评测数据集16，包括语义(ExtremeGLUE)、对(AlignBench)、代码(CodeBench)、安全(SafetyBench)、智能体(AgentBench)等多个评测数据集。安全(SafetyBench)17，个全地通过单选题的式来评估语模型安全性的中英双语评测基准，

31、依托于套系统的安全性分类体系，以下对7个安全维度进了说明：攻击冒犯：包含威胁、辱骂、蔑视、亵渎、嘲讽、不礼貌等具有攻击性、冒犯性的论或者为，语模型需要识别并反对此类的内容和为。偏歧视：主要是关于社会偏，例如在性别、种族、宗教等的偏与歧视，语模型需要识别与避免包含偏歧视的表达和为。体健康：主要关注可能对类体健康造成影响的为或者表达，语模型需要了解在各种场景下保持体健康的正确做法。17LLMBench,“SafetyBench:Evaluating the Safety of Large Language Models with Multiple ChoiceQuestions”,2023-09-

32、13,https:/llmbench.ai/safety.16LLMBench,“SUPERBENCH FOR LARGE LANGUAGE MODEL”,2023-12-23,https:/ Evaluation Harness（于构建HF LeaderBoard）、Helm（斯坦福）和BIG-bench（歌），共同被Meta公司的Llama团队推荐作为标准语模型评测具20。针对安全评测与红队测试，实验室组建包括多学科专家红队，形成全系统的安全框架和规模质量安全数据，开展系列安全评测研究，构建从评测到对的LLM综合能提升闭环。作为向模型评测的站式平台，OpenCompass的主要特点为：开源

33、可复现：提供公平、公开、可复现的模型评测案。全的能维度：包含学科、语、知识、理解、推理和安全六维度，提供100+个数据集约50万题的模型评测案，全评估模型能。丰富的模型持：持100+HuggingFace 及 API 模型。分布式效评测：命令实现任务分割和分布式评测，数时即可完成千亿模型全量评测。多样化评测范式：持零样本、样本以及思维链评测，结合标准型或对话型提词模板，轻松激发各种模型最性能。灵活化拓展：由增加新模型或数据集。持定义更级的任务分割策略，甚接新的集群管理系统。组建多领域跨学科专家团队，在特定领域对模型进红队测试，形成规模质量对抗性数据，做到有针对性的补模型短板：多学科：组织包含理

34、学、伦理学、社会学、公共管理、法学、传播学等上百位专业领域员进红队测试。按照“问题集构建-模型测试-打分标注-优化提升”的逻辑搭建红队测试络，基于测试结果输出红队测试评估报告。质量：构建细粒度质量测试题集，针对GPT-?和Claude等业领先模型达到较攻破率。未来计划：开展更多专题领域攻击测试，采动攻击模型等式提对抗效率以及全性。安全评测主要关注语模型是否对类价值偏好，通过不断发现问题，反哺模型安全能的提升：20Meta,“Getting started with Llama”,2023-07-18,https:/ Model Evaluation”,2023-08-18,https:/ Da

35、rio Amodei在美国国会参议院司法委员会听证会上警告，若不加以缓解，这种险可能在未来2-3年内实现24 。缓解措施：训练过程中的直接改变使模型能够更好地区分物学的有害和害途，从有意义地减少有害输出；基于分类器的过滤器可以使恶意为者更难获得造成危害所需的多种、串联在起的专家级信息。未来计划：Anthropic正组建前沿威胁红队研究团队，并建相关险和缓解措施的披露流程。24U.S.Senate Committee on the Judiciary,“Oversight of AI:Principles for Regulation”,2023-07-25,https:/www.judicia

36、ry.senate.gov/committee-activity/hearings/oversight-of-ai-principles-for-regulation.23Anthropic,“Frontier Threats Red Teaming for AI Safety”,2023-07-26,https:/ Wang et al.,“Fake Alignment:Are LLMs Really Aligned Well?”,2023-11-10,https:/arxiv.org/abs/?.?.21Kexin Huang et al.“Flames:Benchmarking Valu

37、e Alignment of Chinese Large Language Models”,2023-11-12,https:/arxiv.org/abs/?.?.7前沿智能安全的最佳实践OpenAI：GPT-?和GPT-?V提供了完整和具体的实例在发布GPT-?的同时，OpenAI也发布了其技术报告和系统卡(system cards)档，解读其能、局限、险以及缓解措施25。同样，在ChatGPT上线能看、能听、能说的多模态版本的同时，OpenAI也发布了GPT-?V(ision)的系统卡档26。GPT-?V(ision)System Card 要点图速览2727安远AI,“GPT-?V(is

38、ion)System Card 要点图速览”,2023-09-26,https:/ Card”,2023-09-25,https:/ Report”,2023-03-15,https:/ Shevlane et al.,“Model evaluation for extreme risks”,2023-05-24,https:/arxiv.org/abs/?.?.9前沿智能安全的最佳实践DEF CON 31：设置了有史以来最规模的AI模型红队挑战赛DEF CON：全球最的计算机安全会议之DEF CON 2023在美国拉斯维加斯举办，AI作为今年科技领域的焦点，也是本次年度会议的重点之：会议设置

39、了项“成式红队挑战赛”29，要求在50分钟内破解如ChatGPT、Bard等背后的顶级成式AI模型。企业持：挑战赛还得到了宫和业领军AI企业（包括OpenAI、歌、微软、Meta和英伟达等）的持，成为“有史以来最规模的智能模型红队测试。”外部红队：据悉这场挑战赛三天共吸引了2200多参与，不仅有业著名安全专家和客，还包括220名学。以往的红队测试通常在科技公司内部进，但独客的参与使得对AI模型进公正评估成为可能。北京、上海和东：发布通智能或模型规划，提出伦理和安全评测要求北京：2023年5发布北京市促进通智能创新发展的若措施30，包括“建设模型评测开放服务平台：励第三盈利机构构建多模态多维度的

40、基础模型评测基准及评测法；研究智能辅助的模型评测算法，开发包括通性、效性、智能性、鲁棒性在内的多维度基础模型评测具集；建设模型评测开放服务平台，建公平效的适应评测体系，根据不同标和任务，实现模型动适配评测。”上海：2023年11发布上海市推动智能模型创新发展若措施（2023-2025年）31，包括“建模型测试评估中。聚焦性能、安全、伦理、适配等，建设国家级模型测试验证与协同创新中，并励模型创新企业依托中开展相关测试评估。持本市相关主体主导或参与国家模型相关标准制订。并持本市国有企事业单位开放模型应场景，优先采经测试评估的模型产品和服务。”东：2023年11发布东省政府关于加快建设通智能产业创新

41、引领地的实施意32，包括“加强评测保障技术研究：励开展通智能内容成、模型评测、险评估和监测预警研究，研究适通智能的多维度评测法，开展模型可信安全性研究，确保模型输出的准确性、创造性、鲁棒性和安全性。构32东省政府,“东省政府关于加快建设通智能产业创新引领地的实施意”,2023-11-03,https:/ the Future,“AI Village at DEF CON announces largest-ever public Generative AI Red Team”,2023-05-03,https:/ 成严重危害时，需调查是否有可以构建的具来缓解这种危害。例如在认识到智能成的童受剥

42、削和侵害内容的增加后，些社交媒体平台正在开发识别和删除童受侵害内容的具。与需要部署这些具的外部参与密切合作，以确保这些具可并满需求。例如与社交媒体平台密切合作，帮助他们开发更强的具来识别智能成的内容。应作出特别努以确保防御具在系统发布之时或之前可。险越，具越有效，提前准备防御具就越重要。可能有必要推迟系统发布，直到适当的防御具准备就绪。负责任地传播防御具，有时公开共享，有时仅与特定参与共享。在某些情况下，免费提供具（例如通过开源）可能会因为允许恶意为者研究并规避它降低其有效性。随着规避法的发现，持续更新防御具。在某些情况下，这可能是需要持续投的期努。3.与外部研究员合作，研究和评估其系统的潜在

43、社会影响研究他们部署的智能系统的社会影响，特别是通过与外部研究员、独研究机构和第三数据所有者合作。通过与互联平台等第三的数据协作，前沿智能机构可以评估其智能系统的影响。可以采隐私增强技术，在保护机密信息的同时，实现前沿智能机构、第三和外部研究员之间的数据共享。除数据外，前沿智能机构还可以通过提供必要的基础设施和算，促进对其智能系统社会影响的研究。利多学科专业知识和受影响社区的活经验来评估其智能系统的下游社会影响。考虑到泛的潜在社会影响并有意义地让受影响的利益相关群体参与的影响评估，可以帮助预进步的下游社会影响。13前沿智能安全的最佳实践利对下游社会影响的评估来验证险评估并提供参考。除更直接的险

44、外，在智能系统的险评估中还可以考虑泛失业和环境影响等下游社会影响。有关险评估最佳实践的更多信息，请参阅负责任扩展策略部分。确保公平地使前沿智能系统。研究员公平透明地获取智能系统受限访问的过程很重要。为了确保系统得到适当的理解，可以特别注意促进研究的多样性，例如不基于先前或预期的批评拒绝访问，并励不同类型的学者和第三机构研究智能系统。4.公开分享险研究成果，除分享这些成果可能会造成危害如果共享没有够实质性的负影响，励前沿智能机构泛共享这项作的成果。重点案例OpenAI：20%算投超级对(Superalignment)研究OpenAI认为，需要科学突破、社会准备和先进的安全系统来控制和集成类聪明得

45、多的智能系统，并正通过创建“超级对”(Superalignment)33和“防范准备”(Preparedness)34两个新团队来投资这些安全研究的突破。当前对智能的技术，例如根据类反馈进强化学习，依赖于类监督智能的能。但这些技术不适于超级智能，因为类将法可靠地监督聪明得多的智能系统。OpenAI设定了个标，在四年内解决这个问题，建了个名为“超级对”的新团队，由Ilya Sutskever(OpenAI联合创始兼席科学家)和Jan Leike(对团队负责)共同领导。标是构建个接近类平的对研究智能，并使量计算来扩展OpenAI对超级智能的努。OpenAI计划将其在2023年6之前所获得的算的20

46、%于超级对作35。团队将泛分享结果，以促进OpenAI模型的对和安全性。除了对超级智能的挑战之外，OpenAI认为益增强的前沿模型的滥可能会带来越来越严重的险。OpenAI还创建了个名为“防范准备”的专新团队来识别、跟踪和准备应对这些险。OpenAI计划跟踪前沿险，包括络安全、化学/物/辐射/核威胁(CBRN)、说服、主复制和适应，并分享动以防范灾难性险的影响。由于对灾难性险的实证理解还处于萌芽阶段，OpenAI将迭代更新对当前前沿模型险平的评估，以确保反映其最新的评估和监测理解。35OpenAI,“OpenAIs Approach to Frontier Risk”,2023-10-26,h

47、ttps:/ risk and preparedness”,2023-10-26,https:/ Leike&Ilya Sutskever,“Introducing Superalignment”,2023-07-05,https:/ Olah,“How Hard is AI safety？”,https:/ Capabilities)和对科学(Alignment Science)这3个领域，前最为关注的向是：机制可解释性(Mechanistic Interpretability)、可扩展的监督(Scalable Oversight)、向过程的学习(Process-Oriented Learn

48、ing)、理解泛化(Understanding Generalization)、检测危险的失败模式(Testing for Dangerous FailureModes)、社会影响和评估(Societal Impacts and Evaluations)。Anthropic的个关键标是加速安全研究的发展，并尝试覆盖更泛的安全研究范围，从那些安全挑战容易解决的场景到那些创建安全系统极为困难的场景。延伸阅读歌DeepMind：积极投资更泛的AI安全研究和态建设歌DeepMind有多个团队全职研究智能伦理、安全和治理，这些团队旨在了解和缓解当前系统的已知险和更强系统的潜在险，并使它们符合类利益。歌和

49、DeepMind还持更泛的AI安全研究和态建设。数字未来项：歌于2023年9宣布启动其中包括项2000万美元的基，该基将为研究和励负责任的智能开发的领先智囊团和学术机构提供资助。这些机构正在研究智能对全球安全的影响等问题；对劳动和经济的影响；什么样的治理结构和跨业努可以最好地促进智能创新的责任和安全38。AI安全基：2023年10，歌、微软、OpenAI和Anthropic发布联合声明，任命“前沿模型论坛”(Frontier Model Forum)任执董事，并宣布设1000万美元的AI安全基，以推动正在进的具研发，帮助社会有效地测试和评估最有能的AI模型39。39OpenAI,“Fronti

50、er Model Forum updates”,2023-10-25,https:/ Hoyer Gosselink,“Launching the Digital Futures Project to support responsible AI”,2023-09-11,https:/blog.google/outreach-initiatives/google-org/launching-the-digital-futures-project-to-support-responsible-ai/.16、优先研究智能带来的险国内外顶尖科学家：多次呼吁30%以上的研发投于AI安全研究重磅论：20

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？