2024大模型安全与伦理研究报告.pdf

资源描述

1、14俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦訅酽覈俋浧矇僨嗴獻1.1 俋浧矇錨桹醭讜鲋酛浧矇艊竑砎嶗獻1.2 俋浧矇恖梮鎢僨嗴甡媆昦艊AI噯1.3 趵鄽鉚俋浧矇艊僨嗴粷笶1.4 俋浧矇僨嗴艊恖梮昦誤謭訅鲈覈俋浧矇酓呏瑪夃棾艊梽醮慙徔2.1 梽俋浧矇鮪呏瑪鄓獿夃棾昦艊姉羮嶗亱敱楇2.2 慙徔俋浧矇姉羮忞踮艊呏瑪慙徔訅醑覈俋浧矇呏瑪橅楯3.1 俋浧矇呏瑪橅楯艊熱僨砎3.2 俋浧矇呏瑪橅楯艊呺屒3.3 俋浧矇呏瑪橅楯艊恖梮醎姪010203060911121525262728唪柠1235363746495458596061656668訅蠐覈俋浧矇呏瑪艊桭長呺會熴4.1 Promp

2、t呏瑪牣4.2 俋浧矇鰤聶敜甡鄨4.3 俋浧矇瑧魍蔅呏瑪悜呺4.4 俋浧矇蕬昻甗爗呏瑪悜昷橉訅鲕覈俋浧矇麽過唻艊嗴嶗獻5.1 俋浧矇呏瑪嶗唻彾踵瑪絑屟5.2 AI麟趵慁醁扢呏瑪嶗唻昷艊靕嬣扥昻5.3 俋浧矇麽過唻艊恖梮嶗熎絔昷橉5.4 俋浧麽過唻踮艊踽慙徔5.5 俋浧矇呏瑪嶗唻艊鲅嶗頌杛訅嗎覈俋浧矇呏瑪嶗愛絔梥棾獻456011渚1泓谨殃挤惰凌龔悼在当前快速发展的数字化时代，人工智能技术正在引领科技创新的浪潮，而其中的大模型技术被视为人工智能的一项重大突破，让人工智能领域迎来发展的转折点。归功于深度学习的发展和硬件计算能力的提升，大模型能够在自然语言处理、计算机视觉、语音识别等领域展现出卓

3、越的表现，随着大模型的不断演进和优化，它们在商业领域的应用也越来越广泛，金融、医疗、广告、营销等领域都能够通过大模型实现更精准的用户推荐和个性化服务。02俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦1.1 俋浧矇錨桹醭讜鲋酛浧矇艊竑砎嶗獻第一，大模型和传统模型在规模上存在差异。大模型是基于深度学习的方法，具有更多的参数和更复杂的模型结构，往往具有数十亿百亿千亿以上个参数。这样庞大的参数量使得大模型能够更好地捕捉数据中的复杂模式和特征，通过多层次的神经元连接和权重调整，能够学习到更丰富的语义和特征表示，从而提升了模型的表现能力。第二，大模型和传统模型在训练数据上存在差异。大模型能够更好地

4、捕捉数据中的统计规律和模式，提高模型的泛化能力和预测准确性。然而，海量训练数据中也可能包含着一些敏感数据和个人信息，这使得数据泄露和隐私侵犯的风险不可忽视。一旦这些敏感信息遭受泄露，个人隐私权益可能会遭受严重损害，甚至被用于恶意行为，这些恶性事件的发生不仅会给受害者带来经济损失，还可能引发社会的恐慌和对大模型的信任危机。第三，大模型和传统模型在计算资源上存在差异。由于大模型具有更多的参数和更复杂的模型结构，因此需要更多的计算资源进行训练和推理。传统模型通常可以在较低的计算资源下进行训练和推理，而大模型则需要更强大的计算设备和算力支持。因此，大模型的发展进步与深度学习和硬件计算能力的提升密不可分

5、，硬件计算能力的提升也为大模型的训练和推理提供了强大的计算支持。第四，大模型和传统模型在任务表现上存在差异。由于大模型具有更强大的表达能力和更多的参数，因此在许多任务上展现出更好的性能。而传统模型通常只能在一些简单的任务上表现良好，但在复杂的任务上往往无法达到大型模型的水平。而大模型的强大能力也是一把双刃剑，它也可能被用于进行各种形式的恶意攻击。恶意使用者制造的虚假信息，借用大模型的能力，可能放大危害结果，例如在社交媒体平台上传播误导性信息，从而扰乱社会秩序。此外，大型模型的使用往往涉及到社会伦理和法律问题。例如，算法的歧视性问题，即模型在处理数据时产生的不公平或偏见，可能引发社会的不满和争议

6、。第五，大模型和传统模型在可解释性上存在差异。传统模型通常具有较好的可解释性，可以清晰地解释模型的决策过程和特征权重。而大模型由于参数数量庞大和模型结构复杂，往往难以直观地解释其决策过程。此外，大模型本身也很容易成为攻击者的目标。模型参数和权重的泄露可能导致知识产权的损失，甚至使恶意使用者能够复制或修改模型，进一步加剧风险。对模型03的针对性攻击，如投毒攻击，可能会导致模型输出产生不良影响，从而影响到正常的业务运营。综上所述，建立可靠的大型模型安全风险控制体系势在必行。本白皮书旨在全面探讨大模型安全与伦理问题，并为各界提供指导，以确保大型模型在广泛应用中的安全性和可信度。通过深入分析大型模型领

7、域的安全挑战，我们可以制定切实可行的措施，确保大型模型在为人类创造价值的同时，也能够保障个人隐私、社会稳定和信息安全。1.2 俋浧矇恖梮鎢僨嗴甡媆昦艊AI噯大模型通常指具有大量参数以及复杂结构的神经网络模型，这些模型通常需要大量的数据和计算资源进行训练，以实现较高的性能和泛化能力。在以GPT为代表的一系列大模型真正兴起之前，相关的技术以及训练的范式也早已孕育。1.2.1 薴鬣蕬算力这一问题在过去一直制约着深度学习发展。在深度学习模型中，存在着以亿计的参数，并且这些参数需要进行大量的运算才能够推理出最后需要的特征或结果。GPU提供了高效的并行计算能力，极大地加速了模型的训练过程。这一技术突破使得

8、研究人员能够处理规模更大、复杂度更高的模型。1.2.2 餱媀嶗浧矇酁椨艊敘黌早期的神经网络因为结构简单，针对不同的任务分化出了不同的应用方向，例如计算机视觉，自然语言处理，语音等等。但是在2017年，随着Google团队的Transformer架构出现，这一模型在自然语言处理的问题当中取得了惊人的成功，该模型架构仅有Attention机制组成，能够实现自然语言文本的翻译。大模型的萌芽最早诞生于自然语言处理领域，Transformer取代了ResNet等模型架构成为了研究的主流，谷歌和微软分别针对Transformer的编码部分以及解码部分进行研究从而产生了两条技术路线，即以Bert为代表的仅用

9、编码器部分的路线和以GPT为代表的仅用解码器部分的路线。04俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦图 1：Transformer结构（来源：来自Google论文Attention Is All You Need）而Bert以及GPT都用到了预训练的训练范式，也即是利用大量的数据训练一个基础模型，然后在下游任务上进行一点微调就能够在相应的任务上得到很好的性能表现。05图 2：BERT结构（来自Google论文BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding）而真正让大模型进

10、入公众视野的正是以GPT-3.5为基础构建的ChatGPT，OpenAI基于前几代GPT的架构，在增加了参数量以及训练数据量之后，呈现出了一种涌现的能力。也即随着规模的增加，大模型的能力得到了一个飞跃式的提升。从2022年以来，以LLM(大语言模型)为首的大模型如井喷式的发展，在GPT之后，Meta公司也开源了他们的大模型LLaMA，为学术界以及工业界提供了另一种可选项。大模型的发展并不是一蹴而就，而是由多方条件达到成熟之后自然而然涌现出的，基于硬件的发展以及对于数据科学的进一步认识和模型结构的更新，大模型以其强悍的能力自然而然成为了当下研究的主流。然而，在大模型快速发展的过程中，深度学习固有

11、的一些问题，也在大模型当中延续，这也是后续大模型相关的安全伦理研究也是非常重要的一点。06俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦1.3 趵鄽鉚俋浧矇艊僨嗴粷笶 1.3.1 OpenAI GPT姃燒早在2018年6月，OpenAI就已经发布了第一个GPT模型，但模型参数量仅有117M。后续OpenAI陆续发布了GPT-2和GPT-3，GPT-3是第一个大语言模型，参数量高达1750亿。2022年11月底，OpenAI发布一款对话型AI模型ChatGPT，以其出色的交互式对话能力和理解推理能力引领了大模型的发展潮流。2023年3月，OpenAI继续发布了多模态预训练大模型GPT-4。

12、GPT-4实现了几个方面的飞跃式提升：强大的识图能力，文字输入上限提升至2.5W字，回答的准确性也显著提高，甚至能够生成歌词等创意文本。GPT-4在各类专业测试和学术基准上的表现与人类水平相当，甚至通过了模拟的律师考试，且分数在应试者的前10%左右。图 3：GPT在学术和专业考试中的表现（来源：https:/ Meta LLaMA姃燒2023年2月24日，Meta公司发布了一款名为LLaMA（Large Language Model Meta AI）的基础大语言模型，该模型有四个版本，分别是7B、13B、33B、65B。因为模型被泄露，模型权重可以在网上搜索下载，使得LLaMa也成为最亲民的大

13、模型。紧跟着在2023年7月，Meta又发布了LLaMa的下一代版本LLaMa 2。LLaMa 2有3种不同尺寸：7B、13B和70B。相对于LLaMa，LLaMa 2进行了2万亿个token的训练，上下文长度是LLaMa的两倍，其中LLaMa-2-Chat模型还进行了超过100万个人类注释的训练。此外，LLaMa 2训练语言也比LLaMa多出40%，上下文长度由2048提升至4096，可以理解和生成更长的文本。图 4：LLaMA2示例图（来源：https:/ Google Gemini2023年12月6日，Google CEO Sunder Pichai官宣Gemini 1.0版本正式上线。

14、Gemini可以接受文本、代码、视频、音频和图像等各种类型的输入和输出，具备学习和推理能力。Gemini是一个多模态模型。传统的多模态模型是在第二阶段的时候，将纯文本、纯视频、纯音频模型连接到一起，分别进行不同模态的任务处理，再汇聚到一起；而Gemini从一开始就对不同的模态进行预训练，然后再用多模态数据对其进行微调，使得模型更加高效。一般大模型在输入为音频内容时，会优先将音频内容转换为对应文本内容再进行文本理解，但这个过程会损失许多中间信息，如发音的音色、语气等。为了解决这个问题，Gemini基于原生多模态模型可以实现了针对原始音频的端到端处理，能够很好识别音色、发音、预期等细节，更好理解用

15、户需求。图 5：Gemini原生多模态大模型训练方法091.4 俋浧矇僨嗴艊恖梮昦誤謭1.4.1侸浧尓椷跫翨艊梪棾妛呺粷醑羠醐窹￥多模态是人类世界的本来样貌，AGI的发展趋势一定是朝向多模态。技术将从文本、图像、视频（2D和3D），再到声、光、电，甚至分子、原子等各类模态，而且具备跨模态迁移的特性。未来理想的框架是“多模态的对齐和融合+统一的编码器和解码器”。12月6日微软发布的Copilot中，将GPT-4V的视觉能力与Bing搜索相结合，为用户提供更好的图像理解和生成体验。7日，谷歌发布Gemini，主打原生大模型，无缝跨文本、图像、视频、音频和代码。谷歌称，Gemini是第一个在MMLU

16、(大规模多任务语言理解)方面优于人类专家的模型，准确率达到90%（人类专家为89.8%）。1.4.2 鞲俋閠勢Agent俋浧矇鞲CoPilot謄謭踽比尔盖茨近日撰文：AI Agent将是下一个平台，人工智能即将彻底改变人们使用计算机的方式并颠覆软件行业。在不久的将来，任何上网的人都将能够拥有由人工智能驱动的个人助手，远超今天的技术水平。智能体由四个主要部分组成，包括多模态大模型（LMM）、长期记忆（Memory）、规划（Planning）和工具使用（Tool Use)。业界AI智能体愈来愈多，如微软AutoGen，发布短短两周内，星标量就从390增到10K，并在 Discord上吸引了5000

17、多名成员。它允许多个智能体扮演各种角色，如程序员、设计师，或是各种角色的组合，仅通过对话就可以完成编程任务。1.4.3 覜擔俋浧矇鎢鉣徏啔彾踵梥棾鲮鲒昦駱訥大模型正在向端侧转移，AI推理将在在手机、PC、耳机、音箱、XR、汽车，以及其它可穿戴式新型终端上运行。端侧大模型具有一些独特优势，如，本地数据处理效率更高，节省云端服务器带宽和算力成本，对用户数据更好的隐私保护，开启更多交互新方式、新体验等。目前，一些手机已经在利用本地 AI支持如暗光拍摄、降噪和人脸解锁等功能。未来借助端侧大模型，并结合向量化后的各类个人数据，用户可以跟手机进行更流畅的交互，实现各种原生操作和功能。如，Humane 正式

18、推出 AI Pin，搭载GPT4，可实现语音交互，也可以投影在手10俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦掌上交互。高通推出骁龙8 Gen3，支持终端侧运行100亿参数的模型。苹果最新的M3芯片支持端侧推理，且计划推出更智能的Siri，为端侧大模型生态做积极准备。端侧大模型应用具备三种可能性，首先是端侧原生集成AI模型，类似Siri，帮助用户调用其他软件，从而可能成为硬件新入口。其次，将大模型作为独立app，例如MIT一位教授将开源模型集成在手机端做一个独立app；第三，将大模型接入即时通讯软件作为chatbot，例如Whats App已经集成了Meta AI。1.4.4 AI錫

19、撾蟨蔠扜踆褀蟨蔠瑪蠿在AI技术的加持下，科学研究的效率大大增加。通过理论探索、设计实验、分析数据等方向为科学发现提供动力。AI与各个科学领域结合后，正在发生一场充满潜力和挑战的科技革命。在理论探索阶段，以ChatPDF为代表的LLM应用可以对既有文献的梳理，加快科研信息检索的效率，在此基础上提出新的研究问题，对现象和数据观察提出某种猜想，帮助科学家发现新问题。在数据分析阶段，AI可以通过大量数据和复杂的数据分析，帮助提取有用信息和填补数据缺失，从而提高数据质量和利用效率。降低对数据的依赖。在处理高度复杂和多变量的科学问题时，大模型能提供高效的计算能力和深入的洞见。在科研领域，生成式AI被用于预

20、测基因序列、发现新的药物靶点以及设计新型的生物材料。使用深度学习技术，研究人员能够预测DNA和RNA结合蛋白的序列特异性。这是应用卷积神经网络（CNN）于基因组学的先驱性工作之一。如，麻省理工学院（MIT）的研究人员开发出一种扩散模型FrameDiff，该模型能够生成自然界中不存在的新型蛋白质结构。该模型可以生成多达500 个氨基酸序列的蛋白质主链，且无需依赖于预训练蛋白质结构预测网络。Nature杂志近日报道，一个由AI 指导机器人制造新材料的实验室A-Lab，只用了 17 天就独自创造了 41 种新材料，展现了AI科学家的未来潜能。11渚泓谨殃挤杼郎橙璣假孟锡呱伍絡=绅惹212俋浧矇呏瑪

21、醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦2.1 梽俋浧矇鮪呏瑪鄓獿夃棾昦艊姉羮嶗亱敱楇2.1.1 儨鑚櫩牣嶗嬿大模型可以用于识别和预测网络威胁，例如恶意软件和网络攻击。一个具体的案例是使用大模型对网络流量进行分析，以识别恶意活动。通过对大量的网络流量数据进行训练，大模型可以学习到各种恶意行为的模式和特征，如DDoS攻击、SQL注入和恶意软件传播等。这样，安全团队可以使用大模型来监测网络流量，及时发现和阻止潜在的威胁。案例一：谷歌Chronicle谷歌的Chronicle是一种基于大模型的威胁检测和防御解决方案。它利用谷歌的大数据和机器学习技术，从全球网络流量中检测异常行为和恶意软件。Chro

22、nicle不仅可以实时监控网络流量，还可以分析历史数据，发现潜在的威胁和攻击模式。图 6：谷歌Chronicle解决方案（来源：https:/chronicle.security/platform/）132.1.2 魍蔅甗爗櫩牣嶗販侟漏洞检测和代码审计是两种密切相关的安全实践，在软件开发和安全领域都有重要作用。漏洞挖掘是对代码进行静态或动态的安全分析，以发现代码中存在的潜在漏洞或风险。代码审计重在对代码的静态分析，以查找可能存在的漏洞、弱点和安全风险，从而提高代码质量，降低开发成本，提升安全防护能力。案例二：使用GPT-3检测Python代码中的安全漏洞一组来自美国和欧洲的研究人员使用了GPT

23、-3模型来检测Python代码中的安全漏洞。他们首先从Python的官方库和第三方库中收集了大量的代码样本，并将这些代码样本标记为有漏洞或安全。然后，他们使用这些数据来训练GPT-3模型，以便模型可以学习如何检测安全漏洞。研究人员使用了多种评估指标来评估模型的性能，包括准确率、召回率和F1得分。结果表明，GPT-3模型可以有效地检测Python代码中的安全漏洞，其性能与专业的安全审计工具相当。案例三：Google的LaMDA模型被用于自动修复代码Google的LaMDA模型是一个128亿参数的对话生成大模型。该模型被训练用于自动修复代码。在训练过程中，LaMDA会学习从代码中找出漏洞并修复它们

24、。LaMDA通过对比修复前后的代码来评估其修复建议的有效性。此外，LaMDA还可以生成针对特定漏洞的测试用例，以帮助开发人员验证修复是否有效。14俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦2.1.3 杶镾誼呏瑪鬫智能化安全运营是近期热门话题，人们希望借助数字化转型的机会，利用大数据、机器学习和自动化等技术来超越传统的被动响应模式，以此来解决安全人力不足，安全事件频繁，调查处理周期长，忙于应急响应等困境。案例四：微软Security Copilot微软在2023年3月宣布推出Security Copilot服务，并声称这是世界上第一款基于生成式AI的安全产品。Security Copi

25、lot是网络安全专业人员的新助手，能够帮助防御方发现漏洞、更好地理解日常出现的大量信号与数据。图 7：微软安全大模型Security Copilot（来源：https:/ Copilot的应用场景主要是：协助安全分析师工作，并且包含供同事协作和信息共享的记事板功能。安全人士可以在Security Copilot的帮助下开展事件调查、快速总结事件经过、高效整理事件报告。Security Copilot支持自然语言输入，安全人员可以要求其为特定漏洞生成摘要，并向其“输入”文件、网址或代码片段以供分析，甚至要求它提供来自其他安全工具的事件和警报信息。所有提示和响应内容均被保存，以供调查人员进行完整的

26、审计跟踪。结果可以被固定并汇总至共享工作区当中，这样同事们就能在同一背景下开展威胁分析和调查，这就像为调查人员提供单独的工作区和共享笔记本，帮大家共享自己的当前工作内容。2.2 慙徔俋浧矇姉羮忞踮艊呏瑪慙徔大模型已经被广泛证实可以在许多领域提升工作效率，改变生产方式，创造经济价值。尽管如此，由于大模型的数据采集、训练、精调、部署等流程相比于通常模型更加复杂，其中的许多不可控因素带来了不容忽视的安全隐患问题。本节从数据隐私安全、模型推理安全及内容合规等角度阐述大模型应用所面临的诸多安全挑战。2.2.1 斶懪蟔呏瑪大模型的训练依赖于大规模高质量的数据集，训练集的来源包含网页获取、众包标注和开源数

27、据等。一方面，这些来源没有经过严格的可靠性验证，其中可能包含恶意模式，例如被广泛验证的后门攻击，攻击者通过篡改少部分的训练样本并植入触发器，使得最终模型在正常测试样本上表现异常，却会在包含触发器的样本上预测错误；另一方面，训练数据是否获得相关利益方的批准，也是一个十分棘手的问题，例如某些数据会涉及人物的肖像权或其他隐私信息（年龄、工作、籍贯等）。因此避免侵权行为，保证训练数据合规是大模型训练要解决的关键挑战。鄨斶懪艊蟔呏瑪、16俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦由于先进的语言模型训练成本高昂，大多数从业者不得不倚重于有限的公开可用的语言模型或其相关API。这种对少数模型的信赖

28、加剧了后门攻击的威胁，即攻击者操纵机器学习模型，使其在面对含有预定义后门触发器的输入时执行恶意行为。论文Backdoor Attacks for In-Context Learning with Language Models证明了该攻击方法的可行性。大语言模型提供者在他们的模型中嵌入了一个后门，针对于情感分类任务。在情感分类的大多数输入中，语言模型表现正常，但当输入包含后门触发器“实例”一词时，它总是预测负面情绪。后门模型还保留了对其他任务（如主题分类和机器翻译）进行上下文学习的能力。该项后门攻击针对GPT-Neo models(1.3B)、GPT-Neo models(2.7B)、GPT-

29、J(6B)和GPT-2 XL(1.5B)均被证明有效。图 8：大模型后门攻击示例（来源：https:/arxiv.org/pdf/2307.14692.pdf）扢絔瀇艊蟔呏瑪、隐私问题同样存在于大模型的推理阶段。攻击者可根据模型输出判断某样本是否存在于训练集中，这类攻击被称作成员推断攻击，会暴露某些具有敏感信息的样本来源。更有甚者可逆向优化出部分训练数据。因此，如何确保攻击者无法从与大模型的交互中获取训练样本信息是亟待解决的关键问题。发布在私有数据集上训练的大型（十亿参数）语言模型已经变得很常见。论文Extracting Training Data from Large Language Mo

30、dels证明在这种情17况下，攻击者可以通过查询语言模型来执行训练数据提取攻击，以恢复单个训练示例其展示了对GPT-2的攻击，GPT-2是一种在公共互联网上训练的语言模型，能够从模型的训练数据中提取数百个逐字逐句的文本序列。这些提取的示例包括（公共）个人身份信息（姓名、电话号码和电子邮件地址）、IRC对话、代码和128位UUID。即使上述序列中的每一个都包含在训练数据中的一个文档中，攻击也是可能的。论文全面评估了提取攻击流程步骤，以了解其成功的因素。令人担忧的是，大模型比小模型更容易受到攻击。图 9：大模型隐私数据泄漏攻击（来源：https:/www.usenix.org/system/fil

31、es/sec21-carlini-extracting.pdf）浧矇嶗斶懪鮪跤艊呏瑪、大模型和数据的传输存在被第三方恶意截获的可能。一方面被截获的数据中可能存在对社会和个人影响较大的重要信息，例如金融数据、医疗数据、居民身份数据等，第三方如果将这些信息泄露给不法分子，会严重影响社会稳定和公民权益。另一方面，由于大模型本身具有强大的知识储备和逻辑推理能力，攻击者可利用大模型实施不法行为，危害社会安全。因此，在传输大模型和相关数据时，应采取必要措施，避免上述问题发生。18俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦2.2.2 浧矇扢絔呏瑪抲蛵燍駱敜韌、大模型与人类的交互依赖于对自然语言的处

32、理和分析，由于大模型不容易区分系统指令和用户输入，这就为提示注入攻击提供了可能。在提示注入攻击中，攻击者可以利用模型对上下文信息的依赖性和对自然语言的理解能力，通过精心设计攻击提示，操纵模型的输出结果。一个典型的提升注入攻击例子是角色扮演。通常情况下，大模型会避免提供可能会危害社会安全的回答，通过让大模型扮演某些新角色，逃避原有限制，提供原本拒绝输出的信息。另外，攻击者还可以利用字符串拆分拼接等方式，分散大模型注意力，使大模型暂时忽略校验输出内容。攻击者可以在一个问题中注入虚假信息，误导模型得出错误的答案；或者在多个问题中注入相关信息，使模型在推理过程中出现偏差。这种攻击会严重影响用户的使用体

33、验，同时如果恶意提示包含类似于种族政治等敏感信息，则会进一步激发社会矛盾。因此，如何提升大模型对提示注入攻击的防范能力是需要解决的严峻问题。由于大型语言模型能够生成大量的令人反感的内容，最近的研究集中在调整这些模型以防止产生不良结果。尽管已经取得了一定的成功，例如针对大型语言模型的所谓“越狱”攻击，但这些攻击需要相当的人类智慧，并且在实践中易受损。自动生成对抗性提示的尝试也取得了有限的成功。论文Universal and Transferable Adversarial Attacks on Aligned Language Models提出了一种简单而有效的攻击方法，使得经过调整的语言模型产

34、生令人反感的行为。具体而言，该方法找到一个后缀，当它附加到大型语言模型的一系列查询中以生成令人反感的内容时，目标是使模型产生肯定的回应（而不是拒绝回答）。然而，该方法不依赖于手动工程，而是通过贪婪和基于梯度的搜索技术的组合自动生成这些对抗性后缀，并改进了过去的自动提示生成方法。令人惊讶的是，该方法生成的对抗性提示具有很强的可迁移性，包括对黑盒、公开发布的大语言模型。具体来说，该方法在多个提示（即询问多种类型令人反感内容的查询）以及多个模型（Vicuna-7B和Vicuna-13B）上训练对抗性攻击后缀。生成的攻击后缀能够在ChatGPT、Bard和Claude等以及LLaMA-2-Chat、P

35、ythia、Falcon等开源大语言模型中引发令人反感19的内容。这种攻击迁移的成功率在基于GPT的模型上更高，这可能归因于Vicuna本身是在ChatGPT的输出上进行训练的。图 10：大模型提示注入攻击（来源：https:/arxiv.org/pdf/2307.15043.pdf）侳鰓壉熼誼、大模型在处理自然语言时会面临分布偏移的问题，即用户输入分布与模型训练集分布存在偏差，例如用户提示词为微博风格而模型训练语言为新闻风格，这种语言风格的差异会造成大模型处理信息不准确，进而输出不合适的内容。目前针对普通模型的外分布泛化困难问题，研究者可利用数据增广等方式提升模型能力，然而，大模型面临的外分

36、布泛化问题更为严峻，用户输入语言风格多样性会给这一问题的解决增加更多困难，因此如何设计更好的方案提升大模型外分布泛化能力是个重要的挑战。俋浧矇妢、大模型幻觉是指大模型生成无意义或与用户提示词不对应的内容，通常包含与用户输入冲突幻觉、上下文冲突幻觉和事实冲突幻觉。这种幻觉会给用户带来理解偏差甚至误导用户产生错误决策。大模型幻觉是训练数据质量不够高和训练流程中的不完备造成的。因此，一方面，研究者可对现有数据做更严格人工筛选，剔除可能引入幻觉的数据；另一方面，研究者可从可控文本生成、强化学习、多任务学习或者输出后处理等角度缓解大模型幻觉问题。同时，当用户与大模型交互问答时，也可以要求用户提供更多背景

37、知识和更20俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦细粒度的问题拆解，有助于模型输出更可靠的回答。然而，现有改进方法通常难以取得令人满意的表现，因此如何针对大模型幻觉提出更加切实有效的措施是需要解决的关键问题。大语言模型（LLM），包括GPT-3.5、LLaMA和PaLM，似乎知识渊博，能够适应许多任务。然而，我们仍然不能完全相信他们的答案，因为LLM具有幻觉编造不存在的事实，在没有感知的情况下欺骗用户。它们存在和普遍存在的原因尚不清楚。论文LLM Lies:Hallucinations are not Bugs,but Features as Adversarial Exampl

38、es证明了由随机标记组成的无意义提示也可以引发LLM产生幻觉。这一现象重新审视幻觉可能是对抗样本的另一种观点，它与传统的对抗样本有着相似的特征，这是LLM的基本特征。因此，自动幻觉触发方法形式化为对抗性的幻觉攻击。图 11：大模型幻觉攻击示意图（来源：https:/ calling）。然而，这种交互方式也为安全问题埋下了隐患。在大模型需要调用后台函数来辅助回答问题的过程中，模型会抽取所需的信息，并以参数形式传入接口。然而，这些参数可能是不安全的，比如在数据库查询语句中，可能会传入SQL注入的语句。除此之外，恶意代码和恶意命令也可能通过这种方式被执行，从而导致安全问题。为了解决这些安全问题，开发

39、者需要采取一系列措施，比如对接口进行严格的输入检查和过滤，以及对模型本身进行安全性评估和测试，以确保其在各种情况下都能保持安全和稳定。21对抗攻击是指通过优化方法自动寻找特定的输入数据，使得机器学习模型产生错误或者不符合预期的输出。这些攻击主要针对模型的漏洞和缺陷，利用模型在某些情况下的不稳定性，以达到攻击者的目的。对于大语言模型，对抗攻击可以和提示词注入攻击进行结合，通过对抗攻击的优化方法生成恶意提示词，并通过这些提示词完成越狱，进而诱导模型输出侵犯隐私或者令人不适的不合规的内容。对于不同的提示词注入攻击，研究人员和开发者可以通过将已知的恶意提示词加入黑名单或利用这些提示词做拒绝回答的微调来

40、防御。但对抗攻击是一种基于优化的攻击，其生成的恶意提示词比人工编辑的提示词要更具多样性，很难通过上述方式进行防御，是一种更有威胁的攻击方式。唻悇敜韌、謚敜韌、后门攻击是一种特殊的安全威胁，攻击者通过在训练数据中植入特殊的输入输出对，使模型在学习过程中过拟合这些特殊关联，进而系统或模型中植入一个特定的触发条件，以便在未来的某个时间点通过该条件来控制系统或模型。后门攻击的触发条件通常是预先定义好的，例如在人脸识别任务中，攻击者可能将“墨镜”作为后门，导致模型在识别戴墨镜的人时出现错误结果。由于大语言模型具有复杂的结构和巨大的参数空间来实现这种过拟合，这种风险在大语言模型中尤为突出。在大语言模型中的

41、在预训练和微调阶段，如果数据清洗不充分，使得后门样本混入训练数据，（比如使用了恶意用户的交互历史作为训练数据），可能在模型中植入后门。这种后门在模型推理时可能被触发，使模型输出特定的回答，这些回答可能包含错误的知识、偏见和政治敏感话题。为了防范大语言模型中的后门攻击，研究人员和开发者需要加强数据清洗和审查，确保训练数据的安全可靠。此外，还需要加强模型的可解释性和可审查性，以便在后门攻击发生时能够及时发现并采取措施。2.2.3 俋浧矇穼棈墮悜大模型的数据采集和训练流程需要大量计算资源和经济投入，作为一种珍贵资源，如何确保模型持有者拥有对大模型的版权收益是极为重要的研究问题。一方面，大模型能力高低

42、可以反映出各家科技公司在人工智能领域的技术积累，如果出现违规盗用其他模型的情况，对被盗用方会造成较大损失，也会影响未来对人工智能技术研究的积极性。另一方面，大模型本身具有百22俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦科全书式的知识储备和与人类相仿的推理能力，当这种能力被恶意利用时，需要根据模型版权明确责任。目前学术界有提出模型水印概念，用来判断模型版权来源，然而模型水印存在降低大模型泛化能力或者容易被微调消除等缺点，因此探索更加可靠的大模型版权保护方法是未来要解决的关键挑战。大语言模型的潜在危害可以通过对模型输出进行水印处理来减轻，即将信号嵌入到生成的文本中，这些文本对人类来说是不

43、可见的，但在算法上可以从短时间的标记中检测到。我们提出了一个用于专有语言模型的水印框架。水印可以嵌入，对文本质量的影响可以忽略不计，并且可以使用有效的开源算法来检测，而无需访问语言模型API或参数。水印的工作原理是在生成单词之前选择一组随机的“绿色”标记，然后在采样过程中轻轻地促进绿色标记的使用。论文A Watermark for Large Language Models提出了一种检测具有可解释p值的水印的统计测试，并推导了一个分析水印灵敏度的信息论框架。该论文使用来自开放预训练变换器（OPT）家族的数十亿参数模型来测试水印，并讨论鲁棒性和安全性。图 12：大模型水印示意图示意图（来源：ht

44、tps:/arxiv.org/pdf/2301.10226.pdf）232.2.4 俋浧矇廟咷呏瑪大模型是一个复杂的黑箱，拥有复杂的结构和巨大的参数量，这赋予了大模型强大的表达能力，能处理大量来自不同领域的信息。但是也由于模型的黑箱性，其可解释性较差、存在输出不可控的问题（例如大模型幻觉）。具体来说，大模型的黑箱性质使得使用者难以理解模型内部的运作方式，无法解释模型为何会做出某个预测或决策。并且由于模型的数据来源复杂，且模型会基于用户的输入产生输出，因此模型可能会产生不符合事实、含有偏见、不符合伦理规范、不符合法律规定等有问题的回答。这对模型的内容安全造成了严重的挑战。虽然研究人员可以通过微调

45、来对齐模型的输出，使模型输出符合人类社会的规范，但这种基于有监督训练的方法，仍然无法保证其在超出训练样本之外的情况下，仍能保持输出的合法合规性。例如，经历过RLHF微调的ChatGPT仍然有被越狱的风险，导使其被操控输出不合规内容。这对大模型内容安全提出了严峻的挑战。藥塒懷艊廟咷、由于原始的数据中可能包含社会中广泛存在的偏见和歧视、以及数据集本身的偏差或是模型学习的过程中出现的偏差，都有可能使得模型学到了有偏见的内容，进而产生有偏见的输出。敤熎敽巃廟咷、由于模型在训练时可能使用的某些网站的文本内容或是用户进行了恶意的引导，模型有可能会输出一些政治敏感内容，对企业的形象和政府关系产生不利影响。熴

46、笩鉖廟咷、由于模型的训练数据集中包含有违法犯罪相关信息，且目前的模型对齐方法无法保证模型在推理时能对所有有问题的输入进行拒绝回答，模型可能会输出违法犯罪相关的内容。例如ChatGPT-3.5在被越狱的情况下，可以被诱导生成炸弹的制备方式。对于这些问题，可以通过清洗数据集来净化模型的知识，也可以使用内容审核系统在模型微调时辅助打分，亦可以在推理时利用现有的内容审核系统对模型输出做最后的把关。廟咷、这里的内容违规问题指模型的输出包含明显的违规信息，违规内容包含如下几点：24俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦瓙羮、这里的滥用问题指虽然模型的输出不包含明显的违规信息，但模型事实上为恶

47、意用户提供了帮助。由于大模型的训练代价高，无法通过更新参数的方式与时俱进了解时事，因此无法对用户提供的信息判断真伪。因此，恶意用户可以向模型提供假消息，进而利用模型表达能力强的特点，生成以假乱真的谣言和虚假消息等，造成严重的社会恐慌、经济动荡和公信力下降。同时，恶意用户也可以通过拆解步骤，通过模型一步步完成恶意行为。例如，当恶意用户想要编写监听键盘输入的木马并通过钓鱼邮件发送给受害者时，如果恶意用户直接询问模型如何完成这件事时，会被模型拒绝。但恶意用户可以将任务拆解为“写一封电子邮件并让收件人点击附件”与“编写程序监听键盘输入”两个部分，并在不同的会话中进行询问，将最后的结果进行简单的组合，绕

48、开模型的拒绝机制。如何解决模型的滥用问题，仍需要进一步的探索。253渚8泓谨殃挤郎橙些先新技术的发展往往伴随新的安全风险。例如大模型屡见不鲜的幻觉问题，大模型在不具备某种问题的回答能力时，往往不会拒绝回答，而是输出看似正确的错误答案。大模型输出的内容也可能出现包含恐怖、色情、暴力的有害信息。另外，由于大模型的训练往往爬取了互联上海量的数据进行训练，这些数据内容繁杂、质量参差，这些数据中既有可能包含用户个人隐私信息，大模型的记忆能力极有可能导致这些隐私信息的泄漏。在人工智能安全领域，通用的数据安全问题和模型安全问题在大型模型中依然存在相似的风险。总的来说，大模型同样具有通用人工智能面临的安全风

49、险问题，同时引入了一些大模型场景中特有的安全风险。因此，如何安全、可控地应用大模型相关技术尤为关键。大模型安全作为一个新兴的安全领域，多家头部企业、安全团队均在积极探索潜在安全问题及风险收敛的解决方案。然而，目前行业内还未形成成熟完善的解决方案，仍处于探索阶段。为此，我们围绕大模型生产研发流程设计了大模型安全框架，从全局视角剖析大模型生产应用全生命中后期存在的安全风险问题，为大模型的研发及应用提供安全指导，致力于构建安全、可靠、稳定、可信的大模型应用。26俋浧矇呏瑪醮愛絔蔠裮悞鶯2024飨麇AI媆俋浧矇攝昦3.1 俋浧矇呏瑪橅楯艊熱僨砎3.1.1 俋浧矇呏瑪橅楯羮餱縶大模型安全框架聚焦于大模型

50、生产研发应用过程中的安全风险问题，包括大模型内生安全及应用安全，即主要解决大模型生产研发流程中涉及的基础设施、数据、模型、算法面临安全风险，以及因为大模型的不合理应用引发的人工智能应用决策失控风险。对于因滥用或者恶意使用大模型而导致的安全风险，主要由国家法律法规和行业管理规范来进行监管规范。对于大模型生产研发流程中出现的安全风险问题，应该由大模型研发团队及安全团队共同关注，通过安全评估等机制来保障大模型的应用达到安全目标。3.1.2 俋浧矇呏瑪橅楯大模型安全框架首先从大模型生产研发的角度，将大模型的生命周期进行拆解，划分为数据处理、大模型训练部署、大模型应用三个不同阶段，并且对这三个阶段可能涉

展开阅读全文