1、2023年11月道德&合规风险白皮书如何理解和应对生成式人工智能 引发的数据合规风险02 生成式人工智能道德&合规风险白皮书引言4生成式人工智能概述5生成式人工智能相关法规浅析111.2 生成式人工智能的研究趋势62.2 中国本土法律191 2 1.3 生成式人工智能应用领域91.1 生成式人工智能的发展历程52.1 外国法111.2.1 大模型对齐和幻觉2.1.1 美国2.2.1 生成式人工智能的伦理道德问题讨论2.2.2 我国生成式人工智能的法律基线和合规要点19241.3.1 市场规模总览1.2.2 提示工程和检索增强2.1.2 英国1.3.2 多模态应用,赋能生产力:从数据类型划分1.
2、2.3 通用人工智能和代理2.1.3 欧盟1.3.3 聚焦个性化场景,创造业务价值:从行业划分1.2.4 快速起步使用生成式人工智能2.1.4 其他国家生成式人工智能法律发展简介2.1.5 总结6117129714981618102.2.3 总结2703 生成式人工智能道德&合规风险白皮书生成式人工智能的数据合规浅析凯捷提供的服务28503 4 3.1 生成式人工智能的数据合规要点3.2 生成式人工智能的数据合规技术手段28363.1.1 数据隐私保护原则3.2.1 网络安全3.2.3 生成式人工智能引发的伦理道德风险和应对措施3.1.2 数据在生成式人工智能中的角色3.2.2 数据全生命周期
3、合规3.2.4 生成式人工智能的全生命周期合规3.2.5 生成式人工智能安全评估和算法管理3.1.3 数据采集与预处理的合规性3.1.4 模型训练与验证的合规性措施3.1.5 数据评估与调整的合规性3.1.6 输出结果的合规性2837452938464831323335引用材料关于作者52545 6 已经成为科技和商业界的前沿领域,为我们带来了前所未有的创新和机会。成式智能技术的快速发展不仅提了产,还在医疗、教育、娱乐、融和众多其他领域中掀起了场命。成式智能的解决案预计在 2-5年能达到全球认可的成熟度,率先采成式智能技术的企业将从重塑的业务模式和流程中获益最多。96%的企业将成式AI列为层级
4、规划向。多数受访管(78%)认为成式AI可以使产品和服务设计下更效。引言 04 生成式人工智能道德&合规风险白皮书 凯捷咨询认为成式智能的量将全重塑未来商业架构的DNA,例如成式智能将改变企业和客户的沟通交流模式、使数据和保障隐私的式以及向潜在客户营销的式,可以将作流程由我服务(Self-serving)转变为动成(Self-generating),并且利互联的情境化数据增强组织能等。凯捷咨询始终关注成式智能的商业应落地,专注于提供定制化解决案。凯捷研究院(CRI)发布凯捷成式智能主题系列报告:解锁成式智能的价值。为了解企业管理层对成式智能的看法以及应情况,我们对全球来13个国家的1000家企
5、业进了调研。报告显示,在全球受访的企业中,尽管成式智能在不同业和领域中都有应,但企业仍临些障碍。预训练模型的底层数据缺乏明确性、可能存在偏以及缺乏包容性等问题,会给企业带来法律和声誉险,甚定义的内部模型也可能出现“幻觉”和数据泄露的问题。凯捷咨询坚信应当负责任地使成式智能,遵守相关规范约束。本书旨在提供有关成式智能的全概述,以帮助组织了解并遵守相关合规要求。我们将讨论成式智能的定义、应领域、法律法规、伦理原则和最佳实践,以帮助您在成式智能领域的作中确保合法性、公平性和透明性。论您是技术专家、法务从业者还是决策者,这份书都将为您提供宝贵的参考,助您在成式智能的世界中保持合规并取得成功。在当今数字
6、时代,成式智能(GenAI)在此小节,我们将通过时间线图引导我们回顾生成式人工智能技术的关键事件,帮助理解生成式人工智能技术的演化,为合规和伦理讨论提供基础。生成式人工智能概述1 1.1 生成式人工智能的发展历程05 生成式人工智能道德&合规风险白皮书(资料来源:公开资料整理)1970s201220141950195719611980s2000s201720182023 阿兰图灵(Alan Turing)在论文“Computing Machinery and Intelligence”中提出了知名的图灵测试。在图灵测试中,人类需要判别对某些问题的答案由人类或机器生成;当人类无法判别机器和人类在
7、这些回答上的区别时,可以认定机器拥有了人工智能。弗兰克罗森布拉特(Frank Rosenblatt)提出了感知器,旨在对人类的神经元进行模拟,通过改变节点权重参数来模仿人类大脑学习的机制,为后续神经网络的发展奠定了基础。约瑟夫维森鲍姆(Joseph Weizenbaum)创造了第一个对话机器人 ELIZA。作为最早的一批生成式人工智能应用,它能基于规则将输入词语匹配到预设的对话脚本,为用户生成模仿心理治疗师的回复。由于缺乏算力和数据导致的 AI 研究缓慢进展,以及对 AI 能力不切实际的预期,第一次AI寒冬来临,表现为科研经费和课题的减少。例如 Neocognitron、RNN 和后向传播机制
8、的研究为后续的卷积神经网络与隐藏层神经元的训练机制奠定了基础。2014年由Ian Goodfellow提出的对抗生成网络(GAN,Generative Adversarial Network),其中包含一个生成网络和判别网络。经过上千轮的大量训练和对抗,生成网络最终能够产生判别网络无法分辨的高分辨率的合成图像。其它同时期的方法,例如VAE和扩散模型等,也极大提升了图像生成的拟真度和精度,并将生成式AI的应用范围扩大到语音合成、视频处理、无人驾驶场景和交互问答等领域。随着互联网时代的到来和大量数据的产生,学者们利用更强大的硬件设备提出了基于统计学的传统机器学习方法(决策树、SVM和贝叶斯网络等)
9、,储存并处理这些海量数据,并开始初步探索其商用价值:例如手写字体识别、基于用户特征的贷款决策、分辨钓鱼邮件等。2010年代,硬件技术的飞速发展和大数据的普及推动了深度学习方法的发展。2012年 ImageNet 项目带来了 CNN 和图像识别领域的突破性进展;而2015年,DeepMind 的强化学习模型 AlphaGo 击败了围棋世界冠军李世石,引起了全世界对人工智能领域的再度关注。Google Brain著名的论文Attention is all you need中引入了自注意力机制(self-attention)用于加速序列数据的特征提取,以及包含编码器和解码器的Transformer架
10、构,在序列到序列(seq-2-seq)的文字理解和生成任务达成了全新的能力标杆。其影响力跨越文字(BERT,T5,RoBERTa)、图像(ViT,ImageGPT)和音频(Wav2Vec2,HuBERT,Whisper)领域。OpenAI在2018年发布了基于大量预料预训练的生成式模型(110M参数),并在2019年发布了GPT-2(1.5B参数),2020年发布了GPT-3(175B参数)和2022年的ChatGPT和GPT-3.5 Turbo,最后在2023年发布了目前最强大的大语言模型GPT-4。GPT系列模型使用了数十TB的文本数据,在超过10000块A100高性能显卡进行训练,并在训
11、练过程中引入了人在回路强化学习(Reinforcement Learning from Human Feedback),开启了生成式人工智能的新时期。-在生成式人工智能的研究中,最关键的问题之一是如何使通用人工智能与人类的价值和意图保持一致,这被称为对齐问题。大语言模型的本质是数学模型,而不是知识模型,即神经网络根据用户提示和上下文计算每个词汇符号的概率分布,逐步生成句子,但其生成的文本有时与用户的意图不符甚至完全相反。1.2 生成式人工智能的研究趋势1.2.1 大模型对齐和幻觉 将其描述为“我们如何设计一个能满足人类期望来行动的代理人”。然而,这个问题中缺少对于代理人的具体描述和定义。因此,
12、在Sam Bowman后续的定义中,对齐问题变为了“如果人工智能系统拥有某些重要的能力,人类如何利用人工智能来可靠可信地完成目标”。而缺乏对人类期望定义,以及对模型对齐这一目标的追求将人们引入了提示工程这一新兴研究领域。一个常见的现象是,在用户刻意或无意的某些特定提示词下,大语言模型会在回答中参杂毫无根据或胡编乱造的“假事实”。这类毫无根据的错误回答可能会引导用户产生错误认知,甚至在极端情况下表现出对特定群体的偏见或敌意。这些幻觉现象的来源通常是模型训练数据中未被验证或恶意生成的语料、训练过程中未被准确定义的目标函数、或特定具有误导性的提示词输入。当对问题于2021年提出时,Kenton等 0
13、6 生成式人工智能道德&合规风险白皮书1.2.2 提示工程和检索增强1.2.3 通用人工智能和代理 通用人工智能(Artificial General Intelligence,AGI)是人工智能领域科研的神圣目标,旨在让人工智能系统能够自主学习并完成复杂的任务。们开始研究如何使用自主工作或半监督的代理(Agent)来完成复杂的任务。代理的核心组件在于为模型接入例如计算器、API和搜索引擎的函数工具,使其拥有与世界交互的能力,通过多轮思维链和结果传递,帮助用户完成复杂的代理任务。以ToolLLM项目为例,研究人员训练了一个能够跨越49个领域的16000多个现实世界RESTful API的代理模
14、型,该代理模型基于Llama基座模型,被称为ToolLLaMA,能够熟练掌握泛化的复杂任务分解和未见API调用的能力。基于大语言模型对自然语言的理解能力,人 在与大语言模型同时兴起的提示工程研究领域中,科研人员致力于设计和优化对大语言模型的提示词以理解大语言模型的能力边界,并提升大语言模型在推理任务和其它复杂场景任务中的表现。最具代表性的提示工程方法包括少样本提示(Few-shot Prompting)、自我一致性(Self-consistency)、思维链(Chain of Thoughts)、最少到最多提示(Least-to-most Prompting)、和检索增强生成(Retrieva
15、l-Augmented Generation)等。在思维链方法中,提示模型在生成回答时还输出其思考的过程,这有助于模型在回答中包含有逻辑的思考步骤,从而生成更易于理解和准确的答案。自我一致性的方法更为直观,模型会根据简单提示生成多个基于思维链方法的答案,然后选择最一致的答案作为结果。检索增强生成是当前采用最广泛的知识增强方法之一。它通过匹配结构化和非结构化数据中的知识片段,把最符合当前提示的知识片段注入到提示词中,辅助大语言模型生成有根据的回答。思维链和最少到最多提示等提示方法在某些语言模型指标上,甚至能超过经过特别精细人工标注数据训练的模型,通过低成本的提示词优化,达到了出色的模型性能。检索
16、增强生成方法更是避免了对模型进行昂贵的微调和重新训练以获得有关特定领域的知识,从而显著优化了模型的幻觉现象,证明了提示工程的必要性和可用性。07 生成式人工智能道德&合规风险白皮书1.2.4 快速起步使用生成式人工智能能被透明化管理和运维的服务器上。HuggingFace是目前最大的数据科学开源社区;包括微软、Meta AI等科技公司和Stability AI、BigScience、智谱AI等科研机构的开源模型参数都能在该社区上找到,而无数的开发者正在使用他们的私有数据对这些基础模型微调,并将掌握了不同垂直领域知识和能力的模型重新贡献到社区中。最知名的开源中文大语言模型之一,ChatGLM是由
17、清华大学基于GLM(General Language Model)训练的项目;其6B参数的版本经过约1TB的中英双语数据训练,能够完成文案写作、信息抽取、角色扮演、评论比较等中文语言任务,并且INT4量化版本的模型可以在大部分消费级显卡上运行甚至微调。因此,对于有私有化模型需求的企业和商用场景,这类开源的大语言模型成为了首选。克服了高性能计算的成本,并在服务器上配置环境和部署模型后,企业可以完全掌握大模型运行中消耗、运算和产生的数据,确保敏感数据的隐私和安全。08 生成式人工智能道德&合规风险白皮书 根据凯捷研究院的调查,在生成式人工智能快速普及的当下,全球超过95%的企业领导层正在探索利用这
18、个强大的工具提升生产力并创造更多商业价值的可能性。现在最便捷的大模型应用是基于非开源的大语言模型服务。例如OpenAI、PaLM、文心一言等大语言模型的文字生成能力需要通过官方提供的API接口进行访问,让开发者快速将大语言模型能力嵌入自己的应用中,避免了训练和部署模型涉及的大量储存和算力成本,并能通过服务提供商假设的高性能计算设备,快速获得强大且持续更新的文字理解和生成能力。然而大语言模型服务在费用、访问频次、隐私考虑上的限制。当开发者将大语言模型服务嵌入至高访问量的应用中时,基于文字token数量收费的潜在高成本是无法忽视的一环。而在例如金融、保险或医疗行业中涉及敏感用户数据的应用场景中,将
19、用户数据上传至第三方的API请求服务也面临着无数的数据合规考虑。因此,大部分企业在涉及大语言模型应用的时候,会考虑将开源的大语言模型私有化部署到09 生成式人工智能道德&合规风险白皮书1.3 生成式人工智能应用领域 1.3.1 市场规模总览1.3.2 多模态应用,赋能生产力:从数据类型划分 目前生成式人工智能产业正处于培育摸索期,大部分技术还未在实际生产过程中大规模使用,商业应用场景边界和商业模式还有待探索,用户体验仍需优化。随着大模型技术发展、垂类数据的积累、用户需求的识别细化和产业生态的完善,生成式人工智能的应用层走向垂直化和业务场景趋向多样化,生成式人工智能市场有望进入万亿级规模。按照生
20、成数据类型或者模态划分,生成式人工智能的应用涵盖了文字、图像和音频等领域。生成式人工智能技术可以用于参与数字内容创作,突破传统内容创作的数量约束,有着更为流畅和高效的人机交互模式,减少了重复性的任务负担,实现生产力解放。中国生成式人工智能产业市场规模预测(来源:量子位-中国AIGC产业全景报告暨AIGC-P7)(数据来源:公开资料整理)1.3.3 聚焦个性化场景,创造业务价值:从行业划分10 生成式人工智能道德&合规风险白皮书 随着人工智能算法的迭代、算力的进步和数据的增加驱动生成式人工智能的技术变革,生成式人工智能模型的大范围连续对话能力、生成内容质量、语言理解能力和逻辑推理能力上都得到大幅
21、提升。相比通用大模型,垂直大模型深耕特定行业和应用场景如医疗行业和金融行业,凭借其专业化和精准化的优势,更容易解决特定领域的问题,创造业务价值,实现商业变现。垂直大模型主要通过“预训练大模型+微调”的开发方式,只需针对具体任务对大模型进行二次开发,降低了企业应用的开发门槛。(数据来源:公开资料整理)11 生成式人工智能道德&合规风险白皮书 2022年10月4日,美国白宫科技政策办公室发布了自动化系统的开发、使用和部署蓝图,又称生成式人工智能权利法案蓝图。不同于欧盟的生成式人工智能法案草案,该蓝图并不具有法律约束力,而是列出了五项原则,旨在最大限度地减少生成式人工智能系统的潜在危害。另外,美国国
22、家标准与技术研究院(NIST)于 另一方面,美国一些州已颁布立法,规范了在各类背景下使用生成式人工智能的情况,包括:美国关于生成式人工智能立法现状 随着我们对生成式人工智能技术进行了全面概述,现在我们将转向更深入的话题,探讨与生成式人工智能合规密切相关的法规问题。各国积极制定相关法规,目的是更好地管理生成式人工智能的使用,确保其对社会和个体产生积极、合法的影响,并且符合伦理要求。通过这一深入的法规解析,我们将更全面地了解如何在不断演变的生成式人工智能领域中维护合规性,构建可信的人工智能系统。生成式人工智能相关法规浅析2 2.1 外国法2.1.1 美国阿拉巴马州规定了使用面部识别技术(FRT)匹
23、配结果来确定刑事调查或逮捕的潜在原因。蒙大拿州限制了执法部门在特定情况下使用FRT,并禁止持续的面部监控。科罗拉多州限制了州和地方机构在没有意向通知、问责报告和对产生法律效力的决定进行有意义的人工审查的情况下使用面部识别服务(FRS)。爱达荷州已制定规定,对审前风险评估算法的使用进行了约束,要求提高透明度,并取消了审前风险评估工具的商业机密保护,以确保相关信息不受保密限制。路易斯安那州和德克萨斯州已宣布,使用深度伪造技术来模仿未成年人是非法的。康涅狄格州的法律要求州机构对所有使用生成式人工智能的系统进行年度审查和持续评估,以确保不存在非法歧视或差别影响的情况。2022年8月18日发布了生成式人
24、工智能风险管理框架的第二稿,目前处于征求意见阶段。该框架的初版可以追溯到2022年3月,并以2021年12月的概念文件为基础。生成式人工智能风险管理框架旨在帮助公司评估和管理与开发或部署生成式人工智能系统相关的风险。12 生成式人工智能道德&合规风险白皮书 2021年10月,美国平等就业机会委员会启动了一项倡议,以确保在招聘和其他就业决策中使用生成式人工智能和其他技术驱动工具符合联邦反歧视法。人工智能导致歧视性结果的能力,特别是以不明显或不易识别的方式导致的歧视性结果,以及相关的已知和未知后果,已导致全球各地采取措施,实施更严格的监督,以防止人工智能在就业中被滥用。如果算法识别出申请人的身体残
25、疾、精神健康或其他不明显的临床诊断,则可能触发美国残疾人法。例如,雇主对显示震颤的数据的审查可被视为与残疾有关的调查,因为震颤可能显示出某些神经系统疾病,如脑瘫或中风。与此同时,一些专家学者把重点放在创新和前瞻性的非立法建议上。例如,一些人认为,企业应该借鉴金融领域企业十多年来成功实施的模型风险管理框架。该框架的支持者认为,公司和开发人员可以有效地管理与生成式人工智能相关的风险,通过使用从金融行业吸取的经验教训,并经过测试和时间的既定流程。尽管法律和监管领域仍处于起步阶段,许多科研组织和顶尖的科技企业已经开始了自我监管,以促进负责任的生成式人工智能开发和部署,并帮助防止生成式人工智能工具提供可
26、能延续甚至加剧非法就业歧视的有偏见的结果。例如微软(Microsoft)这样的跨国公司开发和发布 美国正在准备实施一个总体的立法和监管框架,激励将进一步推进生成式人工智能和相关技术能力的创新。比如雇主应当监控和审计人工智能的使用和流程,以主动识别故意滥用或潜在的歧视性结果。公司必须认识到虽然有生成式人工智能监管及合规审计等方法做事后评估,同时必须要加入公平和道德规范参与到雇佣决策过程。公司需要考虑和理解的其他考虑因素是供应商的责任以及对生成式人工智能立法和诉讼的持续态势的感知。美国生成式人工智能道德伦理挑战和解决方案 2023 年 3 月 29 日,英国政府发布了一份白皮书,概述了其支持创新的
27、人工智能监管方法。根据目前的情况,现有的行业监管机构将被授权在各自的行业内监管人工智能,而不是制定新的法律或单独的人工智能监管机构。重点是加强现有制度以涵盖人工智能,并避免可能阻碍创新的高压立法。白皮书中概述的拟议监管框架基于两个关键特征来定义人工智能,即适应性和自主性。白皮书认为,通过参照这些特征来定义人工智能,并设计监管框架来应对这些特征所带来的挑战,英国立法者可以使该框架在未来应对不可预期的新技术。英国生成式人工智能立法现状2.1.2英国自己的生成式人工智能原则或指导方针已经成为一种常见的做法。13 生成式人工智能道德&合规风险白皮书 白皮书还列出了监管机构在应对人工智能相关风险时应遵守
28、的五项 注重价值观的跨部门 原则。这些原则包括(i)安全性、保障性和稳健性,(ii)适当的透明度和可解释性,(iii)公平性,(iv)问责制和治理,以及(v)可竞争性和补救。政府将在回应白皮书咨询的同时发布人工智能监管路线图。从长远来看,在白皮书发布12个月或更长时间后,英国政府计划实施所有中央职能,支持监管机构应用跨部门原则,发布人工智能风险登记簿草案,开发监管沙盒,并发布监测和评估报告以评估框架的绩效。白皮书发布后,英国政府将继续与企业和监管机构合作,着手建立已确定的核心职能。英国 生成式人工智能技术给个人隐私带来了两种威胁。第一种威胁类型涉及机构的意外披露:一个机构将缺乏足够隐私保护的数
29、据集故意上传到云或境外,导致数据泄露和失控,而这些数据集往往包含有关个人的敏感信息和可识别信息。研究人员需要耗时耗力去分析这个逃逸的数据集,获取这些信息并重新识别到个体;第二种威胁类型涉及研究者偶然披露。研究人员发布基于受限的数据计算的产品(例如,训练有素的机器学习模型)。发布的产品缺乏足够的隐私保护,研究产品的外部消费者从研究人员使用的原始数据集中了解到个人或个人的敏感信息。英国生成式人工智能技术如何应对伦理挑战和解决方案数字经济法案和其后的配套措施为研究人员获取政府数据和使用数据进行计算提供了合法途径。在保证不具体说明个人身份的情况下,可以对公共事务局所持有的与该当局职能有关的数据进行大规
30、模算法研究。数据访问主要通过经过认证的机构的安全物理设施或与该设施的安全连接,并且政府监管部门对研究人员的活动和产出进行密切监测,任何产出在发布前都要进行检查。针对这些伦理挑战,英国于2017年通过的从研究者的角度来看,获取数据集需要以下步骤:研究员向机构提交项目提案。项目经相关小组批准。所需数据由该机构确定,然后由相关数据中心摄取。研究人员参与培训并可进行评估(例如,访问国家统计局持有的关联数据需要获得国家统计局安全研究服务和认证,并且可以亲自访问数据,也可以通过远程连接获得额外认证)。通过安全的数据服务提供去身份化数据。研究人员进行分析;监测活动和产出。对输出进行受试者隐私检查。改进联邦数
31、据管理方法,对其进行补充和修正。从政府监管的角度来看,获取数据集需要做到保护公共利益:与研究人员共享的任何数据都是匿名的,个人标识被删除,并进行检查以防止再次识别研究人员和拟议的研究都有严格的认证程序,以确保公众利益不受生成式人工智能导致的损害。14 生成式人工智能道德&合规风险白皮书 欧盟一直走在全球生成式人工智能监管运动的最前沿,2023年6月14日,欧洲议会投票结果通过欧盟人工智能法案(EU AI-ACT,下文简称法案)草案。法案很可能成为世界上第一个全面管理生成式人工智能的法规,该法案对违规公司可以处以4000万欧元或年营收7%的罚款。随着法案进入采用的最后阶段,其拟议的语言为所有司法
32、管辖区的公司在使用生成式生成式人工智能时将面临的重大合规障碍提供了宝贵的见解。欧盟的做法也将成为未来全球生成式人工智能监管的蓝图,为数据治理、透明度和安全性设定新的要求。员会建议在欧盟法律中确立一个技术中立的人工智能系统定义并对其进行分类,根据 基于风险的方法 制定不同的要求和义务。该法案对人工智能系统进行风险分类,限制深度伪造,并对ChatGPT等生成式人工智能提出了更高透明度的要求。该法案定义了人工智能系统、供应链上涉及到的相关环节以及不同类别的生成式人工智能数据等相关要素,与GDPR中对受监管的个人数据的宽泛定义保持一致。另一方面,该法案明确了所有在欧盟市场投放、使用生成式人工智能系统及
33、相关服务的国内外供应商、服务商和公共服务用户提供者,只要其生成式人工智能系统影响到欧盟及欧盟公民的,均将受到法案约束,从而保证了其规则的域外适用性。该法案是首次尝试为人工智能制定横向法规。拟议的法律框架重点关注人工智能系统以及生成式人工智能的具体使用和相关风险。欧盟委欧盟生成式人工智能立法现状人工智能法案对不同应用场景的生成式人工智能系统实施风险定级2.1.3 欧盟15 生成式人工智能道德&合规风险白皮书 欧盟生成式人工智能法案的“长臂管辖”甚至会触及那些只生产用于欧盟市场的产品的生成式人工智能系统。因为该法案侧重于通过施加影响深远的义务来规范基础模型,主要体现在以下几方面:生成式人工智能的提
34、供商必须采取进一步措施遵守法案,包括:风险管理:风险管理作为贯穿生成式人工智能模型整个生命周期的持续迭代过程,以降低风险并提高性能。这个过程包括识别和分析与该生成式人工智能系统的预期目的有关的最有可能发生的风险。安全性和ESG设计:以实现性能和网络安全,并减少能源使用。质量管理:确保强大的上市后监控系统和持续遵守生成式人工智能法案。在欧盟数据库中注册,以及其他义务。数据治理:以验证数据源和减轻偏见;根据法案被称为“提供者”,不应该允许生成式人工智能系统处理和使用不适合生成式人工智能训练的数据集。技术文档(包括使用说明):使下游生成式人工智能提供商能够满足某些高风险用例的透明度义务,包括生成式人
35、工智能系统的一般描述、预期目的和预期输出等。技术文档的保存期为基础模型在欧盟市场上发布或使用后的10年。告知:提供商必须告知自然人,他们正在与生成式人工智能系统交互,并且内容不是由人类创建的。发布:提供商还将提供其使用培训数据的摘要。保护:提供商还必须确保防止生成违反欧盟法律的内容。第一章通过阐述应遵循的基本权利、原则和价值观,确定生成式人工智能的伦理目标。欧盟可信人工智能伦理指南草案主要分为三个章节:欧盟生成式人工智能伦理挑战及解决方案 早在2018年12月,法案未起草前,欧盟委员会的人工智能高级专家组(High-Level Expert Group on Artificial Intell
36、igence,AI HLEG)就针对生成式人工智能的伦理问题和可能的解决方案发布了可信人工智能伦理指南草案。可信人工智能是将一般性和抽象性的伦理准则融入到生成式人工智能系统和具体应用中。AI HLEG共提出10项要求,这10项要求均同等重要。针对不同的应用领域和行业,应根据特定环境进行评估,包括:可追责性、数据治理、普惠性设计、人工智能自主性的管控、非歧视、尊重和强化人类自治、隐私保护、健壮性、安全性、透明性。16 生成式人工智能道德&合规风险白皮书第二章为实现可信生成式人工智能提供指导,列举可信的要求,并概述可用于其实施的技术和非技术方法,同时兼顾伦理准则和技术健壮性。第三章提供了评测清单以
37、帮助组织识别和发现生成式人工智能系统的几个主要潜在问题:数据主体权利保护问题,为了维护欧洲公民的自主权,需要在生成式人工智能中合理使用监控技术。但实现可信人工智能应当区别个体识别与个体跟踪之间的差异,以及有针对性的监视和普遍监视之间的差异。隐蔽生成式人工智能系统问题,人与机器之间的边界模糊会带来如依附、影响或降低生而为人所应具有人生价值之类的恶果,因此发展人形机器人更应经过仔细的伦理评估。致命性自主武器系统(LAWS)问题,LAWS可在没有人为控制的情况下运行,但最终人类必须对所有伤亡负责。目前,众多国家和行业正在研究和开发致命自主武器系统,包括能够自主选择攻击的导弹、具有认知能力的自主杀人机
38、器等,这都带来了基本的伦理问题。欧盟的生成式人工智能管理框架无论在深度还是广度上都有着比较成熟的思考,围绕生成式人工智能全生命周期的流程、角色、活动等不同维度的风险识别和责任定义,使组织能够在生成式人工智能相关活动中明确企业、个人以及相关方的责任和义务。另外一方面,也是由于法 生成式人工智能是一项关键技术,在德国、欧洲乃至全世界都蕴藏着促进经济增长和提高生产力的巨大潜力。为了促进和利用这一潜力,联邦政府制定了一个行动框架,并在人工智能战略(AI Strategy)中采取了意义深远的措施以建立和扩大人工智能生态系统,加强人工智能的广泛应用,同时提高杰出倡议和结构的知名度。更新版还将大流行病控制、
39、可持续发展(尤其是环境和气候保护)以及国际和欧洲网络建设作为新举措的核心。2019年10月10日,委员会发布针对数据和算法的建议,旨在回答联邦围绕数据和生成式人工智能算法提出来的系列问题并给出政策建议。围绕“数据”和“算法系统”展开,包括“一般伦理与法律原则”、“数据”、“算法系统”、“欧洲路径”四部分内容。德国数据伦理委员会认为,人格尊严、自我决策、隐私、安全、民主、正义、团结、可持续发展等应被视为德国不可或缺的数字社会行为准则,这一理念也应在“数据”和“算法系统”的监管中贯彻。德国生成式人工智能法律及伦理发展2.1.4 其他国家生成式人工智能法律发展简介规对相关方责任义务的充分识别以及对监
40、管范围的放宽,这也将一定程度会制约了法规制约范围内的企业和组织在生成式人工智能领域的探索深度和商业化进程。17 生成式人工智能道德&合规风险白皮书 法国对生成式人工智能的伦理治理问题高度关注,发布多项指导生成式人工智能安全应用的指南和条例,联合工业龙头企业发布工业人工智能宣言,积极推动人工智能健康发展。法国国家信息与自由委员会(CNIL)作为法国的数据监管机构,围绕算法和系统安全等方面出台多项条例和安全指南。在算法安全方面,发布了人工智能与算法伦理风险,深入分析了生成式人工智能算法可能引发的系列伦理问题,并提出治理举措建议。在系统安全方面,发布了人工智能系统自评估人工智能系统安全指南,致力于为
41、公众、专业机构和相关领域专家提供有关生成式人工智能系统安全性的知识、理论工具和实施指导,围绕规划设计、数据资源安全性、保护和强化学习过程、使用可靠应用程序、考虑组织战略5个方面,提出强化生成式人工智能系统安全性的操作建议。2023年5月16日,CNIL发布了一份人工智能行动计划,内容分为四个方面:了解生成式人工智能系统的运作及其对个人的影响;支持和监管尊重隐私的生成式人工智能的发展;整合和支持法国和欧洲生态系统中的创新者;审计和监控生成式人工智能系统并保护个人。通过这项关键的协作工作,CNIL希望制定明确的规则,保护欧洲公民的个人数据,以促进尊重隐私的生成式人工智能系统的发展。日本政府于201
42、9年3月公布了由综合创新战略促进委员会通过的以人为中心的生成式人工智能社会原则,体现了生成式人工智能社会的基本原则,这七项社会准则分别为:(1)以人为本,(2)教育/扫盲,(3)数据保护,(4)确保安全,(5)公平竞争,(6)公平,问责制和透明度,以及(7)创新。这一系列法律制度涵盖了当前关于生成式人工智能相关机遇和风险的政治共识。就内容而言,日本在包容性增长、可持续发展和社会福祉方面的生成式人工智能方法符合经合组织的生成式人工智能原则。2022年6月16日,加拿大联邦政府提交了C-27法律草案,也被称为2022年数字宪章实施法案。该立法方案的第三部分包括生成式人工智能和数据法案(AIDA),
43、这是加拿大的第一个生成式人工智能法案。AIDA旨在规范生成式人工智能系统的国际和省际贸易,要求某些人员采取措施,减少与高性能生成式人工智能系统相关的伤害风险和偏见结果。它规定了公开报告,并授权部长下令披露与生成式人工智能系统相关的记录。该法案还禁止处理可能对个人或其利益造成严重损害的数据和生成式人工智能系统的某些做法。目前,截至2023年3月,该法案正在下议院进行二读,仍需得到参议院的批准。法国生成式人工智能法律及伦理发展日本生成式人工智能解读加拿大生成式人工智能解读18 生成式人工智能道德&合规风险白皮书 由于生成式人工智能技术涉及到隐私增强技术的使用尚处于起步阶段和不确定性,隐私应主要通过
44、数据访问策略来解决。虽然在某些情况下欧美及日本立法者会建议甚至是强制要求合规设计,但是技术处理和访问策略仍是主要的防线:通过控制谁可以访问数据来确保敏感数据集受到保护。这种处理方法的表现形式之一就是采用分层访问策略,即将更敏感的数据集放在更受限制的层中。例如,高度限制的获取数据可能对应于个人健康数据,而最低限度限制的获取数据可能对应于测量数据。这使得访问高度受限数据的提案将面临更高的审查标准,研究人员可能一次只能访问一个受限访问数据集。这种方法反映了目前的制度,即研究人员接受特殊训练来处理某些类型的数据。2.1.5总结 凯捷观点:19 生成式人工智能道德&合规风险白皮书 人工智能系统在社会上引
45、发了广泛的伦理问题,如就业、社交、医疗卫生、医药保险、ESG、治安、商业运营、人权等等。这些问题的核心在于生成式人工智能算法,它们有可能复制和加深现有的偏见,导致各种歧视问题,带来全新的伦理挑战。为了解决这些挑战,中国政府采取了一系列政策举措。2021年修订的科学技术进步法第103条设立了国家科技伦理委员会,旨在完善科技伦理规范,推进科技伦理教育和研究,并建立审查、评估和监管体系。2019年成立了国家科技伦理委员会,下设了人工智能、生命科学和医学三个分委员会,负责制定行业规范和进行伦理审查。2022年,中国政府发布了关于加强科技伦理治理的意见和生成式人工智能服务管理暂行办法,这两份文件是关于生
46、成式人工智能的首批全面法律文件。从科技伦理审查办法(试行)的征求意见到正式发布,中国的科技伦理监管体系经过了全面的顶层设计,各相关部门,包括国家网信办、工业和信息化部、公安部、新闻出版总署等,都在各自领域内强化了对生成式人工智能服务的管理。因此,企业需要密切关注中国国家机关在生成式人工智能领域的执法案例和指导意见。治理意见提出了中国政府对科学技术伦理审查的5个维度,即:(1)增进人类福祉;(2)尊重生命权利;(3)坚持公平公正;(4)合理控制风险;及(5)保持公开透明。凯捷认为治理意见中的前两项明确要求技术创新和应用的最终目的是增进人类福祉,科技进步的同时务必尊重生命权利和公平利益,这意味着在
47、中国发展生成式人工智能的商业体不能为了追求科技领先而牺牲人的安全保护、身体健康、精神健康,不可以通过损害人的隐私和安宁达到盈利目标。治理意见同时要求科技活动申办者和组织者全过程(全生命周期)秉承公平、公正、包容地对待社会群体,防止针对不同群体的歧视和偏见,防范技术加深偏见和排挤特定人群的风险,确保用户信息安全,并且鼓励公众参与监督,保持科技应用的透明度。值得注意的是审查办法将特定种类的“算法模型、应用程序及系统的研发”以及特定场景的“自动化决策系统的研发”也归入了需要开展科技伦理审查复核的科技活动中。2.2 中国本土法律2.2.1 生成式人工智能的伦理道德问题讨论2.2.1.1我国生成式人工智
48、能伦理问题的基本原则20 生成式人工智能道德&合规风险白皮书 医药行业的伦理审查一直是该行业常规工作内容,生命科学和医学领域的从业者对医药健康领域的伦理审查要求更加熟悉。我国的法律对医药健康领域的伦理审查要求分散在不同法规中,建立了以相关研究事项的事前审查为核心的伦理审查机制。我国在互联网诊疗监管细则(试行)中明确规定,“医疗机构开展互联网诊疗活动,处方应由接诊医师本人开具,严禁使用人工智能等自动生成处方,且医师接诊前需进行实名认证,确保由本人提供诊疗服务,人工智能软件不得替代医师本人提供诊疗服务。”在我国医药行业,对于生成式人工智能的应用,总体要求是不应以科技进步为代价而牺牲人的生命安全、身
49、体健康,以及精神和心理健康。同时,科技活动的全过程需要以公平、公正、包容的方式对待各个社会群体,以避免歧视和偏见。此外,科技公司和医药企业需要接受全 我国法律对于医药健康领域的伦理审查要求散见于各个法规中,包括但不限于生成式人工智能服务管理暂行办法、互联网信息服务深度合成管理规定、中华人民共和国民法典、人类遗传资源管理条例、药品管理法、生物安全法和医师法,这些原则和法规确保了医药行业的伦理审查在技术进步的同时保护了人的权益和健康,并倡导了公平、公正和透明的科技发展。2.2.1.2 我国生成式人工智能在商业领域的伦理审查要求2.2.1.2.1 生成式人工智能在医药领域内伦理审查医药行业审查重点医
50、药行业中生成式人工智能伦理缺陷的对策社会公众的监督,以确保透明度和合规性。生成式人工智能在协助诊疗和医生决策中的界限是当前医疗行业广泛讨论的话题。生成式人工智能应用在医疗领域,尤其是医保方面,面临着特有的伦理问题,其中之一是算法偏见。如果用于训练AI应用的数据集未能充分覆盖女性、少数族裔、老年人、农村人群等多样化群体,可能导致最终算法的建议存在偏见。此外,如果用于AI药物研发的数据集在种族、环境和文化上过于同质化,可能导致AI识别的有效活性物质仅适用于有限的群体。此外,许多“AI+医药健康”应用需要积累患者数据。对于基于大数据计算并输出结论和诊疗建议的AI应用来说,数据积累至关重要,因为缺乏足