1、 中国信息通信研究院知识产权与创新发展中心 2023年12月(20232023 年年)人工智能知识产权法律问题人工智能知识产权法律问题研究报告研究报告 前前 言言 随着新一轮科技革命和产业变革的深入发展,人工智能技术正迅速推动人类社会智力创新、经济高质量发展,以及生产生活方式效率的提升。人工智能为全球产业发展提供新动能的同时,也带来了诸多新的问题和挑战。当前人工智能知识产权治理正处于法律研究和规则制定阶段,迫切需要解决全球范围内多方面的问题。一是产业对大模型数据使用量级的快速提升突出了著作权作品合理使用原则问题,尤其在原创作者和大模型企业的著作权使用上存在明显争议。二是人工智能技术生成的作品呈
2、现成倍释放的趋势,给当前著作权归属和适用制度带来冲击,考验着知识产权治理的能力。各方都在积极寻求解决人工智能领域知识产权问题的路径。美国政府加速法律问题研究,产业主体主动承担训练数据和作品的侵权责任;日本通过明晰人工智能数据训练中的合理使用标准,平衡企业和原创作者间的关系;欧盟以促进产业发展的数据挖掘原则为抓手,推进著作权治理向精细化方向发展;中国通过立法和司法协同,探索人工智能知识产权最佳保护模式。各方对于人工智能技术有较大的知识产权风险已经达成共识,知识产权制度必须适应新的现实和新的法律挑战,形成符合产业和各方行为预期的知识产权治理理念和规范。基于新的人工智能发展阶段的知识产权治理理念,需
3、要坚持产业发展优先的原则,秉持共商共建理念,推动输入端和输出端关键规则构建,探索治理主体创新。目目 录录 一、人工智能产业发展概况和知识产权环境.1(一)人工智能产业发展概况.1(二)人工智能产业知识产权环境.3 二、现阶段全球人工智能领域主要知识产权问题.4(一)输入端数据训练的合理使用问题.5(二)输出端内容著作权保护范围问题.8 三、人工智能领域各方知识产权治理相关实践.11(一)美国:政府加速法律研究,产业主体承担责任.11(二)日本:明晰合理使用原则,避免侵犯原著作权.14(三)欧盟:保护企业数据挖掘,推进治理精细水平.15(四)中国:明确尊重知识产权,立法司法协同探索.17(五)小
4、结:各方积极应对挑战,治理路径逐渐清晰.19 四、人工智能知识产权治理展望.21(一)完善治理理念.22(二)健全治理规则.23(三)统筹治理主体.24 表表 目目 录录 表 1 输入端合理使用争议.5 表 2 输出端著作权保护争议.9 表 3 各方应对人工智能著作权问题的保护路径.21 人工智能知识产权法律问题研究报告(2023 年)1 一、人工智能产业发展概况和知识产权环境(一一)人工智能产业发展概况人工智能产业发展概况 人工智能(Artificial Intelligence,简称 AI)被视为引领未来产业发展的战略性新兴技术,正在推动着一场全新的科技变革和产业创新。随着机器学习(mac
5、hine learning)、计算机视觉(computer vision)、自然语言处理(natural language processing)等领域的快速进展和技术不断完善,人工智能对社会的智力创新和进步、经济的提质增效,以及生产和生活效率的提升都产生了深刻的影响。从发展阶段来看,深度学习技术的快速突破正在驱动人工智能以前所未有的速度逼近通用智能。自 2014 年起,随着以生成式对抗网络(Generative Adversarial Network,简称 GAN)为代表的深度学习算法的提出和迭代更新,人工智能处理单一任务水平大幅提升,专用式人工智能技术逐渐成熟。而 2022 年底美国开放人
6、工智能研究中心(OpenAI)发布的 ChatGPT 则代表了通用式人工智能的技术进化,聚焦于人机交互的封闭环境,人工智能已经能够同时实现多项复杂的任务能力。深度学习在未来仍将持续“大模型+大算力+大数据”的主导路线,逐渐逼近人机交互环境下的有限度通用智能,这也对算力、研发等工程化能力提出更高要求。同时,海量专用小模型正在更深入与行业核心业务能力相结合。在“大模型主导,行业小模型应用落地”两类路线叠加驱动下,人工智能将持续规模化应用,并不断逼近与人、环境交互协同的通用智能。从产业布局看,领军企业持续迭代基础通用大模型,主导力量正人工智能知识产权法律问题研究报告(2023 年)2 在逐步形成。一
7、是,领军企业持续迭代基础通用大模型,完善各类模型能力布局,探索产业服务模式。以 OpenAI 的 GPT-4,谷歌(Google)的 bard,百度文心一言大模型,科大讯飞星火大模型等为代表,大语言模型正在逐步将其能力范围扩大至金融、医疗、能源等领域,探索大模型落地的专业化场景。二是,开源模型技术体系打破闭源模型垄断壁垒。以元宇宙公司(Meta)Llama2 模型,稳定人工智能公司(Stability AI)的稳定扩散模型(stable diffusion),斯坦福大学羊驼(Alpaca)模型等为代表,开源模型已成为部分企业及高校研究机构的发力点,逐步赋能更多开发者和学习者,加速产业整体发展和
8、进步。三是,贴合业务场景的专业大模型纷纷入局。例如上海人工智能实验室开发的全球首个城市级实景三维大模型书生天际,网易游戏伏羲大模型等,创新主体及行业企业紧跟大模型热潮,与自身业务场景结合,提升对外服务能力。从商业化落地来看,人工智能行业主流产品形态是生成式人工智能(AI Generated Content,简称 AIGC)。目前,大模型在日常办公、文本创作、图像视频生成、游戏等领域拥有较大发展潜力,商业化前景相对清晰。在文本生成端,AIGC 已经可以利用自然语言生成技术自动生成文章、小说、新闻摘要、诗歌等文本内容;在图片生成端,图片风格转换、图像修复和补充、生成艺术作品等产品正逐渐落地;在音视
9、频生成端,合成音乐、生成环境音效、视频合成和特效生成等,AIGC 可以提升制作效率。未来,AIGC 能够针对科学发现类的任务,逐步渗透生产力变革。大模型有望作为基础赋能工具,发现更多领域人工智能知识产权法律问题研究报告(2023 年)3 通解,在更多领域实现价值创造和产业升级,如解决数学问题,发现新材料配方,配合药物研发预测药物理化性质等。(二)人工智能产业知识产权环境二)人工智能产业知识产权环境 知识产权问题是企业对于使用生成式人工智能的首要担忧。在德国人工智能内容治理公司 Acrolinx 于 2023 年 8 月对 86 家财富 500 强公司的调查中1,近三分之一的受访者表示,知识产权
10、是使用生成式AI 的最大担忧。而由代码管理公司 Gitlab 对超过 1000 名从业者开展的调查发现2,95%的高级技术主管认为知识产权和隐私保护是使用AIGC 的首要考虑对象,也有 79%的受访者担心人工智能工具会获取知识产权或私人数据。究其根本,还是现有的人工智能技术在著作权、专利权、商标权、反不正当竞争等方面都面临法律挑战。在著作权方面,人工智能应用程序生成文学和艺术作品的能力日益增强,可利用大模型模拟人类思维活动、从事智力成果的生成与传播活动,这对著作权制度一直与人类的创造精神以及对人类创造力表达的尊重、奖励和鼓励立场产生挑战。如算法和模型的训练阶段,人工智能训练数据可能存在输入端的
11、侵权责任问题;而在内容生成阶段,输出端的生成物是否属于著作权法保护范围也备受争议。在专利权方面,一是人工智能应用或算法是否应被视为可专利的计算机程序或软件,以及其可专利客体的审查规则究竟如何细化一直备受关注;二是人工智能本身是否具备法律主体 1 见 https:/ 2 见 https:/ 人工智能知识产权法律问题研究报告(2023 年)4 或专利权人资格。在商标权方面,随着越来越多地使用人工智能进行营销,以及消费者受算法推荐影响,需要重新考虑人工智能推荐算法是否会淡化品牌的商标价值。在反不正当竞争方面,人工智能生成内容模糊了原创性辨识,难以判定内容的真实性,使得自动化生成的内容可以通过虚假宣传
12、或误导消费者,可能会涉嫌不正当竞争行为。从产业关心热点来看,核心问题聚焦在著作权上。一方面,需要著作权法界定输入端的合理使用范围和侵权责任承担。在人工智能数据的输入端,大语言模型需要使用大量语料数据。而开发者和企业在未经允许的情况下,通过算法设计和程序运行的自动化,利用他人著作权作品片段组合成创作物表达,“洗稿”“拼凑”其他作品,可能会构成对他人作品的侵权。此时,需要利用著作权法上的合理使用原则来对相关侵权行为进行合法豁免,也需要著作权法主动厘清现有大模型训练中的侵权责任认定规则。另一方面,需要著作权法明确输出端人工智能创作物的保护范围。人工智能的创作活动可能涉及人类作者和人工智能系统之间的合
13、作或分工。尽管人工智能系统可以协助创作者,但通常需要人类创作者来设置参数、提供指导、进行编辑和选择最终的创意成果。著作权可以保护知识和智力劳动的成果,确保创作者得到应有的认可和回报,因而是明确作品权利归属和保护的合理选择。对于产业链上下游的不同参与主体,著作权法参与了重要的利益分配环节。二、现阶段全球人工智能领域主要知识产权问题 本报告分析主要以著作权问题为主。伴随着人工智能产业的快速人工智能知识产权法律问题研究报告(2023 年)5 发展,产业界各方在知识产权领域展开博弈,有关人工智能生成物的知识产权争议也在快速出现。本报告对国外人工智能知识产权争议和案例进行梳理,内容如下:(一)输入端数据
14、训练的合理使用问题(一)输入端数据训练的合理使用问题 输入端合理使用的争议主体主要为著作权作者和大模型公司。一方为担心其作品被人工智能用于数据训练和学习的原创作者,以美国作家协会、George R.R.Martin、Paul Tremblay、Mona Awad、纽约时报、盖蒂图片等为代表。另一方被诉主体为大模型企业,如 OpenAI、微软、谷歌等。为了提供更好的使用体验,生成式人工智能在生成文字作品时,必须进行大量高质量的语料训练。语料库一般会包括多领域的文本素材,如新闻、学术论文、小说、科技文章、医学文献等,以确保模型具备广泛的知识。企业一般会在使用数据之前进行数据清洗,删除或替换可能涉及
15、著作权的内容,但仍有可能使用特定的受著作权保护内容进行训练。此外,大模型的多模态能力使涉案作品呈现出多样化的特点,如 George R.R.Martin 等诉 OpenAI 案涉及文字作品,Sarah Andersen 等诉中道公司(Midjourney)和盖蒂图片(Getty Images)诉Stability AI公司涉及图片作品,Matthew Butterick诉GitHub案中涉及程序代码等。目前各方对大模型训练中合理使用的标准不尽相同,也因此引发各方主体困扰和争议。表 1 输入端合理使用争议 原告原告/争议争议发起方发起方 被告被告/争议针争议针对方对方 案情案情 程序员兼律师Ma
16、tthew GitHub,微软,OpenAI Butterick 认为,GitHub Copilot 大模型在生成代码时使用了 GitHub 上开源代码的代码片段,但未经原创作者的许可,构成侵犯著作权。GitHub、微软人工智能知识产权法律问题研究报告(2023 年)6 3 见 https:/ 见 https:/ 见 https:/ 6 见 https:/ Saveri 律师事务所 和 OpenAI 对此表示否认,称 Copilot 在使用 GitHub上的开源代码进行训练时,只会使用公共领域的代码,不会使用任何受著作权保护的代码。案件仍在审理中。此外,Butterick 在其个人网站上称,2
17、022年 11 月,他们起诉了 GitHub;2023 年 1 月,他们起诉了 Stability AI;2023 年 6 月,他们代表 Paul Tremblay 和 Mona Awad 起诉了 OpenAI3。三名插画师,Sarah Andersen,Kelly McKernan,Karla Ortiz 中道公司(Midjourney),DeviantArt,Stability AI 2023 年 1 月,三名插画师 Sarah Andersen,Kelly McKernan,Karla Ortiz 在美国加利福尼亚州北区地方法院起诉了 Midjourney,DeviantArt 和 St
18、ability AI。原告认为,被告使用的训练素材中包含了他们的作品,但这些公司在使用这些素材时并未获得他们的许可,构成侵犯著作权。被告Midjourney、DeviantArt 和 Stability AI 对此表示否认,称他们在使用这些素材时采取了合理的措施来避免侵权。他们表示,他们只会使用公共领域的素材,或者从创作者处获得许可的素材。2023 年 10 月,美国加州北区地方法院法官驳回了其中两位的索赔,只保留了 Andersen 对 Stability AI 的著作权索赔,并驳回了其他权利要求4。盖蒂图片(Getty images)Stability AI 2023 年 2 月,盖蒂图片
19、声称,Stability AI 通过自己的软件系统,未经许可自动爬取盖蒂图片多达 1200万张图像。盖蒂图片认为这些行为构成了著作权侵权,因为它们未经许可就复制和运用了盖蒂图片的图像,此外,盖蒂图片认为 Stability AI 的绘画作品中常常包含盖蒂图片的商标水印,而且作品常常是“低质量,没有吸引力或具有侵犯性的”,其行为淡化了盖蒂图片的商标,损害了其商标价值5。“人类艺术运动”(Human Artistry Campaign)人工智能公司 2023 年 3 月 16 日,美国唱片业协会(RIAA)联合美国独立音乐协会、美国音乐家联合会、美国出版商协会、国际唱片业协会、录音学院等 30 余
20、个社会团体组建了一个音乐人和艺术家联盟,共同发起了“人类艺术运动”,以保证人工智能不会取代或“侵蚀”人类文化和艺术。该组织的目标是“确保人工智能技术以支持人类文化和艺术的方式开发和使用,而不是取代或侵蚀它的方式”,该组织概述了倡导人工智能最佳实践的原则,“强调尊重艺术家、他们的作品和他们的角色;透明度;以及遵守现行法律,包括著作权和知识产权”6。人工智能知识产权法律问题研究报告(2023 年)7 资料整理:中国信息通信研究院 从争议发生的原因来看,一是,权利人海量但授权机制不明晰。首先,人工智能模型训练需要多个来源的数据,如源自互联网、公共数据库、个人创作等。由于人工智能模型训练的范围越来越广
21、,涉及的权利人也越来越多。在文本生成模型的训练中和在图像生成模型的训练中,海量的作品都存在许可成本问题。其次,不同作品的授权机制和价格各不相同。不同的文字、图片、音乐作品中可能包含复杂的独家授权、非独家授权、转授权等类型,授权费用会根据作品的知名度、使用范围、销量、质量等多种指标综合衡量和确定。因此不同的 7 见 https:/www.npr.org/2023/08/16/1194202562/new-york-times-considers-legal-action-against-openai-as-copyright-tensions-swirl 8 见 https:/ 9 见 http
22、s:/ Paul Tremblay,Mona Awad OpenAI 2023 年 6 月,畅销书作者 Paul Tremblay 和 Mona Awad 起诉 OpenAI,声称,他们的小说被用来训练人工智能工具。根据向旧金山联邦法院提交的起诉书,OpenAI“依赖于从公共互联网上收集大量文本材料,包括原告的书籍”。Awad 和 Tremblay 还声称,当出现提示时,ChatGPT 会生成他们各自书籍的摘要,这只有在 ChatGPT 对原告的著作权作品进行训练时才有可能。美国作家协会及8000 多名作家 微软、Meta和谷歌等公司 2023 年 6 月,美国作家协会及 8000 多名作家签
23、署了一封公开信,要求公司不要在未经许可或未支付报酬的情况下使用这些作家的作品训练人工智能系统。作家们认为,AIGC 技术的开发和应用可能会侵犯他们的著作权和利益。他们要求人工智能公司在使用他们的作品时获得许可并支付报酬。纽约时报 OpenAI OpenAI 使用 纽约时报 的新闻文章来训练其语言模型,但未与该报进行任何授权或合作,引发了该报的不满7。该报的律师正在考虑是否起诉 OpenAI,以保护与其报道相关的知识产权。此外,纽约时报已经屏蔽了 OpenAI 在网上爬取数据的工具8。George R.R.Martin 等作家 OpenAI 2023 年 9 月,George R.R.Marti
24、n 等作家诉称,OpenAI“未经许可批量复制原告的作品”,并将受著作权保护的材料输入大语言模型,输出结果掠夺了相关作者的市场,使作者失去许可机会9。人工智能知识产权法律问题研究报告(2023 年)8 作品会有不同的授权机制。最后,授权机制不明晰导致侵权责任难以确认。由于权利人众多,且授权机制不明晰,因此在人工智能模型训练中获得所有权利人的授权往往是一件困难的事情。即使能够获得部分权利人的授权,也可能存在授权范围不明确、授权期限不明确等问题,从而加剧了模型训练存在的侵权风险。二是,各方对人工智能输入端构成合理使用的法律依据不同。欧盟限定了“文本与数据挖掘机制”。在 2019 年 3 月 26
25、日最终通过的单一数字市场著作权指令中,欧盟对于合理使用采用了作者默示许可以及选择性退出默示许可的机制,以适应人工智能的数据挖掘需求并实现对于创新的激励。日本选择了“非欣赏性利用模式”。2018年的日本著作权法修订,对合理使用增加了新的豁免条款,“不以欣赏作品原有价值为目的的利用”,即对创作的作品内容本身进行使用,而不是出于欣赏、娱乐、教育或艺术等原有价值的目的。根据人工智能机器学习的目的,其符合“用于信息内容本身的分析,而非欣赏原有文化价值”的定义,因此被包含在合理使用范围内。美国对合理使用的认定标准最为灵活。美国著作权法对合理使用的方式归为四要件,包括使用目的和性质,著作权作品的性质,使用部
26、分占被利用作品的比例,以及作品对潜在市场价值的影响。美国对合理使用抽象的规定模式使得法院在个案中有较大的灵活裁量空间,由此为创业公司和科技公司开拓了较大的发展空间。(二)输出端内容著作权保护范围问题(二)输出端内容著作权保护范围问题 输出端内容著作权保护的争议主体为人工智能用户和著作权登人工智能知识产权法律问题研究报告(2023 年)9 记机构。根据美国著作权法,著作权的登记是对著作权权属、效力及所述事实的初步证据,也是著作权侵权诉讼和主张法定赔偿的前提条件,因此图片登记是相关人获得著作权保护的合理选择。而对于被登记的作品,著作权保护的核心诉求是证明作品的独创性,以及区分保护的主体。一方面,由
27、人工智能生成的作品创造性思维的表达并不明晰,现有著作权法无法解释人工智能是否能够独立创作作品。另一方面,对于人工智能应以何种地位出现在著作权作品中,是否可以作为“作者”存在争议。表 2 输出端著作权保护争议 资料整理:中国信息通信研究院 从争议发生的原因来看,一是,坚持独创性标准是人工智能创作物获得著作权保护的理论障碍。问题集中在对独创性中“创造性思维”原告原告/争议争议发起方发起方 被告被告/争议争议针对方针对方 案情案情 Stephen Thaler 美国著作权局 法院裁定生成式人工智能创造的作品不能登记著作权。2022 年 6 月,原告 Stephen Thaler 使用文生图式人工智能
28、“创造力机器”(Creativity Machine)产出了一张名为天堂入口(A Recent Entrance to Paradise)的图像。他以“创造力机器”为作者向美国著作权局递交了著作权登记申请,并解释称该作品由计算机算法自动生成。著作权局以缺乏人类作者身份、人类并未参与创作该作品等理由驳回申请。在陈述申辩、复议未果后,Stephen 向美国哥伦比亚特区联邦巡回法院提起了诉讼。2023 年 8 月,法院判决生成式人工智能创造的作品不能登记著作权。法院认为,人类作者身份是著作权的基本要求,完全由人工系统生成的、没有人类参与的作品不符合著作权保护的条件。插画家Kristina Kasht
29、anova 美国著作权局 图书作者 Kristina Kashtanova 此前将其创作的漫画书Zarya of the Dawn向美国著作权局提起注册,书中使用了部分由 Midjourney 创作的插图。美国著作权局此前曾接受了这一注册。2023 年 2 月,美国著作权局表示将撤回对 Midjourney 部分的著作权保护,认为由Midjourney 技术生成的图片不属于人类著作成果。人工智能知识产权法律问题研究报告(2023 年)10 和“贡献参与”的要求。一方面,对人工智能的“创造性思维”标准是否应该设置较为苛刻的门槛存在争议。著作权法对作品的独创性要求并不需要极高的创新程度,只需一定程
30、度地与现有作品不同即可。因此,要求人工智能生成的作品具有像爱因斯坦相对论那样的开创性,或者像学位论文一样经过严格的重复率检测显得过于苛刻。另一方面,人工智能生成的作品需要考察创作过程中人类对于最终表达的直接贡献度。在创作意图方面,人工智能并不具备传统意义上人类主动的“创作意图”,被动需要人类的启发和参与,尚不具备完全的独立自主性。因此,人类在人工智能生成中的表达参与,即直接贡献,对于最终生成作品的形态和呈现至关重要。二是,坚持人类主体地位是人工智能创作物获得著作权保护的制度障碍。一方面,在案例中,以美国为代表,坚持著作权法中对人类创作主体的地位。在 Burrow-Giles Lithograp
31、hic Co.v.Sarony 案中,美国最高法院的意见就体现出,人类创造力始终是著作权保护的必要条件。即使透过新工具或在新媒介上展现创造力,亦无不同。因此,一般将人类认定为著作权归属者。另一方面,目前的法律条文还没有体现出对人工智能创作者主体资格的支持。美国著作权法 102 条认定,“人类作者身份是美国著作权保护的先决条件”。中国著作权法体现出的主体则是“公民、法人或者非法人组织”。在当前的技术水平下,人工智能还不能完全拥有与人类相同的智力和思想,人类智力是通用型的,而人工智能还远未达到通用型人工智能的水平,人们在实际生活中也并不接受人工智能拥有与自然人同样的人格和地位。人工智能知识产权法律
32、问题研究报告(2023 年)11 从现有规定来看,大模型训练全流程不可避免地涉及到知识产权侵权,适应人工智能产业未来发展的知识产权制度如何构建,成为数字经济时代需要回答的重要问题之一。三、人工智能领域各方知识产权治理相关实践(一)美国:政府加速法律研究,产业主体承担责任(一)美国:政府加速法律研究,产业主体承担责任 为了更好地应对人工智能技术带来的挑战,美国政府采取了一系列措施,包括推进人工智能法律立法节奏、增加听证会和意见征询等手段。美国企业为了解决目前业界对于人工智能知识产权的担忧,承诺为商业客户使用人工智能生成内容的著作权侵权承担诉讼和赔偿费用,进一步保障了使用者的权益。在政策制定方面,
33、美国政府加速制度明晰节奏。第一,美总统颁布行政令要求制定人工智能著作权政策10。行政令责成美国商务部11制定内容认证和水印技术指南,以方便标记原创内容,并检测人工智能生成的合成内容。该认证的目标是将人工智能生成的内容与其他人类原创内容区分开来,并可方便验证内容的真实性,用于鉴定数字内容的著作权。同时,行政令指示美国专利商标局和美国著作权局就可能采取的与人工智能著作权有关的政策向总统提出建议,包括对人工智能生成作品的保护范围,以及在大模型训练中如何处理受著作权保护的作品。最后行政令进一步指示国土安全部制定培训、分析和评估计划,以解决与人工智能商业秘密窃取和知识产权侵权风险。10 见 https:
34、/ 11 美国商务部下辖美国专利商标局,负责知识产权有关政策的制定。人工智能知识产权法律问题研究报告(2023 年)12 第二,美国国会举办多场听证会听取人工智能知识产权立法建议。美国参议院司法委员会举办三次人工智能知识产权听证会。一是鼓励保护人工智能生成内容的著作权。专家普遍认为,人工智能生成的内容具有一定的独创性,应受到著作权法的保护。同时,人工智能生成的内容通常是基于大量数据进行训练的,其中可能包含受著作权保护的作品,在确定人工智能生成内容的著作权归属和侵权行为时,需要综合考虑各方面因素。二是明确合理使用原则应适用于人工智能生成领域,肯定了著作权的既定合理使用原则是平衡人工智能领域竞争利
35、益的最佳方式,虽然某些团体要求为使用内容训练人工智能模型付费,但大家都认为人工智能开发者不可能与每个拥有训练人工智能模型的数据著作权利益的权利人进行谈判并获得许可。最后,听证会建议国会加强人工智能领域知识产权立法,建议明确人工智能生成内容的著作权归属规则,帮助创作者有效维权;加强对人工智能生成内容的著作权侵权的执法力度,以保护消费者;制定人工智能监管框架,防止人工智能技术被用于非法目的侵犯隐私权。第三,美国专利商标局加强意见征询,但主流观点认为现有法律已经足够适应当前情况。2019 年 10 月,美国专利商标局12在征询了律师协会、行业协会、学术界和国内外电子、软件、媒体和制药行业后,发表了
36、人工智能和知识产权政策的公众意见 报告。报告指出,主流观点认为人工智能是工具而非作者,不具备独立的创作意识。根据传统著作权法的有偿工作原则,只有自然人可以成为作者。二是人 12 美国专利商标局隶属于美国商务部,有权就知识产权(IP)政策、保护和执法向美国总统、商务部长和美国政府机构提供建议,其中也包括著作权政策的建议。人工智能知识产权法律问题研究报告(2023 年)13 工智能的独创性争议较大。一些人认为,如果人工智能生成的作品具有充分独创,并且没有人类干预,就应该获得著作权保护,关键问题是确定人工智能系统的所有者或控制人是否应该获得著作权。三是输入端数据训练合理使用原则不够明确。一些评论者认
37、为这可能侵犯著作权,而另一些人认为应该考虑合理使用原则,并提出为著作权人提供补偿。在产业界探索方面,已有企业愿意主动承担知识产权风险。微软承诺为商业客户使用人工智能生成内容的著作权侵权承担诉讼和赔偿费用。2023 年 9 月 7 日,微软宣布为商业客户做出新的副驾驶(Copilot)大模型著作权承诺13。该承诺规定,只要商业用户在使用微软 Copilot 生成内容时,开启了 Copilot 内置的著作权审查和防护机制,在发现侵权行为时,微软将采取措施并向原创作者支付赔偿。如果第三方起诉商业客户使用微软的 Copilot 或其生成的输出侵犯著作权,微软将为客户辩护并支付诉讼导致的任何不利判决或和
38、解金额。该承诺是微软对人工智能生成内容著作权问题的积极回应。微软希望保护原创作者的权益,并促进人工智能技术的健康发展。谷歌承诺若商业客户使用谷歌云的 AIGC 服务,一切训练数据侵权或生成物侵权将由谷歌进行赔偿。2023 年 10 月 12 日,谷歌表示他们将为使用其Duet AI 和 Vertex AI 产品的商业用户提供法律保护,以防他们因侵犯著作权而面临诉讼。这一承诺旨在消除对生成式人工智能可能侵犯著作权规定的担忧14。谷歌表示,它将遵循“双管齐下、行业首创的方 13 见 https:/ 见 https:/ 年)14 法”进行知识产权赔偿。一是输入端训练数据的赔偿,在谷歌使用训练数据创建
39、人工智能大模型的过程中,侵犯第三方知识产权的任何指控,都将由谷歌承担。二是生成物的赔偿,当生成物由客户创建时,谷歌的赔偿义务适用于其生成物侵犯第三方知识产权的指控。以上的赔偿包括诉讼费用及可能产生的著作权费用。谷歌提醒用户,只有在没有故意创建或使用生成物来侵犯他人权利,并且在引用时标明来源的情况下,该赔偿才适用。(二)日本:明晰合理使用原则,避免侵犯原著作权(二)日本:明晰合理使用原则,避免侵犯原著作权 一方面,日本政府明晰了输入端的合理使用标准,明确鼓励数据训练。2018 年,日本对著作权法进行了修订,在第 30 条第 4 款中增加了“不以欣赏作品原有价值为目的的利用”豁免条款,即对创作的作
40、品内容本身进行使用,而不是出于欣赏、娱乐、教育或艺术等原有价值的目的。而大模型的数据训练是针对数据本身的内容进行学习,并不是出于个人本身的价值欣赏目的,符合 著作权法 的规定。这次修改总体上扩大了合理使用的范围,旨在鼓励创新,以适应人工智能和大数据等技术的兴起。自 2023 年以来,日本政府又通过多项措施强调现有的合理使用标准不会动摇。先是在 2023 年 4 月 24 日,日本文部科学大臣永岡桂子在记者会中表示,日本法律不会保护人工智能模型训练集中使用的著作权材料,也即允许人工智能模型训练对于著作权人作品的利用,无论是出于非营利或商业目的,无论是复制还是复制以外的行为。然后在 2023 年
41、5 月 17 日,日本参议院通过了 indemnification 人工智能知识产权法律问题研究报告(2023 年)15 一项新的著作权法修正案,但未对第 30 条第 4 款进行修改,这表明立法者认为该规定足以适应生成式人工智能等新技术带来的著作权挑战。最后在 2023 年 6 月,日本文化厅与内阁 AI 战略部门在人工智能与著作权法关系解释性文件中明确,在开发和训练阶段,应鼓励开发者创新但不应侵害著作权人正当利益。在将他人的著作权作品用于 AI 开发时,如果“使用行为不是为了侵占他人表达的思想或感受,则可以未经著作权所有者的许可使用受著作权保护的作品”。另一方面,日本政府明确以侵犯原有著作权
42、为目的的数据训练,属于侵权行为。根据 2018 年修订的日本著作权法,在数据训练的限制条件上,使用形式应为作品的“非表达性利用”,即“不是为了表达作品而使用作品”的使用形式。它明确定义了侵权行为:一,行为目的不是对作品文本内容信息的分析和机器内部的加工处理等行为;二,行为旨在向公众传播作品的表达内容。例如,以制作可以感受到原始照片“所表达的本质特征”的图像为目的,从风景照片中提取必要的信息制作数字图像;或者将出售的作品著作权数据库复制,用于人工智能模型训练,属于侵权行为,因为以上行为超过了必要限度,损害著作权人正当权益。如果认定 AI 图像与现有作品相似或基于现有作品创作,著作权人可以申请著作
43、权侵权的损害赔偿或禁令,而侵权人也可能受到刑事处罚。(三)欧盟:保护企业数据挖掘,推进治理精细水平(三)欧盟:保护企业数据挖掘,推进治理精细水平 在加速人工智能产业发展方面,欧盟明确了开发者进行数据挖掘时的合理使用原则。欧盟在 2019 年通过的单一数字市场著作权指人工智能知识产权法律问题研究报告(2023 年)16 令中解决了人工智能输入端数据学习中的侵权责任。其创设了第 3条“以科学研究为目的的文本和数据挖掘”和第 4 条不限制目的的“文本和数据挖掘”合理使用情形,以解决文本与数据挖掘对著作权保护带来的挑战。第 4 条规定的“不限制目的的文本和数据挖掘”情形适用于商业领域中的模型训练活动。
44、这一规定采用了作者默示许可大数据企业将内容用于机器学习,并赋予作者选择自己的作品可以不被用于机器学习的权利。核心是对在“文本和数据挖掘”过程中的“作品复制行为”进行豁免。要求是获取被训练作品和其他内容必须合法,同时著作权人未明确保留文本和数据挖掘的权利。其合理使用的范围广泛,适用于商业领域的模型训练,条件相对宽松,仅要求内容合法获取且著作权人未明确保留文本和数据挖掘的权利,能显著降低模型训练平台的著作权风险。在人工智能产业治理方面,欧盟推进知识产权规则适用的精细化水平。欧盟在人工智能公司的监管和治理上以人工智能法案数字市场法 数字服务法 等为制度保障。2023 年欧洲议会通过的 人工智能法案从
45、保护权利人自由决定权与利益角度出发,要求彻底记录任何用于训练 AI 系统如何生成类似于人类作品的文本、图像、视频和音乐的著作权材料。这将使权利人知道其博客文章、电子书、科学论文或歌曲是否已被用于 ChatGPT 等人工智能模型的训练,然后他们可以决定其作品是否可以被复制并寻求补偿。对于生成式人工智能工具如 ChatGPT,法案尝试按照其潜在风险进行分类,将透明度要求与风险级别挂钩,并实施不同的监管措施,强大计算能力的模型将人工智能知识产权法律问题研究报告(2023 年)17 面临更严格的规定。此外,用于数据训练模型的数据也将受到额外审查,这意味着对于封闭数据源模型的数据合规性要求将更为严格。尽
46、管欧盟在实施这一法案方面可能需要数年时间,但这无疑是一个在人工智能发展和数据使用规范方面值得关注的法律方向。(四)中国:明确尊重知识产权,立法司法协同探索(四)中国:明确尊重知识产权,立法司法协同探索 其一,网信办出台办法明确必须尊重知识产权。国家网信办联合七部门发布的生成式人工智能服务管理暂行办法已施行,其中第四条第三项、第七条第二项要求在使用生成式人工智能的过程中必须尊重知识产权、不得侵害他人依法享有的知识产权。该办法的规定,为规范生成式人工智能服务的知识产权保护提供了法律依据。生成式人工智能服务提供者应当严格遵守该办法的规定,尊重知识产权,保护原创作者的合法权益。其二,司法明晰人工智能知
47、识产权的保护条件。“菲林律师事务所诉百度案”15明确了人类参与AI生成是独创性的必要来源。原告菲林律所利用“威科先行”法律信息库,设置相应的检索条件,由该计算机软件智能生成了关于影视娱乐行业司法数据的分析报告,并在此报告的基础上整理创作了推送文章。被告百度未经菲林律所许可,在删除了涉案文章的署名、引言、检索概况等部分内容后,在其经营的百家号平台上发布被诉侵权文章。2019年5月,北京互联网法院一审宣判此案,判决认定计算机软件智能生成的涉案文章内容不构成作品,但其相关内容亦不能自由使用,百度未经许可使用涉案文章内容构成 15(2018)京 0491 民初 239 号北京菲林律师事务所诉北京百度网
48、讯科技有限公司著作权侵权纠纷一案民事判决书,北京互联网法院,https:/ 人工智能知识产权法律问题研究报告(2023 年)18 侵权。在针对人工智能生成的作品的独创性判定上,法院认为,考察个性化来源时,需要基于数据差异产生的个性化特征,因为差异是由不同的数据选择、软件选择或图形类别选择所致,亦非原告自身智力创作获得,因此不能体现原告的独创性表达,故不具有独创性。“腾讯诉上海盈讯科技案”16明确了企业的参数选择和设置构成独创性参与。腾讯公司自主开发了一套基于数据和算法的智能写作辅助系统,名为“Dreamwriter”,用以满足规模化和个性化的内容业务需求。2018年8月20日,深圳腾讯公司在腾
49、讯证券网站上首次发表了一篇财经报道文章,并在涉案文末尾注明“本文由腾讯机器人Dreamwriter自动撰写”。本案的被告上海盈讯公司未经腾讯公司许可和授权,在文章发表当日在其运营的网站转载了文章。2019年12月,深圳市南山区人民法院法院宣判,判决认为Dreamwriter软件生成的内容构成文字作品。法院并没有打破作品必须是作者的智力创作的一般法律规则,为了证明该人工智能产品构成作品,法院在判决书中强调,本案所涉文章是由原告深圳腾讯公司的首席创作团队成员使用Dreamwriter软件生成的。创作团队在数据输入、触发条件设置、模板选择、语料风格等方面的安排和选择是与涉案文章的具体表达形式直接相关
50、的智力活动,该文章的表达形式是由原告主要创作团队相关人员的个性化安排和选择决定的。因此,涉案作品具有独创性,属于我国著作权法保护的文字作品。也就是说,本案中法院认定的作品并没有完全脱离人类的智力活动,并非完全由人工智能产生的文字内容。它们不是由人工智 16(2019)粤 0305 民初 14010 号深圳市腾讯计算机系统有限公司诉上海盈讯科技有限公司侵害著作权及不正当竞争纠纷案民事判决书,深圳市南山区人民法院 人工智能知识产权法律问题研究报告(2023 年)19 能独立创造的,而只是人类智力活动在人工智能协助下的结果。综合以上的两个案例可以看出,两个案例在独创性判定,作品构成判定、人工智能参与