生成式人工智能的法律定位与分层治理.pdf

资源描述

1、ChatGPT 的法律回应文章编号:1001-2397(2023)04-0126-16收稿日期:2023-03-01基金项目:国家重点研发计划重点专项“知识产权司法保护与跨部门协同服务关键技术研究”(2022YFC3303000)作者简介:张凌寒(1982),女,河北张家口人,中国政法大学数据法治实验室教授、博士生导师,法律博士。生成式人工智能的法律定位与分层治理张凌寒(中国政法大学,北京 100091)摘要:生成式人工智能改变了数字社会的生产架构,向既有的技术治理体系提出挑战。一是生成式人工智能呈现“基础模型专业模型服务应用”的分层业态,无法在现有的“技术支持者服务提供者内容生产者”监管框

2、架中找到适配的法律定位;二是其传播模式和技术指标使得原有规制工具难以适用。生成式人工智能治理应符合其功能业态的技术逻辑,也应基于其在数字社会生产的地位,重新认识和调整生成式人工智能的法律定位,将模型作为新型的法律治理对象。生成式人工智能的基础模型因可接入千行百业而具有通用性,因同时提供信息内容与机器所需合成数据而具有强大赋能性,是人工智能时代的新型数字基础设施。应构建“基础模型专业模型服务应用”的分层治理体系,在不同的层次适配不同的规制思路与工具。在基础模型层以发展为导向,将其作为数字社会新型基础设施设置法律制度;在专业模型层以审慎包容为理念,进行分级分类并设置合理避风港规则;在服务应用层实施

3、敏捷治理,建立合理容错制度。由此,我国得以从单一场景的算法治理发展为适应不同治理目标的复合型系统性治理。关键词:生成式人工智能;分层治理;数字基础设施;模型规制中图分类号:DF03 文献标志码:A DOI:10.3969/j.issn.1001-2397.2023.04.09 开放科学(资源服务)标识码(OSID):一、问题的提出从美国人工智能公司 OpenAI 推出的爆款应用 ChatGPT 到其迭代产品 GPT-4 上线问世,仅仅间隔 4 个月时间。相比 ChatGPT,GPT-4 实现了几个方面的飞跃式提升:识图能力得到强化,文字输入限制提升,回答准确性显著提高,能够生成歌词、创意文本,

4、并实现不同风格切换。一时之间,各大互联网公司纷纷在 2023 年 3 月内发布研发成果:著名人工智能绘画工具 Midjourney 升级至6212023 年 7 月第 45 卷第 4 期 Modern Law Science Jul.,2023Vol.45 No.4Midjourney V5;谷歌开放大语言模型 PaLM 的 API,同时发布了帮助开发者快速构建生成式 AI 应用的工具 MakerSuite;Adobe 全新创意生成式人工智能 Firefly 亮相;百度发布文心一言,等等。大模型驱动的生成式人工智能以前所未有的态势闯入了社会生活的方方面面,不仅推动人工智能技术进入新的时代,也

5、可以预见其将在基础科学研究、学术出版、医药研发、教育等多个领域带来深刻影响。预训练大模型加速了人工智能技术的迭代发展,以 ChatGPT 为代表的生成式人工智能并非昙花一现。其对社会的深远影响可体现在以下三个层面:第一,在知识生产层面,科研方法不再受困于自由度过高引起的“维度灾难”,深度学习可以承载海量计算,科研范式将从效率比较低的“作坊模式”转向“平台模式”;第二,在人机关系层面,信息内容传播方式从平台加算法的推荐信息流传播,到一对一智慧问答传播,实现了认知层面的人机对齐;第三,在产业发展层面,ChatGPT 类生成式人工智能大模型的主要功能在于为产业赋能,其可以接入多个垂直行业应用提高生产

6、效率。生成式人工智能表现虽然惊艳,但带来的风险与法律挑战同样令人担忧。其知识产权侵权、生成虚假信息问题受到广泛关注,同时,它在训练过程中需要被“投喂”海量数据的来源问题、它所生产的内容中潜在的歧视问题,给数据安全、算法安全、网络谣言、数据主权、国家安全等方面带来潜在风险。生成式人工智能的发展超出各国监管预期,因此尚未与各国法律中对个人信息处理者、数据处理者与算法服务提供者的相关义务协调衔接。正是考虑到生成式人工智能给社会治理等各方面带来的挑战,各国政府不约而同做出了相应的立法与监管动作。意大利宣布从 3 月 31 日起禁止使用 ChatGPT,同时对其隐私安全问题立案调查。德国、法国、爱尔兰等

7、国也效仿意大利的做法,加强对生成式人工智能的监管。4 月 11 日,美国商务部下属机构也发布“人工智能问责政策”征求意见稿,就是否需要对 ChatGPT 等人工智能工具监管征求意见。同日,国家网信办发布生成式人工智能服务管理办法(征求意见稿)(下文简称办法(征求意见稿),拟规范生成式人工智能的发展。2023 年 7 月 10 日,生成式人工智能服务管理暂行办法公布。当前,生成式人工智能的治理仍是多方聚焦共商的重要话题。一是我国的网络治理与算法监管一直以来以服务提供者作为抓手,要求其承担主体责任并履行一系列网络、数据、算法的安全运行义务,但生成式人工智能以预训练大模型作为技术基座,原有以服务提供

8、者为抓手的监管框架无法直接将义务施加于生成式人工智能技术提供者。二是目前对于生成式人工智能服务的定位无法确定,显然互联网信息服务深度合成管理规定(下文简称深度合成管理规定)对技术支持者仅将其作为服务提供者的辅助者,范围过于狭窄,无法应对居于技术运行关键地位的生成式人工智能技术提供者。三是原有的算法治理框架诸多具体制度均以解决企业和监管部门的信息不对称为目标,算法备案、算法透明、算法解释等均以企业向监管部门披露信息为目的。但生成式人工智能的预训练大模型海量的训练数据和数以千亿的参数设置显然进一步加剧了监管工具的适用难度。甚至可以说,在面对生成式人工智能时,社会公众、监管部门,甚至开发企业本身都共

9、同面对着未知721张凌寒:生成式人工智能的法律定位与分层治理参见郭春镇:生成式 AI 的融贯性法律治理以生成式预训练模型(GPT)为例,载现代法学2023 年第 3 期,第 89 页。参见王卫:平衡科技创新与隐私保护多国计划加强对 ChatGPT 监管,载法治日报2023 年 4 月 10 日,第 5 版。领域。此次生成式人工智能的监管思路,相比于深度合成的监管确实体现出监管逻辑更新和制度体系迭代的新趋势。但也需要指出,办法(征求意见稿)仍采取算法和深度合成的评估、标注等监管工具,其规制的主要对象仍是信息内容服务。然而,生成式人工智能的功能远不止提供信息内容服务,智慧问答只是其诸多功能中

10、的一个。生成式人工智能可以作为“技术基座”赋能金融、医疗、自动驾驶等多个领域。在产业分层中,生成式人工智能首先通过海量数据使得生成式人工智能底层大模型“见多识广”,具有强大能力;其次通过“术业有专攻”的专业优化训练,让其适配不同行业和场景;再次可以向 C 端用户直接提供服务应用。未来将为千行百业赋能,成为人工智能时代的数字基础设施。本文主要讨论生成式人工智能如何在法律体系中定位以及监管框架构建。生成式人工智能的技术跃迁正在推进产业变革,现有监管体系亦面临挑战,制度应如何回应?技术与社会制度的关系正在超越线性的决定论,制度可影响技术发展的进程但无法控制其进化的路径。本文的讨论突破了机械决定论和传

11、统线性思维方式,强调技术与制度的交互作用。生成式人工智能正在改变数字社会生产结构与社会关系。制度应面对技术发展,合理定位并与技术形成良性互动。二、生成式人工智能改变网络治理底层架构带来法律定位困难与监管挑战我国网络法律制度框架基本搭建完成,一直以来的网络治理不约而同以网络服务提供者作为关键主体,因此平台责任一直是技术治理的核心议题。相对而言,技术支持者由于并不与用户直接发生互动因而并非规制的重点。我国的人工智能治理体系中,对技术支持者的要求一般为遵循人工智能伦理的软性要求,硬性要求仅在深度合成管理规定有所规定,即参照服务提供者承担一定的合规义务。此外,为了解决监管部门与技术企业信息不对称的问题

12、,我国的监管工具箱包括算法备案、算法检查、算法解释说明等。这个规制体系适应平台聚合用户生产内容并通过算法进行信息推送的数字生产逻辑,但在人工智能生成内容时代则存在一系列制度上的不适应之处。(一)现有监管框架的“技术支持者服务提供者内容生产者”体系及其逻辑数据、算法、平台都是人工智能治理的具体对象。近十年间,我国围绕平台经济的兴起建立起现有的网络法律制度框架。平台作为服务提供者是网络法律规则的核心规制对象,平台责任也成为数字经济治理的核心议题。后续随着技术应用的发展,我国的网络治理框架向前延伸至“技术支821 现代法学 2023 年第 4 期参见张凌寒:深度合成治理的逻辑更新与体系迭代

13、ChatGPT 等生成型人工智能治理的中国路径,载法律科学2023 年第3 期,第 45 页。参见美爱德华阿什福德李:协同进化:人类与机器融合的未来,李杨译,中信出版社 2022 年版,第 334-336 页。相关研究参见张欣:从算法危机到算法信任:算法治理的多元方案和本土化路径,载华东政法大学学报2019 年第 6 期,第17-30 页;赵鹏:私人审查的界限论网络交易平台对用户内容的行政责任,载清华法学2016 年第 6 期,第 115-132 页;薛军:电子商务法平台责任的内涵及其适用模式,载法律科学2023 年第 1 期,第 57-68 页;胡凌:平台视角中的人工智能法律责任,载交大法

14、学2019 年第 3 期,第 5-19 页;张凌寒:平台“穿透式监管”的理据及限度,载法律科学2022 年第 1 期,第 106-114 页。持者”。为了内容监管的需要,也将“内容生产者”纳入了网络治理体系,形成了依照“技术支持者服务提供者内容生产者”三类主体分别设置法律责任,以服务提供者为核心抓手的规制体系。网络服务提供者(平台)是汇聚用户生产的信息内容和调动生产资源要素的社会生产组织者。服务提供者的责任内容逐渐丰富的过程,也是平台逐步在数字社会生产中组织更多社会资源、加强数字基础设施建设与增强对生产要素控制力的过程。服务提供者不断整合信息基础服务(如身份认证、物流)、交易流程、信用评价、内

15、容推荐,并把劳动力(如骑手)、实体资源(如网约车、饭店)等生产性资源链接到网络上,改变了工业经济生产方式,形成了依托服务提供者调动生产资源、匹配多方需求的网络,通过海量用户吸引更多的服务链接到平台上形成网络效应。因此,网络服务提供者的法律义务在近年来急剧扩张,国家从个人信息保护义务、数据安全、算法安全、信息内容安全等多个方面均提出了压实主体责任的主张。具体到信息内容领域,我国逐步形成了以服务提供者为核心,向前延伸至技术支持者,同时扩展到内容生产者的治理链条。网络信息内容生态治理规定规定了内容生产者的范围,即制作、复制、发布网络信息内容的组织或者个人。技术支持者进入规制范围则源自深度合成管理规定

16、,主要是指为服务提供者提供技术支持,如提供具有编辑生物识别等特定信息功能的模型、模板等工具的技术者。信息内容安全的治理体系依照从内容生产(内容生产者)、传播过程(服务提供者)和用户接收终端(用户)流程构建。内容生产环节包括在权威信息源通过发放互联网新闻牌照进行控制,在用户信息源通过账户账号管理避免机器人、水军、僵尸账号等问题,并要求以上内容生产者承担遵守内容安全底线的义务;在传播过程中压实服务提供者的平台主体责任,要求平台作为服务提供者建立包括过滤、辟谣、提示、标记、应急、删除等机制的安全管理体系,并同时管理算法控制推荐信息流。对技术支持者的要求始于深度合成管理规定,因其模板等技术支持可以影响

17、内容生成。服务提供者始终是算法和人工智能监管的重点,对技术开发层的技术支持者则多为伦理要求,少有直接规制。人工智能技术有待解决的风险包括信任风险、公平风险、失控风险、社会风险、责任风险,对应的治理需求则是实现人工智能的透明度、公平性、可控性、包容性和可问责性。一般认为,我国人工智能治理中对于算法系统设计使用的公开透明、算法结果的公正、相应问责机制的建立等制度基本由现有算法监管体系实现。这些制度的最终落脚点仍落在服务提供者身上。综上所述,我国的网络治理体系以服务提供者(平台)作为核心抓手是基于其数字社会生产组织者的地位。在信息内容领域更是明确了“技术支持者服务提供者内容生产者”的监管框架,规制对

18、象一般为服务提供者和内容生产者,技术支持者仅由于对信息内容的影响刚刚被纳入监管范围。(二)生成式人工智能的分层业态突破主体界分引发法律定位困难生成式人工智能整个产业呈现明显的分层,区别于原有的“技术支持者服务提供者内容生921张凌寒:生成式人工智能的法律定位与分层治理参见胡凌:平台视角中的人工智能法律责任,载交大法学2019 年第 3 期,第 6 页。参见张凌寒:平台穿透式监管的理据及限度,载法律科学2022 年第 1 期,第 109 页。参见张凌寒:数字生产论下的数据安全保障义务,载法学论坛2021 年第 2 期,第 51 页。产者”相对泾渭分明的法律主体界分,从底层的基础模型开始即可对终

19、端的服务应用层内容生产产生直接影响。生成式人工智能整体呈现将技术支持、服务提供与内容生产“三位一体”融合的技术形态,打破了现有的网络治理法律制度对数字社会生产方式在结构方面的底层设定。生成式人工智能的业态可分为三个层次,分别为“基础模型专业模型服务应用”。第一层为基础模型层。可以将基础模型层理解为操作系统,世界范围内可能存在少量具有竞争关系的通用性基础模型,以及若干在特定行业高价值专业化的基础模型。但由于训练开发成本惊人,因此只能由少数知名企业与机构提供。超千亿参数的大模型研发,并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模人工智能

20、基础设施的支撑。生成式人工智能大模型与云计算相互依赖,在云服务基础上叠加模型即服务的业态,可为专业模型层提供人工智能基础服务,也可直接为客户端用户提供服务。第二层为专业模型层。在基础模型的技术支持下,企业可通过深度学习平台等进行适应专业垂直细分领域和场景的个性化定制。作为下游垂直细分领域的开发者,可以在基础模型的基础上简化开发工作,并以专业模型为基础开发服务应用。与开发昂贵的基础模型不同,产品模型是在基础模型基础上进行专业领域知识与专业数据的优化训练。这是因为直接将基础模型应用于专业领域存在可信性不足的问题,也会由于缺乏专业知识导致表现不佳,如专门为生物制药提供服务的产品模型,专门构建融合了领

21、域知识的大模型分子图预训练模型,应用于药物设计、靶点发现等生物制药领域,并将其作为生物制药模型的核心基础。这类专业模型可被用于金融、就业、生物医药、教育等领域,根据垂直细分场景需求专门训练或定制。第三层为服务应用层。该层兼具技术与内容生产者角色,如应用于搜索引擎、智能问答、音视频生成,直接为客户端用户提供服务。当基础模型直接提供客户端的智慧问答时,就成为了服务应用层,如 ChatGPT 即基础模型直接为用户提供智慧问答服务。技术跃迁突破了现有法律制度的底层设定。“技术支持者服务提供者内容生产者”的法律主体界分已经随着技术的发展被逐渐消解。先是近年来技术中立原则被立法和判例屡次否认,服务提供者和

22、内容生产者的角色界限已经不再明晰。生成式人工智能的大模型进一步将三者功能实质上融为一体,既可以模型即服务的形式为企业提供技术服务,又可以通过智慧问答的方式直接提供对用户的内容生成,法律主体的界限在技术实际运行中已经模糊。互联网发展初期的技术结构,也就是专业生产内容时代确立的“网络服务提供者”与“内容生产者”的二元结构已经随着技术发展被逐渐消解。在用户生成内容时代,平台是“服务提供者”,用户取代专业媒体成为海量的活跃于平台的“内容生产者”。平台通过算法控制用户生成内容的信息流,既是信源又是信道,成为“基于算法”的信息发布者。平台(服务提供者)基于推荐算法对信息流的控制,使其一定程度上具有了内容生

23、产者的性质,经过了较长的理论探讨和司法判例才在司法判例中得到承认。031 现代法学 2023 年第 4 期张凌寒:搜索引擎自动补足算法的损害及规制,载华东政法大学学报2019 年第 6 期,第 41 页。生成式人工智能的底层通用能力直接打破了网络治理领域一直以来的网络服务提供者与信息内容生产者的二元藩篱,更是进一步将“技术支持者”的功能与上述二者相融合。例如,ChatGPT 可以被接入智能客服场景,当用户与智能客服发生对话时,其提供的内容既直接与基础模型的预训练数据与参数有关,也与专业模型的优化垂直领域训练数据直接相关。有学者从划分标准、规则适用、理论体系等方面论证了生成式人工智能服务提

24、供者在形式上符合网络内容服务提供者的定义,但在实质意义上不宜将其认定为网络内容服务提供者。与此同时,在模型即服务的业态下,无论是通过 API 接口介入基础模型并保持在线的形式,还是提供开源基础模型服务的形式,其在现有监管框架内又同时符合“技术支持者”和“服务提供者”角色。如果说用户生成内容时代,法律可以通过提高平台基于算法的注意义务来进行法律角色与责任规则的调适,那么,在人工智能生成内容时代,三分的法律主体认定规则是否有存在必要都成了问题。生成式人工智能使得数字社会生产方式的结构已经发生变化,以原有的主体为核心的治理模式无法应对技术的发展。(三)生成式人工智能的传播模式与技术指标难以适用原有监

25、管工具生成式人工智能的技术跃迁,已经形成了底层技术基座与产业技术链条,训练数据与参数指数级增长,打破了现有的网络治理法律制度对数字社会生产方式在信息传播方式方面的底层设定。这使得围绕信息不对称建立起来的透明度监管工具箱面临着困难,信息内容传播中的责任认定和责任分配也面临着挑战。产业模式和技术参数指标决定了透明度的监管工具箱的适用困难。生成式人工智能的预训练大模型类似于其在海量数据的自监督学习阶段完成“基础”教育,然后再由垂直产业企业根据自身需要进行专门性训练和参数微调,类似于“专业”教育。过去算法监管针对的是分散化的模型研发131张凌寒:生成式人工智能的法律定位与分层治理参见徐伟:论生成式人

26、工智能服务提供者的法律地位及其责任以 ChatGPT 为例,载法律科学2023 年第 4 期,第 74页。参见杨清清:文心一言终亮相,载21 世纪经济报道2023 年 3 月 17 日,第 12 版;许洁、刘霄引:阿里大语言模型“通义千问”亮相聚焦企业级市场提供普惠 AI 基础设施,载证券日报2023 年 4 月 12 日,第 3 版。模式,现在的预训练大模型具有通用性和泛化性,带来了标准化的人工智能研发范式。在共享参数、多个主体在不同环节分别训练的情况下,信息披露变得愈加艰难。从技术指标上看,大模型参数规模逐步提升至千亿、万亿,数据特征高维、模态格式多样的趋势也逐渐明显,计算复杂度会随之

27、呈指数增加,这意味着人工智能的可解释性更差。除了数据和参数的指数级增长,生成式人工智能可从给定数据中直接估计一个分布并生成新数据,可发现同类数据本身的相似度但非复制,给自动化决策结果的解释说明带来了更多困难。生成式人工智能改变了网络信息传播方式,这使得信息内容安全方面的责任认定和责任分配规则面临挑战。生成式人工智能生成的内容更加个性化、定制化,投放方式更为精准。信息传播方式从“信息的搜索和呈现”,如推荐信息流、搜索引擎等方式,跨越到了“独立解决问题”的方式。在为用户解决问题(如协助创作、回答、完成任务)的过程中将定制化的产品或者服务分发给用户。这是否落入网络安全法第 24 条有关网络实名制的范

28、围内呢?智能问答难以精确归属于“为用户提供信息发布、即时通讯等服务”,因此生成式人工智能是否应贯彻网络实名制的要求存在争议。此外,如果在用户的提问引导下,生成式人工智能产出了不符合信息内容安全的结果,生成式人工智能服务提供者是否要承担“内容生产者”的义务呢?在与用户的互动中,生成式人工智能可以进一步依据用户需求和使用习惯调整输出内容。内容的产生是一个动态迭代和优化的过程,可以通过收集反馈和评估效果不断调整和改进。这种情况下,用户与生成式人工智能服务提供者共同影响生成的内容,这使得有关信息网络传播的定义和法律责任认定规则都可能面临挑战。综上所述,生成式人工智能不仅是人工智能技术的迭代革命,也意味

29、着数字社会生产方式进一步向前推进。一方面,生成式人工智能产业呈现分层状态,“基础模型专业模型服务应用”的技术业态使得各层兼具“技术支持者服务提供者内容生产者”功能;另一方面,生成式人工智能改变了网络信息传播方式,训练数据与参数指数级增长。生成式人工智能的技术特点和产业形态打破了现有的网络治理法律制度对数字社会生产方式在结构与信息传播方式方面的底层设定,本质上重构了网络法的底层架构,这必然要求对其法律地位和治理框架进行重新认识和调整。三、生成式人工智能分层业态下的法律定位:基础模型层是数字基础设施面对一套技术系统,首要的是判断其究竟是一个独立的技术系统,还是一整套生产方式。讨论生成式人工智能的法

30、律角色及法律治理,需要究其本质,探讨其在数字社会生产中对生产方式的影响。生成式人工智能的基础模型因可接入千行百业而具有通用性,推动着数据要素流动以及具有公共性的融合计算服务体系建立;同时提供网络信息内容与机器所需合成数据具有强大赋能性,是人工智能时代的新型数字基础设施。作为新型数字基础设施,生成式人工智能基础模型本身具有通用性,并且因为对下游产业的控制力而具有公共性。(一)基础模型融合数据算法算力三要素成为独立规制对象基础模型融合海量数据、算法、算力,是人工智能时代的“重工业”,高昂的成本必然使基础模型231 现代法学 2023 年第 4 期参见胡凌:理解技术规制的一般模式:以脑机接口

31、为例,载东方法学2021 年第 4 期,第 46 页。从“百花齐放”到“数枝独秀”,而改变现有各平台分散研发的模式,这打破了现有的网络治理法律制度对数字社会生产方式的底层设定。无论是基于风险的治理,还是基于主体或基于应用的治理,均形成于人工智能专用模型作为底层架构的发展阶段。生成式人工智能的分层业态中,基础模型是底层核心技术,也是人工智能研发工程化的重大创新。基础模型最重要的是进行“训练”,无论是预训练还是优化训练,都是对数据、算法、算力等要素资源的精巧组合,最后形成具有超大规模参数量的基础模型。“训练”既是生成式人工智能投入产业应用前的技术工程,又直接影响到后续专业模型的表现和服务应用的内容

32、。深度合成管理规定首次明确了深度合成服务提供者和技术支持者对训练数据的管理义务,不过规定并未进一步就训练数据的管理细则提出要求。“训练数据”在生成式人工智能治理中已经作为专门对象,说明监管部门充分认识到训练应该成为法律调整的对象,因其直接关系生成式人工智能的法律定位与相关权利义务分配。基础模型的训练数据与生成结果之间的关系,早已超越“算法黑箱”的复杂性,数据规模产生“涌现”现象,更类似于食物被消化长成了骨骼肌肉。大模型的训练需要强大的数据预处理能力,在模型训练之前,通常依赖专业数据团队对数据集进行去重、清洗、分词、词的正则化或标准化等一系列预处理。通过海量数据的“投喂”后,大模型会在某个临界值

33、出现“涌现”现象,意指在训练量较小的时候,其结果与随机结果差不多,但当训练量超过某个阈值的时候,模型处理复杂问题的能力和精确度突然大幅提升。可以理解为大模型通过海量学习,经历记忆期和平台期,方可“顿悟”到其中规律,达到具有强大处理能力的泛化期。而这也是大模型获得底层通用能力的原因。由此可见,模型训练的目的是获得“能力”,这与既有法律制度中的信息内容监管、以风险为导向的分级分类治理的监管目标有所不同。与此同时,训练行为也与个人信息处理行为、算法推荐服务提供、数据处理行为等现有法律体系中的相关概念有所不同。第一,模型训练过程有机融合了数据、算法、主体、场景等人工智能的监管对象。目前我国的技术治理体

34、系中,设立了数据、算法、主体、场景四大类分级分类的标准。我国目前初步构建的多系统分级分类法律体系将基础模型的风险判断因素有机融合,在基础模型的风险级别判断标准上,包含了数据处理量级及广泛被应用的场景两大考量因素。第二,训练数据的质和量是生成式人工智能高质量发展的基础,办法(征求意见稿)专门对数据质量提出要求。基础模型的生成内容与训练数据存在相关关系,分析认为 ChatGPT 出现输出价值观偏差的核心原因,是数据集在多样性、代表性、公正性等方面存在缺陷,导致偏见、刻板印象、文化片面性等问题。此外,在办法(征求意见稿)出台以前,就有对“数据质量”的法律规定,这些要求或来源于政策文件的倡导性条款,或

35、来自防止弄虚作假等“合法性”的要求。第三,模型训练行为独立于个人信息处理行为、算法推荐服务提供及数据处理等既有法定行331张凌寒:生成式人工智能的法律定位与分层治理参见张欣:生成式人工智能的算法治理挑战与治理型监管,载现代法学2023 年第 3 期,第 116 页。参见姚前:ChatGPT 类大模型训练数据的托管与治理,载中国金融2023 年第 6 期,第 51 页。参见张凌寒:深度合成治理的逻辑更新与体系迭代 ChatGPT 等生成型人工智能治理的中国路径,载法律科学2023 年第3 期,第 45 页。参见陈昌凤、张梦:由数据决定?AIGC 的价值观和伦理问题,载新闻与写作2023 年第

36、4 期,第 17 页。为,这主要体现在前述诸多行为的相关法律规范难以适用于训练行为的规制上。如基础模型的训练需要海量数据,训练数据中涉及的“个人信息”的处理和使用存在违反我国个人信息保护法中的“最小必要”原则要求的风险。用户在使用 ChatGPT 过程中所提供的个人信息上附着的个人信息法定权益,如撤回、修改、删除的权利等,现阶段都难以通过有实质性帮助的便捷方式得到保障。但在基础模型的训练过程中,生成式人工智能服务提供者作为数据处理者,仍应依据数据安全法履行数据安全保障义务。由此可见,基础模型的训练已经成为了一个融合了数据、算法、算力的专门过程,需要出台专门的、独立的规范予以规制。办法(征求意见

37、稿)拟将训练数据列为专门的调整对象,这意味着我国监管部门已经开始从基础模型的训练阶段着手展开规制。(二)基础模型的通用性与赋能性及其带来的生产方式变化生成式人工智能的基础模型因可接入千行百业具有通用性,可为多个垂直细分领域创造个性化人工智能系统,同时提供网络信息内容与机器所需合成数据具有强大赋能性,是人工智能时代的新型数字基础设施。作为新型数字基础设施,其推动着数据要素流动及具有公共性的融合计算服务体系建立。第一,基础模型具有通用性,可支撑多个垂直产业泛化介入,降低数据生产要素流动壁垒。基础模型的功能泛化性、通用性改变了人工智能产业生态。人工智能技术实现了从决策式人工智能到生成式人工智能的跃迁

38、。强大的底层通用能力是生成式人工智能基础模型给人工智能产业带来的跃迁式革新,底层大模型加上深度学习平台,推动了人工智能全产业链的加速升级。这种通用性改变了过去人工智能分为视觉、听觉、语义等不同领域分散研发的情况,实现了应用领域和场景更换。海量的模型参数量、前所未有的数据处理量、更大的训练计算量,推动实现了人工智能模型通用性的跨越式提升。基础模型客观上促进了数据要素共享,技术底层使得平台打破封闭架构实现互联互通成为可能。既往的研究与讨论中,数据要素的流动与共享的流动方式被想象为数据交易、公共数据开放,以及通过监管部门主导的强制企业打破封闭架构的互联互通。基础模型则提供了新的数据共享与互联互通的思

39、路,具有超越性技术能力和资金支持的企业,通过碾压式技术开发和成本投入,实现海量数据资源池与模型训练的规模效应。当不同的企业与应用被链接到基础模型上之后,又成为基础模型的流量入口累积更多的数据,被用来进行进一步反馈性的模型训练。具有持续训练学习能力的预训练大模型,使得人工智能时代的技术基础设施超越了数据存储分析、支付物流、身份认证等类型的平台基础服务,而是向产业层面延伸。这也进一步降低了生产要素流动的壁垒。第二,基础模型具有赋能性,兼具信息内容与数据要素供给功能,可为产业企业赋能降本增效。大模型本身具有明显的商业化价值,其对于行业的赋能,显现了人工智能驱动新一轮科技革命和产业变革的巨大力量。生成

40、型人工智能的基础模型可以以“高质量生成内容”形式赋能,为网络生态提供内容资源。生成式人工智能不仅局限于分析已经存在的东西,而是学习归纳已有数据后进行创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。在这样的技术变431 现代法学 2023 年第 4 期参见实现平台互联互通将为中小企业创新发展提供更好环境,载21 世纪经济报道2021 年 9 月 14 日,第 1 版。革下,生成式人工智能的开发者的角色早已超越了为服务提供者提供技术支持,而是成为数字社会生产的资源提供者内容生产的强大引擎。生成型人工智能的基础模型可以“合成数据”形式赋能,为模型训练提供数据生产要

41、素。合成数据作为真实数据的替代品,是利用算法人为生成出符合真实世界情况的数据,可以在数学或统计学上反映真实数据的属性。合成数据目前已应用在人工智能模型训练开发和仿真验证中,可以为数字孪生、智慧医疗等模型训练提供资源,并在金融、医疗、零售、工业诸多产业领域中落地实施。合成数据是人为生成的,具有成本低廉和隐私保护优势,可以解决真实数据采集耗时费力、数据标注量大成本高和真实数据隐私泄露风险等问题。由此可见,基础模型已经从产业生态角度改变了数字社会生产,更成为了信息内容和数据要素的提供者。(三)基础模型的数字基础设施法律定位及其具备的公共性基础模型由于其通用性和赋能性,成为人工智能时代数字社会生产的新

42、型数字基础设施,也同时具备了数字基础设施的公共性特征。基础模型层作为基础设施的公共性,一方面来自基础模型组织数据、算法、算力人工智能要素参与社会生产的控制力,另一方面来自对企业和产业的影响力。1.生成式人工智能基础模型是新型数字基础设施传统基础设施具有基础性、赋能性和公共性等一般特征。基础设施的基础性源自其能够为产业变革和经济发展提供基础性支撑和行业赋能,如交通、能源、水利等基础设施。基础设施如交通、水利设施等具有较强的赋能性,被认为是社会先行资本,作为经济起飞的重要前提条件而应当优先发展。进入数字经济时代,数字基础设施已经像水、电、公路一样,成为人们生产生活的必备要素,为产业格局、经济发展、

43、社会生态发展提供保障。数字经济时代,经济高质量发展的需求下,社会生产对基础设施的需求也随之发生结构性转变。生成式人工智能的基础模型具有基础设施性质,可以支撑多产业泛化通用接入,客观上促进了数据等生产要素共享,既意味着生产力跃升也同时推动了生产关系的变化。生成式人工智能的基础模型层既符合传统基础设施的基础性特点,也符合新型数字基础设施可提供综合数字计算与处理能力的特征。也是基于此,通用性、规模性成为人工智能产业政策的目标。在上海市人工智能产业发展“十四五”规划中明确指出现在人工智能发展面临的瓶颈是规模化应用深度不足,而大模型将会是未来突破发展瓶颈的关键技术。北京市“十四五”时期高精尖产业发展规划

44、也将国家级人工智能前沿研究中心、超大规模人工智能模型训练平台作为了发展重点。广州市人工智能产业链高质量发展三年行动计划也提到对大模型及其上下游产业生态链的布局要求。生成式人工智能的模型层既是企业的开发平台,也是模型训练的资料来源,具有新型数字基础设施的赋能性特征。2.生成式人工智能基础模型作为数字基础设施的公共性理论上对平台作为数字基础设施的公共性论证多从两个角度展开:一是平台本身作为载体的公共性,基于其组织生产、掌控数据等生产要素等;二是对平台内经营者的治理等公共性权力,事实531张凌寒:生成式人工智能的法律定位与分层治理参见郭凯明、潘珊、颜色:新型基础设施投资与产业结构转型升级,载中国工

45、业经济2020 年第 3 期,第 64 页。上承担着维护市场秩序保护用户权益的公共职能。生成式人工智能的基础模型层一方面充分符合本身作为载体的公共性,另一方面对接入基础模型的下游生产者具有准管理的公共性权力。第一,生成式人工智能的基础模型作为新型数字基础设施,形态是新型集成型平台,本身具有公共性。基础模型比起数字平台更加纵深地组织生产提供基础性服务。基础模型提供的不仅包括原有平台的数据、算法、基础服务、网络、资源等核心要素,更进一步将“模型作为服务”的服务扩展到了有效的算力如芯片架构和算力系统,还包括开发系统和环境、云计算等系列融合性的智能服务。如我国浪潮信息开发了 2457 亿参数的“源”大

46、模型,通过模型 API 服务、领域模型、开发者社区等多种形式对外提供算法基础服务。其次,基础模型的训练需要海量数据与算力的惊人投入,基础模型汇聚和掌控着人工智能的三要素数据、算法和算力,因而具有公共性。一般认为模型的思维推理能力与模型参数大小有正相关趋势,一般是突破一个临界规模(大概 62B,B 代表 10 亿),模型才能通过思维链提示的训练获得相应的能力。预训练大模型的高算力投入设置了人工智能研发的高门槛,目前全球范围内只有少数头部企业和科研机构能够支撑预训练大模型的开发、训练。第二,生成式人工智能的基础模型进一步绑定了平台与企业的关系,具有了对产业和企业前所未有的控制力。如果说数字平台经营

47、者的市场力量还来源于对竞争和交易的控制力,那么基础模型的控制力更来自对技术运行的控制力。接入基础模型的企业经由深度平台训练的“应用”“服务”将不再如以往一样拥有独立支配运行的权力,因为大模型作为技术基础设施使得垂直细分行业的应用与服务具有“出租”性质,服务与应用变成了必须依赖大模型更新的在线服务。打个比方,消费者既往购买纸质书即享有书的完全所有权,但现在购买电子书,服务提供者可设置期限停止消费者的访问权限。仰赖基础模型提供人工智能服务的企业,与过去购买机器设备等物理实体的企业相比,对上游技术的依赖性更强。因此,大模型的服务商对整个产业生态系统具有了前所未有的技术层面的控制力。未来的基础模型的计

48、算能力也成为人工智能产业的重要资源,引起对企业具有正向赋能效应,对产业企业运行具有更强的穿透力。综上所述,生成式人工智能不仅是人工智能技术的迭代革命,也意味着数字社会生产方式进一步向前推进,而生成式人工智能的模型层则因具有极强的通用性、赋能性成为了人工智能时代的新型数字基础设施。新型数字基础设施既具有传统基础设施的特点,也有别于原有的数字基础设施。在特征上由于多产业泛化通用接入、供给数字社会生产的网络内容生态与模型验证训练和具有数据和算力的自然垄断性,而具备基础设施的通用性、赋能性特征;又有别于原有的数字基础设施,不仅提供连接服务更提供计算服务,不仅外部赋能更提供生产要素,不仅具有公共性也具有

49、一定的竞争性。因此,在社会生产方式的演进语境下,生成式人工智能的模型层是人工智能时代的新型数字基础设施,本质是对生产力的大幅提升。631 现代法学 2023 年第 4 期参见刘权:网络平台的公共性及其实现以电商平台的法律规制为视角,载法学研究2020 年第 2 期,第 44 页;张晨颖:公共性视角下的互联网平台反垄断规制,载法学研究2021 年第 4 期,第 156-158 页。参见孙杰贤:浪潮信息的 AI 观:算力与算法一个都不能少,载中国信息化2022 年第 8 期,第 35 页。四、生成式人工智能的分层治理体系构建我国生成式人工智能的法律治理应以发展为导向,以生成式人工智能的多

50、重法律角色作为治理的原点,调整原有制度中的不协调之处。在鼓励我国生成式人工智能发展的思路下,应将生成式人工智能作为基础设施,划分为技术、产品与服务三个层次,以“基础模型产品模型服务应用”为形式,关注不同层次的不同生产要素,大力鼓励基础模型层的技术发展,审慎包容监管产品模型层,对服务应用层沿用并调整以实施敏捷治理。将我国从较为单一的场景的算法治理,演化为适应不同治理目标的生成型人工智能的复合型系统性治理。(一)从主体监管到“基础模型专业模型服务应用”分层规制生成式人工智能的治理应顺应技术发展给社会生产带来的变化,重新思考人工智能治理底层技术逻辑改变后,应如何更为有效的构建治理框架。生成式人工智能

展开阅读全文