生成式人工智能发展与监管白皮书.pdf

资源描述

人工智能白皮书2访问21财经App智库频道获取更多报告 http:/ http:/ 年，在美国汉诺威小镇的达特茅斯学院，“人工智能”的概念被首次提出。此后 60 余年，人工智能从屏幕上显示的代码逐渐转化成实践应用。但人工智能的规模化商用并非坦途，概念的火热一直以来未能助推技术突破与商业应用。时间来到 2022 年，生成式 AI 发展为人工智能发展再注入一针强心剂。先是 Dall-E2、Midjourney、Stable Diffusion 等文生图应用引起广泛关注，接着 ChatGPT 横空出世，被视为通用人工智能的起点和强人工智能的拐点。作为里程碑式的技术进步，ChatGPT 将引发新一轮人工智能革命。人工智能发展似乎找到了自己的主流叙事。不过，技术创新的同时也带来了监管难题。如何平衡发展与安全，中国正在摸索自己的 AI 治理路径。在此环境下，身处其中的行业创新者、技术使用者，以及作为受众的社会公众，又该如何理解生成式 AI 发展的现状与前景，应对可能的风险与挑战？在此背景下，本白皮书将通过分析生成式 AI 的发展现状、政策导向、实操中面临的风险，以及各国的监管路径，以期为未来的 AI 治理提供有益思路。前言preface人工智能白皮书2访问21财经App智库频道获取更多报告 http:/ 观韬中茂律师事务所【总统筹】王俊王渝伟【撰写】王俊冯恋阁郑雪王渝伟杨欣如周丹钱雨晴温泳珊林婉娜罗洛【设计】设计统筹林军明林潢封面/图表黎旭廷版式设计陈国丽【校对】黄志明3目录CONTENT第一部分发展：生成式 AI 治理的第一视角 /2 1.1 生成式 AI 相关概念/31.2 生成式 AI 发展现状/4 1.2.1 算力 /5 1.2.2 大模型 /5 1.2.3 生成式 AI 应用市场 /81.3 关于生成式 AI 的中国思考 /8 1.3.1 探索优化应用场景 /9 1.3.2 加强基础技术的自主创新 /10 1.3.3 推动公共训练数据资源平台建设 /11 1.3.4 豁免责任 /11第二部分风险：生成式 AI 治理的底线思维 /13 2.1 知识产权侵权风险 /13 2.1.1 著作权侵权 /13 2.1.2 侵犯商业秘密 /14 2.1.3 不正当竞争和反垄断风险 /14 2.2 算法风险 /15 2.2.1 算法黑箱风险 /15 2.2.2 算法歧视风险 /15 2.2.3 算法决策风险 /15 2.2.4 信息失真风险 /16 2.3 数据安全与个人信息保护风险 /16 2.3.1 个人信息保护 /16 2.3.2 数据跨境风险 /18 2.3.3 数据安全风险 /192.4 伦理道德风险 /20第三部分借鉴：欧美生成式 AI 治理的观察 /213.1 美国 /21 3.1.1 关于人工智能的立法概况 /21 3.1.2 关于生成式 AI 应用的风险治理框架 /24 3.2 欧盟 /26 3.2.1 关于人工智能的立法概况 /26 3.2.2 关于生成式 AI 应用的风险治理框架 /28 3.3 关于美国与欧盟风险治理框架的评析 /31第四部分实践：中国关于生成式 AI 治理的独立思考 /32 4.1 关于生成式 AI 的立法概况 /324.2 关于生成式 AI 应用的风险治理框架 /334.3 关于商业化应用中生成式 AI 风险治理的思考 /341人工智能白皮书2访问21财经App智库频道获取更多报告 http:/ 治理的第一视角2022 年 11 月，OpenAI 推出的聊天生成预训练转换器（ChatGPT）的爆火，带来了人工智能的“iPhone 时刻”。该产品以强大的文字处理和人机交互功能迅速风靡全球。数据显示，发布五天内其用户量就达到了 100 万，并在短短 2 个月内用户量破亿，取得现象级战绩。以 ChatGPT 等大语言模型为标志的生成式 AI 的成功，带来了新的范式革命和广阔的商业前景，资本市场持续高涨的热情也足以彰显它的价值。不过，一个硬币总有正反两面，生成式 AI 技术在为经济社会发展带来新机遇的同时，也引发了诸多舆论争议，带来了虚假信息传播、个人信息权益侵害、数据安全、偏见和歧视等问题。事实上，全球正在进入“生成式 AI 革命风暴”，随之掀起的是新一轮的 AI 监管潮。欧盟领先一步，人工智能法案进入最终谈判阶段。系列迹象表明，美国政府最近也在紧锣密鼓地推进监管工作：6 月 20 日，美国总统拜登就会见了 AI 专家和研究人员，讨论如何管理 AI 在就业、儿童权益、偏见和成见以及信息方面带来的机3访问21财经App智库频道获取更多报告 http:/ 4 月发布生成式人工智能服务管理办法（征求意见稿）并向社会公众征求意见后，7月13日，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局正式发布生成式人工智能服务管理暂行办法（以下简称办法）。至此，中国率先交出一份答卷，也可以视为“生成式 AI 时代”下中国关于 AI治理的独立思考。办法彰显了中国对以生成式 AI 为代表的通用人工智能产业治理的基本态度1。与征求意见稿相比，办法不再以风险防控为主要导向，业内似乎可以打消此前的“踩刹车”顾虑。正式文件中大幅增加了促发展的内容，同时划定了底线。网信办在就办法答记者问时也提出，办法坚持目标导向和问题导向，明确了促进生成式 AI 技术发展的具体措施，规定了生成式 AI 服务的基本规范2。1.1 生成式 AI 相关概念 2022 年被认为是“生成式 AI 元年”，Dall-E2、Midjourney、Stable Diffusion 等文生图应用的出现引起广泛关注；12 月底，ChatGPT 的横空出世更是使得生成式 AI 的风头一时无两。自 1956 年概念的首次提出至今，人工智能技术已发展超 60 年。然而，时至今日，其仍未实现大规模应用。生成式 AI 的出现标志着人工智能进入了新纪元，机器开始能够模拟人类的创造性思维，并有望促进社会生产力的大幅跃进。生成式 AI 技术，是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。基于监督学习的方法差异，机器学习领域可以分为判别式（discriminative）和生成式（generative）两种典型模型：判别式模型是对条件概率建模，学习不同类别之间的最优边界，从而完成分类任务；生成式模型则面向类建立模型，计算基于类的联合概率，然后根据贝叶斯公式分别计算条件概率，进而根据输入数据预测类别。生成式AI更强调学习归纳后的演绎创造，通过模仿式、缝合式的生成创作，不断判别和进化，从而产生全新的内容，其本质是“创造未知世界”。掀起本轮 AI 技术浪潮的正是后者。生成式 AI 技术以革新产业的面貌席卷了科技界，驱动了生产流程升级转型。1 钱玉娟，参与制定者解读生成式 AI 新规：“发展被放到更重要的位置”，经济观察报，https:/ 国家互联网信息办公室有关负责人就生成式人工智能服务管理暂行办法答记者问，http:/ http:/ 根据技术实现及应用路径，生成式 AI 又可以进一步细分为数据层、算力层、模型层和商业化应用层。数据层包括数据提供、数据分析以及标注等环节。生成式 AI 产品的诞生需要依托海量的数据资源。公开资料显示，GPT-3 模型的基础来自 8000 亿个单词的语料库（或 45TB 的文本数据），包含了 1750 亿个参数。“8000 亿”是 ChatGPT 的训练数据，“1750 亿”是它从这些训练数据中所学习、沉淀下来的内容。算力层是AI训练的基础设施，包括数据中心、服务器，以及高性能的AI芯片。据华泰证券测算，训练一次 ChatGPT 模型（13 亿参数）需要的算力约 27.5PFlop/s-day，即以 1 万亿次每秒的速度进行计算，需要耗时 27.5 天；而 ChatGPT 单月运营需要算力约 4874.4PFlop/s-day3。模型层位于生成式 AI 的中游，是生成式 AI 得以实现的关键环节。生成式 AI 的成型得益于2014 年以来 GAN（生成对抗网络模型）、Transformer（转换器模型）、Diffusion（扩散模型）等模型的发展与融合。例如，基于多种底层的 AI 技术，OpenAI 公司经过多次迭代的 GPT-4 模型，谷歌对标 GPT-4 的大模型 PaLM 2 等，通过开放 API 调用，可以赋能各类垂直应用厂商。商业化应用层则涵盖文本、音频、图片、影片的生成等，是产业链的最下游，但也是 AI 能否大规模应用、能否真正创造价值的关键。根据 PitchBook 的统计数据，2022 年投资圈向生成式 AI 公司共投入 13.7 亿美元（折合人民币约 93.69 亿元），融资事件发生 78 起，接近此前 5 年的总和。据风投公司 NFX 统计，目前已有 550 家生成式 AI 公司相继入局，共筹集近 140 亿美元的资金4。互联网及传统 AI 大厂将从云服务、预训练模型提供等的基础层、中间层入手，创业公司则聚焦在下游的垂直应用。多数公司刚刚完成标准化产品输出，开始进入商业化探索的初级阶段5。1.2 生成式 AI 发展现状在2023年过去的几个月里，算力基础设施看涨，各大公司抢滩大模型，类GPT商用化加速探索，整个产业链市场快速打开。据东吴证券预计，AIGC 在内容生成中的渗透率将快速提升，应用规模迅疾扩增，预计 2030年 AIGC 市场规模将超过万亿元人民币。3 郭美婷、蔡姝越：AI 契约论：AIGC产业链发展车驰船快，风险暗礁“涌现”，21 世纪经济报道，https:/ https:/ 汉能投资，生成式 AI 开辟人工智能新纪元，AIGC 赛道风起云涌（上），https:/ 算力在 AI 大模型时代，AI 领域的“军备竞赛”正从过去算法和数据层面的竞争，转变为底层算力的竞争。算力是大模型成本结构中最大的一块，GPU 的性能，决定了这个新兴行业的步调。但是，GPU 性能提升的速度，已经落后于大模型训练和推理需求的增长6。GPU是训练模型与加速推理的关键算力硬件。大模型拔高了对数据中心带宽、数据存储的门槛。云服务商会采购各类硬件，辅以冷却系统与运维服务，构建灵活、可扩展的 IaaS 平台，按需为客户提供算力。据介绍，大约每隔 4 个月，AI 计算需求就会翻倍。广发证券分析师测算，随着国内生成对话式 AI 产品加速推广，在乐观假设下，国内 AI 大模型在训练与推理阶段或产生相当于 1.1 万台至 3.8万台高端 AI 服务器的算力需求。以英伟达单片 A100 GPU 产品售价 10 万元、AI 加速卡价值量占服务器整机约 70%计算，则对应 126 亿元至 434 亿元增量 AI 服务器市场规模7。1.2.2 大模型大模型已经成为本轮生成式 AI 竞赛的杀手锏。各个科技公司加码大模型，上演“百模大战”。中国人工智能大模型地图研究报告显示，截至今年 5 月 28 日，中国 10 亿参数规模以上的大模型已发布 79 个。而美国和中国就占全球已发布大模型总量的 80%以上8。谷歌基于 PaLM 2 推出聊天机器人巴德（Bard），据介绍 Bard 支持 40 多种语言，同时还拥有图像分析功能；微软日前宣布将 GPT-4 导入全新 Bing 搜索引擎和 Microsoft 365 Copilot，亚马逊也通过发布泰坦（Titan）以宣布加入战局。中国大模型不断涌现，既有实力雄厚的互联网平台企业：百度、阿里、华为等互联网公司发布“文心一言”、“通义千问”及华为盘古大模型等；也有人工智能新秀，比如澜舟科技的孟子GPT、智谱 AI 的 ChatGLM、科大讯飞的星火大模型等。一批高校、科研院所也相继入局，清华大学发布大模型 GLM-130B、复旦大学则发布大语言模型MOSS；上海人工智能实验室发布天气预报大模型“风乌”、北京智源人工智能研究院发布“悟道 3.0”等。6 未尽研究、启明创投：2023 生成式 AI 报告，https:/ 彭思雨，AI 大模型迎来风口算力需求爆发，中国证券报，http:/ 科技部发布中国人工智能大模型地图研究报告，http:/ http:/ ChatGPT 模型“子曰”，学而思的自研数学大模型 MathGPT 也预计在年内推出。新能源车企如理想汽车已经发布了自研 MindGPT，将应用于车载 AI 助手“理想同学”，而蔚来、小鹏等车企也已在申请 GPT 商标。在医疗领域，上海联通、华山医院联合开发的 Uni-talk、医联“MedGPT”、云知声的“山海”等也相继登场。处于核心的模型层，目前可分为通用大模型和垂直大模型。通用大模型能够处理多种任务和应用于不同领域，是资金、资源雄厚的科技巨头优选；行业大模型则是针对特定领域或任务进行优化设计的模型，基于自建模型或利用通用大模型，引入行业语料进行模型深度训练，以提升对特定行业/领域应用场景的支撑能力。人工智能白皮书8访问21财经App智库频道获取更多报告 http:/ AI 应用市场大模型持续火热，业内更关心应用落地。只有让大模型与千行百业的具体业务场景结合，才能产生具体应用价值。目前，大模型技术比较热门的落地领域包括办公软件、社交文娱、商业营销、家庭助理和金融等。这些领域内，少部分公司选择自主部署研发模型，更多的公司则选择接入较为成熟的大模型（类ChatGPT 产品），以直接赋能其原有产品和服务。例如，在办公领域，微软 Microsoft 365、字节飞书“My AI”、金山 WPS 等均宣布已接入大模型。社交文娱方向，出现了 AI 搜索引擎如微软必应、谷歌 Magi，还有应用于游戏影视的英伟达 AI 智能游戏助手 GeForceRTXR.O.N.、Adobe 的Premiere Pro 等。在家庭场景，AI 也充当起家庭管家、私人家教、智能汽车助手，如阿里就率先将AI 大模型接入了智能音箱天猫精灵。在商业营销方向，多种类 ChatGPT 产品涵盖智能客服、推荐算法、虚拟人直播、广告策划等具体应用场景。类 ChatGPT 产品正在逐步渗透到生产和生活的各个环节。可以看出，第一类场景为提升生产工作效率的通用工具，通过生成式 AI 提升内容供给速度、降低内容创作门槛，从而使得人工资源能够更多地投入到高价值的工作及创作流程中，提升整体工作效率。第二类场景则是可能改变行业格局的场景应用，比如有场景的 C 端，有数据的 B 端，带来一个增量产业的崛起（如教育、医疗分诊，个性化生成，高频时效交互）等9。1.3 关于生成式 AI 治理的中国思考当欧盟正试图通过专门的人工智能法案来展现他们对于生成式 AI 基于风险的治理思路时，中国在 7 月发布的办法则体现其对于生成式 AI 治理的不同思考。“发展”正逐渐成为中国 AI治理的第一视角。与此前的征求意见稿相比，办法有较大的思路调整，“坚持目标导向和问题导向”，单设了“技术发展与治理”章节，同时也新增了不少有力措施来鼓励生成式 AI 技术发展。其背后所反映的，正是中国对于目前生成式 AI 发展、治理的独立思考。9 招商证券，2023 年 AIGC 产业链投资机会分析 OpenAI 引领 AI 产业变革，https:/ 探索优化应用场景人工智能技术已发展超 60 年，时至今日仍难言大规模应用。办法第五条明确，鼓励生成式 AI 技术在各行业、各领域的创新应用，生成积极健康、向上向善的优质内容，探索优化应用场景，构建应用生态体系。人工智能白皮书10访问21财经App智库频道获取更多报告 http:/ GoDaddy 对全美 1003 家小型企业的调查数据显示，ChatGPT 以70%的应用率成为美国小型企业应用最多的生成式 AI 产品；38%的受访者，在过去几个月里尝试过生成式 AI；营销、内容创作、商业建议是企业应用生成式 AI 最多的 3 个用例；75%受访者非常满意生成式 AI 在业务中的表现10。对比之下，国内大模型远没有达到可商用化的程度，或是能深度切入具体应用场景。目前大模型落地主要以价值增强和效率提升为主，而商业模式层面的落地仍在探索中。大模型能否和业务充分结合，从而真正解决业务问题，是决定 AI 能否实现经济价值的关键因素。只有紧贴业务的 AI 战略设计、完善的配套架构、充足的 AI 人才及健全的内部培养机制，才能使 AI与业务发展需求充分融合，最大化实现经济收益。各地的人工智能相关政策也聚焦到应用层。5 月发布的北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025 年）提到，要发挥各区产业特色和资源优势，结合人工智能技术特点，围绕经济社会发展、科学研究发现、重大民生需求等，形成一批示范性强、影响力大、带动性广的重大应用场景。7 月发布的上海市推动人工智能大模型创新发展的若干措施中提及示范应用推进计划，要加强大模型在智能制造、教育教学、科技金融、设计创意、科学智能等垂直领域的深度应用和标杆场景打造。1.3.2 加强基础技术的自主创新人工智能需要 GPU 算力、网络及存储等硬件基础设施的全方位支撑。办法指出，鼓励生成式AI算法、框架、芯片及配套软件平台等基础技术的自主创新，鼓励平等互利开展国际交流与合作，参与生成式 AI 相关国际规则制定。在中美博弈大背景下，A100、H100 为代表的芯片被美国列入禁止出口商品名单，加之国内信创进展和适配需要时间，算力问题成为中国人工智能发展的掣肘因素。国内过去在互联网及移动互联网时代所积累的云计算、数据中心、算力中心等领先全球的数字化基础设施，为生成式 AI 落地运行提供了坚实基础。4 月，科技部启动国家超算互联网部署工作。根据部署，国家超算互联网通过算力网络将全国众多超算中心连接起来，用互联网思维运营超算中心，构建一体化算力服务平台，实现算力资源统筹调度，降低超算应用门槛，带动计算技术向更高水平发展。10 ChatGPT 等生成式 AI，对小型企业帮助大，https:/ AI 相关国际规则制定。这在一定程度上也表明，商业的密切交集使得各国愈发成为共同体；人工智能的全球竞争已经从技术扩展到治理领域。积极参与国际规则的制定具有非常重要的意义。1.3.3 推动公共训练数据资源平台建设生成式 AI 的训练和研发需要大量的基础设施和基础资源支持。办法提出，推动生成式 AI基础设施和公共训练数据资源平台建设，促进算力资源协同共享，提升算力资源利用效能。平台的建设有助于更好地协调和优化训练资源，更好地集中精力完成技术层面的攻关和突破。推动公共数据有序开放，扩展高质量的训练数据资源也是必须要划出的重点。“大模型时代，得数据者得天下。”一方面，训练数据是大模型训练的基石和燃料，如果没有数据，大模型的训练就无法开展和持续；另一方面，当前技术领域的研究显示，各家大模型在算法层区别并不大，并且具有同质化的趋势。在此背景下，训练数据就成了真正区分且影响大模型性能的重要因素之一11。从各地实践也可以看出，加码训练高质量数据集建设已成为重要方向。北京5月印发的北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025年）中就提到，加强公共数据开放共享，包括动态更新公共数据开放计划，加快构建高质量人工智能训练数据集等。6 月，深圳发布的深圳市加快推动人工智能高质量发展高水平应用行动方案（2023-2024 年）中也提出，要搭建全市公共数据开放运营平台，建立多模态公共数据集，打造高质量中文语料数据等。目前各地出台了不少关于公共数据开放利用的条例，利用公共数据投喂人工智能，应按照有条件开放、无条件开放或禁止开放的不同方式进行。不过，公共数据开放存在较多阻力，开放的数据范围和质量不够。接下来需推动有序开放，亟待分类分级，发挥公共数据红利，探索契合公共数据价值利用规律的开放之道12。1.3.4 豁免责任此前，对于技术研发阶段是否适用监管等问题有多种声音。此次办法对“研发生成式 AI 技术”进行了豁免。本办法适用范围为：“利用生成式 AI 技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务”。值得注意的是，行业组织、企业、教育和科研机构、公共文化机构、11 王俊、冯恋阁，七部门为生成式 AI 立规，鼓励自主创新、分类分级监管，21 世纪经济报道，https:/ 张雅婷，生成式人工智能服务管理暂行办法出台，公共数据将如何赋能大模型？21世纪经济报道，https:/ http:/ AI 技术，未向境内公众提供生成式 AI 服务的，不适用本办法的规定。这意味着，一方面，当研发主体（行业组织、教育科研机构、企业等）向特定公众提供小范围试用版本，或仅仅是在研发过程中推出测试版本，这些都是属于未正式上市的AI服务，不适用办法。另一方面，如果生成式 AI 服务到了应用阶段，不向境内公众提供服务，也不需要遵守办法。例如不向消费者直接提供服务，仅向公司提供服务，就属于这种情形。这也体现了中国对于技术研发等工作的态度。13第二部分风险：生成式AI 治理的底线思维作为一项新兴技术，生成式 AI 技术在应用过程中带来的问题已逐渐显现。本白皮书结合生成式 AI 技术的应用场景，对基于生成式 AI 技术开发的模型或产品可能面临的风险进行了筛查，主要可能涉及知识产权侵权、算法风险、数据安全与个人信息保护风险及其他风险。针对这些风险点，本白皮书也建议相关开发者应当搭建生成式 AI 合规风险事件库，以及时了解、追踪生成式 AI 合规风险导向。2.1 知识产权侵权风险2.1.1 著作权侵权基于大模型对语料丰富度的较高需求，无论是模型输入端，还是模型输出端，均存在较大的侵犯著作权的可能性与风险。在输入端，大模型在构建过程中需要“学习”大量文本语料，而在获取文本语料时，可能会因未征得权利人许可复制、改变或者传播而涉嫌侵犯他人著作权。例如，某全球知名图片提供商起诉了某 AI 绘画工具的开发者，称其未经许可从自己的网站上窃取了数百万张图片。需要注意的是，将生成式 AI 模型应用于商业用途本身已经明显超出知识产权法律中界定的“合理使用”的范畴。在输出端，判断著作权侵权的第一步是看生成内容能否被判定为著作权法中所定义的“作品”。人工智能白皮书14访问21财经App智库频道获取更多报告 http:/ 侵犯商业秘密训练数据是修炼大模型的“原材料”，在大模型的静态与动态训练的过程中，可能会出现使用来源不明或者非法的数据信息的情况，如果前述信息中包含商业秘密，那么依据竞争法下的相关规定，将构成对他人商业秘密的侵害。同时，随着大模型影响力的扩大，企业可能会将其纳入办公系统以提升工作效率。而企业员工在训练和使用模型的过程中，如不慎输入企业的商业秘密，不仅可能造成公司商业秘密的直接泄露,甚至可能被模型存储于数据库中作为训练数据,如遭受黑客攻击,公司将进一步蒙受损失。例如某头部互联网公司日前声称,在某生成式AI模型所生成的内容中发现了与其商业机密非常相似的文本,可能是其内部员工在使用该模型生成代码时输入了公司的机密数据。从企业防止商业秘密外泄的角度，如何约束员工在利用大模型提高工作效率的同时，又能避免对企业商业秘密的侵犯，也将成为相关法律合规部门需要思考的问题。2.1.3 不正当竞争和反垄断风险大模型在协助编程、广告设计、文学创作等领域表现优异。用户在使用大模型生成广告文案时，其生成内容可能与他人广告文案、知名商品名称、知名企业名称等存在相似。考虑到这类文案、名称等通常篇幅简短，较难被视作著作权法上的“作品”，此时，如果用户直接将生成内容进行商业使用，可能构成竞争法中的“混淆行为”。此外，由于多数企业将公开爬取作为获取数据的渠道之一，如果使用非法爬取的数据进行生成式AI模型训练，形成的数据产品若达到足以实质性替代其他经营者提供的相关产品或者服务的程度，其仍可能构成不正当竞争。同时，虽然互联网上存在大量可以自由访问的信息,但如果从具有禁止第三方爬取数据条款的网站收集海量数据,该等数据很有可能被认定为竞争性财产权益,因此如何避免对该等数据的收集违反竞争法的相关规定，也将成为相关开发者和服务提供者所要面临的一大挑战。另一方面，大模型也可能引发竞争法下反垄断相关风险。其一，是基于技术的高尖性，由于目前生成式 AI 技术主要掌握在全球大型科技公司手中，如何防止生成式 AI 技术的研发与应用成为大15公司新型的垄断手段？就该问题，欧美地区也正在筹划制定专门针对生成式AI的反垄断法13。其二，部分企业之间试图通过人工智能达成“垄断协议”，也即价格算法合谋，例如，某公司通过某生成式人工智能模型对消费者数据进行消费习惯分析，从而对消费者采取有针对性的算法垄断定价。如何防止这种新型垄断现象对消费者权益可能带来的损害，也将成为需要思考的问题。2.2 算法风险2.2.1 算法黑箱风险由于大模型的算法内部机制和决策过程不可解释或难以理解，会导致算法的输出结果存在无法解释的“黑洞”。全球最大的生成式 AI 模型 ChatGPT 也因至今未曾公布算法规则而饱受诟病。算法的输出结果不仅仅取决于输入数据，还会受到算法自身的运行过程、模型参数、超参数等多方面因素的影响。这种风险可能会导致企业难以理解模型的决策过程和预测结果，从而难以评估模型的可靠性和稳定性。另一方面，企业也难以响应用户关于解释算法结论的要求。例如，某企业在使用生成式 AI 模型生成推荐内容时，发现该模型频繁生成与特定人群利益相关的内容，但无法确定这种情况是因为算法本身存在偏见还是数据集本身就存在偏见，此时企业可能难以发现问题的根源和解决方案。2.2.2 算法歧视风险大模型算法在应用、决策或预测时，如其本身的算法规则对某些特定的个体或群体存在偏见，将会导致企业的商业决策不公正，进而影响用户对其的信任和企业商誉与形象。对用户而言，其将遭受歧视和不公正的待遇。例如，某企业使用生成式 AI 模型为客户提供智能客服服务，但由于该模型算法规则本身存在种族、性别等方面的偏见，导致部分群体的问题无法得到利于其立场或身份的解答，进而影响客户对该企业的认知与评价。2.2.3 算法决策风险在使用大模型进行决策时，由于模型的不确定性或数据量欠缺等原因，可能会导致错误的决策或不良后果。同时，由于算法决策形态本身的多元性，算法决策机制的隐蔽性，以及算法决策主体的模糊性，都有可能给算法决策带来风险。例如，某医疗保险公司使用生成式 AI 模型来决定是否批准某个人的理赔申请。如果该模型的13 AIGC 反垄断法或加剧算力军备竞赛行业大玩家谁将获益，东方网，http:/ http:/ 信息失真风险信息失真风险并非算法的固有风险。当算法所处理的数据本身存在错误时，算法的处理结果就会出现信息失真；此外，如果企业或者用户出于某种目的故意规避对算法和数据的监管，也有概率导致训练出的模型生成违法、欺诈、诽谤、侵犯隐私等类型的内容。这种风险可能导致用户通过算法模型得到错误的结论，产生负面影响；企业可能因为错误的或违法的内容受到监管机构处罚，影响企业声誉和业务发展。特别是对于拟自行部署生成式 AI 模型的开发者而言，如模型算法本身的语言推理能力有限，造成信息失真甚至“臆想”现象将愈发严重。例如，某用户在使用某企业提供的生成式 AI 模型时，由于数据有误，导致其在商业决策中决策失误，并由此亏损，其认为该企业提供的模型应当承担相应责任。2.3 数据安全与个人信息保护风险2.3.1 个人信息保护（1）个人信息收集场景大数据时代，生成式 AI 模型难以规避因收集个人信息所带来的风险，这类风险不仅可能发生在模型的训练阶段，也可能发生在模型的实际应用阶段。在模型的训练阶段，大模型往往需要获取多元化、丰富的语料进行训练，在这个过程中，难免会采取爬虫等技术方式通过互联网等公开渠道获取大量数据，如何避免因爬取或其他手段获取公开渠道的个人信息而构成侵权等法律风险？如涉及从第三方获取的数据的，如何审核个人信息来源的合法性和个人的授权情况？这都是应当思考的问题。例如，某生成式 AI 模型在训练的过程中爬取了某点评网站上关于某餐饮店的评价，但由于某用户在点评时透露了自身的个人信息，导致该部分个人信息进入到模型语料库，进而涉嫌侵犯他人个人信息权益。在模型的实际应用阶段，如何精准识别 AI 与用户交互过程中所收集的个人信息，并进而履行个人信息保护相关的合规义务，也将成为生成式 AI 模型应用者所要面临的一大挑战。不同于一般应用程序中填入式的收集个人信息方式，大模型由于涉及人与 AI 的交互，很难在事前对可能收集个人信息的场景进行完全罗列，而更近似于“客服热线”的场景，在此背景下，应当如何在事前向17个人告知收集个人信息的目的、方式和范围并取得其同意，也是值得研究的问题。（2）个人信息使用场景在对个人信息的使用上，目前，部分生成式 AI 产品以改善服务为由使用用户提供的内容（其中包含个人信息），但显然，仅以改善服务为由要求收集用户信息并不符合最小必要原则，本质上是对于“企业训练模型之需”与“用户享受服务之需”的混淆。目前，OpenAI 已提供用户拒绝其使用个人信息进行训练的途径。除此之外，在大模型的交互模式下，对于个人信息的披露可能不同于往常意义上的“公开披露”，而更类似于一种“被动公开”，即当某个用户的真实个人信息被摘录于语料库后，之后任意用户通过询问等方式均可以得知相关个人信息，此时由于对象为非特定自然人，相较于向特定个人“提供个人信息”，可能更接近于“公开个人信息”的范畴。因此，对于模型开发者而言，应当慎重考虑在语料库以及训练模型的过程中是否加入真实个人信息。例如，某直销机构需要向客户公开披露直销员的联系方式等，但由于并未告知直销员，导致直销员的联系方式被其他人通过与AI的问答获取，并用于其他目的，此时企业可能会因为未事前披露使用目的而涉嫌侵犯他人个人信息权益。（3）个人信息权利响应场景在大模型下，关于个人信息权利响应的实现似乎远远没有想象中来得容易。例如，就查阅权和更正权而言，提供者应当如何确定个人信息的范围并提供给用户查阅或更正？如前所述，模型通常存储的是交互记录，而不会在识别个人数据后将其作为单独的存储单位。就删除权而言，如果这部分数据已被用于模型训练，此时，从技术上而言难以做到完全删除，仅能通过过滤数据或者重新训练的方式以最小化这部分个人信息对模型输出可能产生的影响。同时，如果大模型技术提供方位于境外，收集的个人信息将通过 API 接口传输至位于境外的主体，如何向个人告知向境外行使个人信息权利的途径，也将成为服务提供者需要面临的现实问题。（4）儿童个人信息处理场景在训练大模型的过程中，服务提供者需要基于自身的目的，考量是否有收集儿童个人信息的必要性。如果业务本身并不面向或针对儿童，但如遇到医疗健康事件等小概率事件下可能会收集儿童个人信息，也应当在隐私政策等个人信息声明中告知并获得有效同意。如不存在收集任何儿童个人信息的必要性，则应从技术和制度角度防止误收儿童个人信息。例如，某 10 岁的儿童通过网站的广告页面进入了某生成式 AI 模型服务提供页面，并输入了自身的姓名等个人信息，此时，由于系统无法准确识别使用者的年龄，在无形中收集了该名儿童的个人信息。人工智能白皮书18访问21财经App智库频道获取更多报告 http:/ OpenAI 也已经关注到此类问题，但可能出于对现有技术判别年龄的有效性等考量，其并未采取进一步动作。2.3.2 数据跨境风险目前，除少部分自行开发、部署模型的服务提供者提供以外，大部分服务提供者仍需倚赖第三方技术服务商搭建模型或以接入 API 等方式使用生成式 AI 服务，而这些技术方的服务器一般部署于境外。例如，一家位于中国大陆的企业，通过 API 接口的方式接入位于北美的生成式 AI 技术服务提供商，而该服务商的服务器部署于印度，此时可能面临相关数据出境所带来的风险。除此之外，在提供生成式 AI 服务过程中，不仅涉及数据出境问题，还可能涉及数据入境。例如，经过境外模型处理后产生的数据通过 AI 交互方式返回给中国用户时，也需考虑境外国家关于数据出境的合规要求和限制。从境内外关于生成式AI技术的法律规制来看，目前，服务提供者在应用生成式AI模型的过程中，可能会面临如下与数据跨境相关的风险与挑战：（1）大陆地区尚未被列入核心技术供应商开放服务范围之内目前，如OpenAI等核心生成式AI技术提供方并未将中国大陆地区列入其服务提供对象范围，在此背景下，如果因为使用相关服务给大陆企业造成了损害后果（如数据泄漏等），企业的权利应当如何得到保障？此外，部分企业通过自行建立或租用专线（含虚拟专用网络 VPN）的方式，连接到境外的生成式 AI 技术模型，这一做法如未经电信主管部门批准，则涉嫌违反工信部关于清理规范互联网网络接入服务市场的通知的规定，违规风险极大，尤其是当企业以营利为目的专门向其他企业提供此类服务的，情节严重的情况下，还可能构成非法经营罪，将会面临刑事风险。（2）涉及数据出境情况存在不确定性根据网络安全法个人信息保护法数据出境安全评估办法等法律法规规定，在进行数据出境前应当履行相应的出境合规义务，例如进行事前安全评估，如涉及个人信息的，还应当进行个人信息保护认证、签署标准合同等，而由于企业使用生成式 AI 模型服务中涉及的数据出境情况存在不确定性，因此，在履行出境合规义务上可能存在滞后性，例如，事先企业无法确定使用生成式 AI 模型所涉及的数据是否在数据出境合规监管范围之内，又或者，由于无法确定具体的数据出境路径而无法事前完成相应申报或备案。目前，生成式 AI 模型的应用路径主要分为两种，其一，是企业将其收集的数据提供给生成式AI 模型，并向其提出数据处理请求，该情形下，企业在提供数据前可以结合业务需求及合规义务要19求对数据进行预处理、筛选，以限定其所提供的数据范围，从而使得相关数据出境风险处于可控范围之内。其二，是用户直接使用企业接入生成式 AI 模型的服务平台，这种情况下，由于用户是直接向生成式 AI 模型提供数据的主体，对于企业而言，用户提供哪些数据存在很大不确定性，从而触发相关的数据出境合规义务要求。而且，由于该情形下向境外提供个人信息量级的不确定性，将导致企业难以确定数据出境合规路径。（3）个人信息出境时如何告知并取得个人或其监护人的单独同意根据个人信息保护法的要求，基于个人同意向境外提供个人信息的，应当取得个人的单独同意。从目前行业实践来看，企业通常通过弹窗勾选的方式取得数据出境相关的单独同意，但是在告知方面，基于生成式 AI 模型的特殊性，如何在事前告知可能出境的个人信息范围，将会成为企业在履行相关告知义务时不得不面临的现实困境。（4）如何满足境外出口管制的要求经境外的生成式AI模型处理后产生的数据面临相关国家、地区的监管。不同于欧盟的严格限制，例如美国对于数据跨境流动的监管要宽松许多，对于数据跨境流动，美国偏向于限制政府权力，其跨境数据隐私保护策略主要靠有限的立法和行业自律。如前所述，经境外的生成式 AI 模型处理后产生的数据或产品如返回给中国用户，需要考虑境外国家关于数据出境的合规要求和限制。例如，在 OpenAI 公布的用户协议中，亦明确规定其提供的服务受美国出口管制相关规则所约束，不得出口到任何美国禁运国家。同时，根据美国商务部工业与安全局官网公布的禁运规则解释文本及其对应表格，中国属于清单中的 D 组禁运国家，主要禁运领域为“国家安全、核工业、化学与生物领域、导弹科技和其他军事领域”，虽非绝对禁运，但是，对于电子产品、电子通信、电脑、信息安全等领域相关的设备、组件、材料、软件及其相关科技向中国的出口，仍需要向美国相关部门进行报批。值得注意的是，出口管制适用的范围不仅包括实体货物，还包括计算机软件、数据、技术等，这就意味着受美国出口管制条例等法律法规约束的货物相关的数据亦需遵循相应的规制。因此，对于经生成式 AI 模型处理后返回的数据，是否符合境外出口管制方面的合规要求，亦是企业在将来迎接监管时可能面临的挑战。2.3.3 数据安全风险（1）数据泄露基于大模型强大的系统学习能力，以及交互方式上相对的自由与不受局限，导致交互过程中存在较大泄漏数据或商业秘密的风险。例如，近日，某韩国头部企业发生了三起生成式 AI 产品的误用与滥用案例，包括设

展开阅读全文