1、94数字出版领域智能语言模型的应用、风险与治理基于 ChatGPT 技术特征的分析任安麒(中南财经政法大学知识产权研究中心,武汉,430073)基金项目 本文系高等学校学科创新引智计划“新时代科技革命与知识产权学科创新”(B18058)研究成果。作者简介 任安麒,中南财经政法大学知识产权研究中心 2020 级博士生、助理研究员,德国马克斯 普朗克创新与竞争研究所访问学者。出版科学,2023,31(3):94-102 摘要 以 ChatGPT 为代表的新一代智能语言模型具有算法独创性、能力综合性、应用广泛性、技术局限性的特点,在出版领域将推动全新智能创作模式、引领智能出版转型升级、助力打造智慧阅
2、读空间,同时也将引发伦理危机、出版内容同质化、版权保护困境与侵权风险等问题。应探索应对智能语言模型风险的数字出版治理路径:在理念上辩证把握新兴技术的工具属性与价值属性,在政策立法上探索智能语言模型法制治理模式,在产业中实现数字出版智能升级与复合人才培养,在技术上完成算法升级并完善相关配套措施。关键词 数字出版人工智能智能语言模型ChatGPT版权 中图分类号 G237 文献标识码 A 文章编号 1009-5853(2023)03-0094-09Application,Challenges and Governance of Intelligent Language Models in Digi
3、tal Publishing:An Analysis Based on ChatGPT Technology Features Ren Anqi(Center for Studies of Intellectual Property Rights,Zhongnan University of Economics and Law,Wuhan,430073)AbstractThe new generation of intelligent language models represented by ChatGPT is characterized by algorithmic originali
4、ty,comprehensive capability,wide application and technical limitations,which will promote a new intelligent creation model,lead the transformation and upgrading of intelligent publishing and help build a smart reading space in the publishing field,while also causing problems such as ethical crisis,h
5、omogenization of publishing content,copyright protection dilemma and infringement risk.We should explore the digital publishing governance paths to deal with the risk of intelligent language model:conceptually,we should dialectically grasp the tool and value attributes of the emerging technology,exp
6、lore the legal governance model of intelligent language model in the policy and legislation,realize the intelligent upgrading and compound talent training of digital publishing within the industry,complete the algorithm upgrading and improve the related supporting measures at the same time.Key words
7、Digital publishingArtificial intelligenceIntelligent language modelsChatGPT Copyright自人工智能、大数据、云计算等新兴技术进入大众视野以来,学术界关于人工智能的讨论经历了从发轫到爆发再到沉淀的过程。而智能语言模型 ChatGPT 热潮席卷全球,再一次将该议题推向风口浪尖,社会各界的正面评价与负面质疑纷至沓来。ChatGPT 由多媒体数字出版栏目主持睦盫95出版科学(双月刊)2023331期年第第卷PUBLISHINGJOURNALOpenAI 公司于 2022 年 11 月推出,是一种生成型预训练变换模型(Ge
8、nerative Pre-trained Transformer,GPT),能够与自然人类进行自然、流畅且准确的文字交互。有别于传统智能语言模型,它具有准确性高、适应性强、可持续性的特点,能够进行代码编程、歌曲创作、测试问答、文本仿写与总结等一系列复杂的文字工作。随后,全球各大互联网公司纷纷入局智能语言模型竞争:2023 年 2 月6 日,由谷歌开发的大型智能语言模型 Bard正式开放测试;次日,微软推出与 OpenAI共同打造的全新必应搜索引擎;3 月 15 日,OpenAI 的 GPT-4 发布;次日,百度推出新一代大语言模型、生成式 AI 产品“文心一言”。新一代智能语言模型拥有广阔的应
9、用空间与发展前景。习近平总书记在党的二十大报告中指出,建设现代化产业体系要构建人工智能的增长引擎,“实施国家文化数字化战略”。2022 年4 月,中宣部印发关于推动出版深度融合发展的实施意见,明确提出应“加强前沿技术探索应用”“强化大数据、云计算、人工智能、区块链等技术应用,创新驱动出版深度融合发展”。出版是国家文化事业建设的基础性领域,理应探索人工智能在出版业数字化转型中的优势效用。最新数据显示,2021 年中国数字出版整体规模达 12762.64 亿元,较前一年增加 8.33%,近 5 年来增长 1.8 倍1。可见,中国数字出版产业发展势头强劲,新兴技术在数字出版转型、深度融合发展等方向持
10、续发挥支撑作用,而新一代智能语言模型无疑将为之注入全新动力。因此,本文拟从ChatGPT 的技术特征着手,剖析数字出版领域智能语言模型的应用、风险与治理,助力出版产业科技赋能。1ChatGPT 技术原理与特征学界关于人工智能在数字出版领域转化融合的探讨已初现端倪,但均以传统机器学习技术为出发点,新一代智能语言模型创新应用监督学习与强化学习算法,提升了人工智能的学习广度和思考维度,为数字出版转型升级带来了全新的机遇和挑战。如图 1 所示,有别于传统自然语言生成模型,ChatGPT针对特定对话场景特别优化,有赖于以下核心技术原理:第一步,GPT 基础模型,即人工智能基于海量、通用的数据集进行基础机
11、器学习,此环节无人工参与。第二步,收集人工数据的监督策略。在该步骤中,人工智能训练师同时扮演用户和人工智能助手两种角色,从基础数据模型中任意抽取问题或指图 1智能语言模型 ChatGPT 的核心技术原理与限制96多媒体数字出版栏目主持睦盫令,对符合期望的结果或行为进行人工标记,通过监督学习优化第一步的 GPT 基础模型。第三步,收集对比数据形成奖励模型。利用第二步的监督策略生成若干结果或行为,人工智能训练师再根据优劣和人类偏好进行排序评级,从而构架起多个对比数据间的奖励模型。第四步,基于强化学习算法的优化模型。第二三步均依赖人工监督和标记,最后步骤则使用近端策略优化(Proximal Poli
12、cy Optimization,PPO)的强化学习算法,实现监督策略和奖励模型的多次迭代、自动运行,从而打造更加智能的生成型预训练变换模型。此外,在 ChatGPT 使用过程中,人工智能仍会对用户数据进行分析学习,以进一步微调和优化智能语言模型算法2。综合运用机器学习、监督学习和强化学习算法,ChatGPT 实现了人工智能语言模型的迭代升级。尽管如此,正如 OpenAI 所承认的,现阶段其仍存在诸多难以化解的缺陷和局限。其一,人工智能幻觉。在基础学习阶段,人工智能难以分辨海量数据的真实性与可靠性,而人工监督、反馈和排序评级的过程也可能会对人工智能产生误导,从而可能导致 ChatGPT 产出的内
13、容无意义或不可信,即所谓人工智能幻觉3。其二,过度优化困境。在监督学习中,训练师可能会偏好更加全面或更长的答案,而奖励学习与强化学习又进一步加强该偏好,最终或将导致过度优化、产生过于冗杂的结果。其三,算法歧视。在基础学习阶段,通用数据集中难免会出现歧视性数据,同时人工智能训练师自身也存在偏见风险,最终在强化学习的作用下导致 ChatGPT在政治、种族、性别等敏感问题上出现算法歧视。其四,有害指令。尽管 OpenAI 开发了全新的内容审查程序(Moderation API)以警告或阻止不安全内容4,但它仍有可能提供部分有害指令或信息;此外,对于被拒绝回答的有害问题,仅仅简单修改提问的措辞和方式,
14、仍有可能得到含有害内容的答案。基于上述核心技术原理与技术局限分析,作为新一代大型智能语言模型,ChatGPT 具有如下技术特点:第一,算法独创性。有别于传统智能语言模型,ChatGPT 在基础数据机器学习的基础之上,独创性地通过 PPO 强化学习算法实现监督学习和奖励模型的自动运行,进而具备了真正意义上的无监督学习、上下文感知以及多模态学习能力。第二,能力综合性。传统智能语言模型的核心能力聚焦于文字处理工作,而 ChatGPT 经过人类监督奖励训练,能够生产出符合人类偏好和价值取向的内容与行为,具备更加强大的数字内容创作能力、编辑能力和孪生能力,创造出了全新的智能机器认知理解模式5。第三,应用
15、广泛性。人工智能语言模型早期进入出版领域,主要用于新闻写作、辅助编辑等初级文字处理工作,而 ChatGPT 凭借先进的语言认知、理解和生成能力,在机器翻译与跨语言交流、文本阅读和创作、内容分析和自动摘要生成、代码写作和纠错等领域具有广泛的应用价值。第四,技术局限性。ChatGPT是在传统智能语言模型的基础上进行强化学习算法创新的产物,虽完成了人工智能自然语言处理模型的转型升级,但仍未跨越弱人工智能和强人工智能之间的巨大鸿沟,由于技术局限性仍存在人工智能幻觉、过度优化、算法歧视和有害指令等诸多缺陷。2数字出版领域智能语言模型的应用前瞻2023 年 3 月 1 日,OpenAI 正 式 宣 布 开
16、放 ChatGPT 的 应 用 程 序 接 口(Application Programming Interface,API),开 发 者 可 自由接入以进行应用程序开发并提供相关服务。可以预见,新一代智能语言模型将被迅速运用到各产业领域,创造巨大经济利益和社会价值。以智能语言模型的技术原理与特征为出发点,结合出版业“选题策划、内容创作、编辑加工、传播推送、阅读体验、内容服务”697出版科学(双月刊)2023331期年第第卷PUBLISHINGJOURNAL六大核心环节,人工智能在数字出版领域的发展潜力不容小觑,能够助力实现数字出版的结构转型。2.1智能语言模型推动全新智能创作模式人工智能在数字
17、出版领域的应用以网络 新 闻 写 作 为 开 端,如 腾 讯 财 经 开 发 的Dreamwriter、新华社推出的“快笔小新”、北京大学和今日头条联合研发的“张小明”等,极大提升了新闻出版领域的创作效率。新一代智能语言模型具有能力综合性和应用广泛性的技术特点,有效改善了传统人工智能的机械创作弊端,能够从以下三个层面实现智能创作模式的升级。其一,大数据智能选题与策划。出版领域关于人工智能的早期研究认为,应由编辑负责选题构思,人工智能负责机械性工作7,而新一代智能语言模型改变了上述认知:传统图书与期刊选题的确定取决于编辑及出版商的学识、直觉、预测等经验性认知,具有难以避免的思维局限性;智能语言模
18、型能够深度学习海量数据,内容涉及文学、艺术、科学、政治、经济、哲学、法律等各个细分领域,其提供的选题和策划思路具有全局性、科学性、可靠性的特点,能够摆脱传统出版流程中人类思维的“中心化”局限,引领以数据为支撑、以市场为导向、以读者为目标的出版方向。其二,智能语言模型自主创作。有别于传统人工智能机械创作的局限性,新一代智能语言模型具备无监督学习、上下文感知以及多模态学习能力,或将在多领域颠覆传统自主智能创作模式:在新闻领域,实现出版内容的自动化生产;根据指令自主生成词、曲音乐作品,极大丰富数字音乐市场;对外文作品进行自动翻译、纠错和优化,促进中外作品融通交流。其三,智能语言模型辅助创作。在创作准
19、备阶段,智能语言模型能够完成海量文献的收集、筛选、归纳等智能学术检索工作,形成体系化的文献综述;创作过程中,智能语言模型提供词汇选择、语法改善、背景知识支持等服务,极大提升创作效率;此外,文本智能审查、自动生成摘要、智能审校和排版等功能,对于提升数字出版内容创作质量也大有裨益。2.2智能语言模型引领智能出版转型升级为积极响应国家数字出版深度融合发展号召,提升出版效率、优化出版流程,诸多图书期刊出版商开发了全面数字化的智能数字出版系统。以中国科学杂志社自主研发的科技期刊全流程出版平台(SciEngine 平台)为例,智能数字出版系统主要包括投审稿、排版、生产管理、发布营销等四个核心板块8。而以
20、ChatGPT 为代表的新一代智能语言模型具有划时代的多重深度学习能力,将从以下三个环节引领智能数字出版的再次转型升级。首先,数字化智能投审稿系统。在初审阶段,凭借 ChatGPT 的内容分析感知能力,对海量稿件进行初筛,能够高效剔除与期刊发文范围、选题方向不一致的文稿;在形式审查环节,通过智能语言模型的深度学习技术改进查重模式,避免对数学物理公式、图像内容的误判,杜绝通过更改表述规避文字复制比检测的学术不端行为;对于文稿的实质性审校,可利用智能语言模型进行语言文字自动纠错(包括日常语言、专业词汇、结构语法、公式图表、参考文献等),在内容审核上快速实现敏感词排查识别,同时能够对学术研究的文献完
21、整性、数据可靠性和准确性进行判断;此外,在专家审稿环节,通过深度分析稿件内容自动匹配相关领域的审稿人。其次,数字化智能排版系统。中国知网“格式精灵”系统能够为近7000种期刊提供智能排版服务,而 ChatGPT 可用于进一步提升数字化排版系统的智能化程度:利用文本分析与仿写功能辅助编写文稿相关内容(包括摘要、关键词、各级标题、文献分类编码等内容);对文本编辑内容进行智能分析校对和自动纠错,进一步提升出版内容质量;通过对图书版式或期98多媒体数字出版栏目主持睦盫刊格式的深度学习,提供对稿件的自动编校、自动排版、自动版式设计等数字化智能服务。再次,数字化智能生产管理系统。通过对出版内容的深度分析,
22、预测数字出版物的受众面与市场情况,为出版物数字发行提供辅助规划,加快传统出版物的数字化转换;利用智能语言模型的策略优化能效,建立数字出版内容资源、编印发流程、出版物生产的智能管理系统。2.3智能语言模型助力打造智慧阅读空间在全民阅读理念和阅读推广活动的助力之下,智慧阅读的发展理念应运而生,即通过各类新兴智能技术为公众提供智慧服务,这也为数字出版行业带来了全新的机遇和挑战9。阅读内容生产社会化、阅读推荐个性化、阅读内容精细化、阅读模式多样化、阅读场景立体化,是智慧阅读五位一体的实现路径与发展目标,而新一代智能语言模型也将从上述五个层面助力打造智慧阅读空间。其一,阅读内容生产社会化。随着数字出版内
23、容的创作普及,ChatGPT 等智能语言模型辅助创作的工具价值凸显,必将掀起又一波全民共创的文化热潮。其二,阅读推荐个性化。为实现“千人千面”的个性化阅读推荐和内容定制服务,智能语言模型能够以数据统计、算法模拟为基础,通过人机对话的反复实践和调试,为用户提供更加符合个性化需求的出版物内容,实现数字出版物智能发行与销售。其三,阅读内容精细化。随着社会生产生活方式的转变,人类阅读模式悄然实现从整体化到碎片化的转变;“短平快”的阅读内容充斥各大数字出版平台。智能语言模型具有高效的文本阅读与归纳能力,可以自动生成故事梗概、提炼文本核心内容,能够辅助实现数字出版内容的精简化。其四,阅读模式多样化。一方面
24、,通过深度学习实现数字出版物内容与阅读场景的有机结合;另一方面,智能语言模型的多模态学习能力将推动数字出版产品的形态转变,助力探索增强现实出版与虚拟现实出版。其五,阅读场景立体化。综合运用智能语言模型,丰富数字出版物资源,提升信息服务能力,助力智慧图书馆建设10;开发虚拟出版物,打造元宇宙数字出版与阅读空间。3数字出版领域智能语言模型应用的风险与挑战3.1算法伦理、出版伦理与学术伦理危机科技伦理是科学技术发展过程中人与自然、人与社会之间应遵守的价值观念与行为规范的总和;智能语言模型在数字出版领域的应用带来了算法、出版、学术的三重伦理挑 战。第 一,算 法 伦 理 难 题。ChatGPT 在监督
25、学习和奖励模型训练两个阶段均有人工智能训练师的参与,而价值偏向性是人类难以摆脱的自然属性。这将影响智能语言模型的内容产出,进而导致数字出版内容可能存在算法歧视、有害信息等算法伦理问题。第二,出版伦理检视。出版编辑环节涉及对社会、经济、文化等多方面环境因素的综合价值判断,因此人工编辑在传统出版物编辑发行中具有重要地位和作用,能够引导数字出版物传达正确的思想和价值观。而智能语言模型以机械算法和数据为运行基础,难以进行价值判断,从而引发破坏出版伦理的风险。第三,学术伦理危机。ChatGPT 已能被广泛应用于文献整理、学术写作过程中,相应地也引起了出版物署名争议、学术抄袭等问题,未来其在数字出版领域的
26、广泛应用或将加剧相关学术伦理危机。为此,国际出版商施普林格 自然(Springer Nature)、国际学术期刊科学(Science)以及国内期刊暨南学报(哲学社会科学版)先后表示暂不接受任何智能语言模型单独或联合署名的文章。3.2数字出版内容同质化与泛娱乐化难题如关于推动出版深度融合发展的实施意见所述,中国出版业正面临功能重复、99出版科学(双月刊)2023331期年第第卷PUBLISHINGJOURNAL内容同质等问题,泛娱乐化与同质化的发展瓶颈在数字出版领域尤为突出,而智能语言模型的应用或将加重该局面。首先,ChatGPT以监督学习和奖励模型为核心算法,即通过强化学习算法对机器产出结果进
27、行优劣判断和排序评级,导致其产出内容存在算法偏好。在数字出版领域内,对于相同或类似话题和指令,智能语言模型或因算法偏好而输出类似结果,加剧数字出版内容的同质化倾向。其次,短视频平台、新闻客户端、社交新媒体等新型数字出版平台泛娱乐化内容泛滥,而ChatGPT 等基于偏好算法的智能语言模型可能造成浅薄空洞或有害内容的恶性循环传播。再次,智能语言模型打造的个性化推荐算法扩大了数字出版内容的传播,同时人工智能织就的信息茧房有可能严重拉低数字出版内容的信息品质与内涵。此外,数字出版领域内智能语言模型的应用还可能引发虚假新闻、信息过载、出版内容社会黏性缺失等问题11。综上,新一代智能语言模型如使用不当,将
28、有碍严肃文学等具有深刻内涵的出版物的传播,影响优秀文化传承与文化事业建设。3.3智能语言模型生成物的版权保护困境学术界关于人工智能生成物的版权保护争议由来已久、未有定论,ChatGPT 的爆火再一次将该议题推向风口浪尖。为此,首先要解决的问题是智能语言模型生成物能否纳入版权法客体的范畴。支持者认为,基于劳动价值论、功利主义的视角,为人工智能生成物提供版权保护符合激励机制以及著作权法的相关规定12;反对者指出,人工智能创作的本质是模仿与计算,其生成内容不具备智力财产的属性,故应属于公有领域13。新一代智能语言模型模糊了上述对立观点间的界限:ChatGPT 大众创作呈井喷态势,能否真正激励数字出版
29、领域产业创新存疑;监督学习与奖励模型下,智能语言模型生成物蕴含算法偏好与机器价值判断,已脱离最初单纯的人工智能机械创作模式。因此,智能语言模型生成物的可版权性问题仍有待考察。进一步地,若承认智能语言模型生成物的版权客体性质,关于权利归属的认定亦众说纷纭,学界大致存在操作者说、投资者说、设计者说、人工智能主体资格说等几种主流学说。对此,OpenAI 关于 ChatGPT 的使用条款表示在特定前提下,将向用户转让(assign)相关输出内容的所有权利和利益14;其中“转让”的表述暗示其认为自身是智能语言模型生成物的原始权利主体。可版权性的判断与版权归属问题牵涉数字出版领域相关争议的定分止争,后续应
30、进一步审慎考察现行著作权法及相关规定,以维护数字出版市场的经济秩序。3.4智能语言模型创作过程中的侵权风险智能语言模型进行数字出版物创作的本质是人工智能对大数据学习、分析、再创造的过程,贯穿全程且起核心作用的技术即文本数据挖掘。具言之,智能语言模型对海量文本数据进行深度学习、结构化处理,最终生成目标指令和内容,可简化为“输入”“输出”两个环节;而这两个环节均可能导致数字出版领域的侵权风险与侵权责任认定难题。一方面,“输入”环节以海量文本数据为机器学习基础,引发三个层次的侵权风险:智能语言模型以商业化手段批量使用他人作品,难以构成版权法上的合理使用,此乃著作权侵权风险;中国数据安全法 个人信息保
31、护法构筑起了数据保护的围墙,而智能语言模型文本数据挖掘行为或将打破该权利边界;以民法典为基础的自然人隐私权保护体系,也受到文本数据挖掘中算法黑箱、无差别算法的威胁15。另一方面,智能语言模型“输出”阶段产生的数字出版物可被视为对原始版权作品的改编、汇编、演绎或“转换性使用”,这又涉及著作权合理使用“三要件”与“四要素”之争,引发司法实践对版权侵权与合理使用的判定难100多媒体数字出版栏目主持睦盫题。此外,ChatGPT 使用条款表示,为响应知识产权人的投诉,提交特定材料后 OpenAI将删除或禁用涉嫌版权侵权的内容16。显然,智能语言模型试图通过避风港规则免除侵权责任,而实践中侵权认定还应结合
32、主体类型、具体行为类型、争议客体类型等多项因素综合判断,新一代智能语言模型能否适用避风港规则以及红旗标准仍有待商榷。4数字出版领域智能语言模型应用的治理路径4.1理念调试:技术中立论与价值论的辩证统一应对新兴技术引发的社会秩序变革与经济市场风险,学界的普遍观点是保持技术中立,即将技术视为实现特定价值目标的工具,不对其进行善恶之辩17。在相关政策、立法与社会规约中均有体现。近年来,随着智能算法、基因编辑等新兴技术引发伦理危机,技术价值论主张应正视技术所含的价值取向和利益偏好。对于上述对立观点,本文认为应回归技术的工具属性和目的价值,探索技术中立论与价值论的辩证统一,以实现数字出版领域智能语言模型
33、风险治理的理念调试:第一,基于技术中立论视角,智能语言模型的自然属性是机器和工具,应始终秉持其技术工具价值的观点,即便新一代智能语言模型在数字出版领域具有辅助创作、智能出版、智慧阅读的功能,但其只是辅助人类进行出版工作的工具,在任何情况下都不具备主体价值。第二,基于技术价值论的观点,由于ChatGPT 的监督学习、奖励算法等环节均有人工训练师的参与,理应承认其具有价值偏向性,应正视智能语言模型的社会属性,并从政策、立法、司法、技术升级改造等角度辅以相关配套措施,引导智能语言模型在数字出版物中展现正向的价值内涵。第三,思想上明确技术中立论与价值论具有辩证统一关系,但应认识到两者仅具有最低限度的起
34、点意义,在智能语言模型的治理路径选择上,数字出版还牵涉国家安全、文化事业发展、出版伦理与学术伦理、数据隐私与著作权保护等诸多更深层次的目标,下文将在理念调试的基础之上对相关议题展开论述。4.2政策立法:智能语言模型的法制治理路径国家政策方针为行业发展提供指引与方向。为应对数字出版领域内智能语言模型应用的风险与挑战,可结合有关学者提出的“科技赋能出版”发展理念18,从以下三个层面完成相关领域的政策体系布局:其一,坚守意识形态安全调控体系。数字出版是国家文化事业建设的关键环节,合理规划智能语言模型参与数字出版,关涉我国政治安全、文化安全与网络安全。此外,机器学习过程中的数据跨境流动还与国家数据安全
35、休戚相关。其二,构筑国家整体规划调控体系。一方面,将智能语言模型技术纳入国家文化事业发展规划、数字出版产业发展规划以及人工智能产业发展规划;另一方面,探索专门的数字出版智能语言模型应用规划,从立法、行政、金融、财税、文化等方面提供全方位指引。其三,形成行业标准规范调控体系。在行业内部制定统一的技术规范,如数字出版技术标准规范、智能语言模型技术应用规范等。有关数字出版领域智能语言模型的立法,主要集中在著作权、数据权利、个人信息和隐私保护三个方面:应尽快修订著作权法实施条例,理顺著作权法实施规范;以数据安全法 个人信息保护法为基础,细化数据权利保护模式;探索构建以民法典人格权编为核心的隐私与个人信
36、息保护制度体系。现阶段,讨论的重点是如何在司法实践中运用现行法律解决数字出版领域智能语言模型的侵权风险:首先,ChatGPT 生成物的可版权性判断,应严格遵循著作权法“独创性”“一定表现形式”等构成要件客观判断。其次,对于生成物的权利归属问题,尊重智能语言模型相关当事人的意思自治19;101出版科学(双月刊)2023331期年第第卷PUBLISHINGJOURNAL若无相关约定,则以出版物独创性贡献分析为核心,结合著作权权属规则由参与创作或投资的自然人或法人享有权利。再次,机器学习过程中产生的出版物合理使用与侵权认定难题,应严格遵照“三步检验法”灵活判断,避免制度扩张侵蚀公共利益。最后,针对
37、OpenAI 使用条款中自拟的避风港规则声明,应结合具体的侵权情节、行为类型、争议客体类型等因素在个案中综合判定。4.3出版转型:数字出版智能化升级与人才培养智能语言模型的推广应用带动出版业转型,使其呈现出科技化、自动化、智能化的良好发展态势;出版行业关系到国家思想教育工作、文化事业繁荣等重大事宜,应从以下三个层次开辟数字出版领域应对智能语言模型风险的治理之道。其一,数字出版领域智能语言模型治理的基本原则。以出版安全为基准,发挥智能技术在国家文化事业建设中的积极作用,维护国家安全、文化安全、数据安全与出版安全;以优质内容为导向,始终坚持以优质数字出版内容为前景方向和运作核心,避免因新技术而破坏
38、出版行业的价值追求和精神内核;以融合创新为动力,对新一代智能语言模型持开放态度,融合 5G、区块链、云服务等新兴信息技术引导产业创新。其二,完成数字出版智能化升级。一方面,面对新一代智能语言模型,数字出版应采取从入门到深入、从局部到整体、从应用到限制的策略,推动全新智能创作模式、引领智能出版流程升级、打造智慧阅读空间,最大地发挥人工智能的工具价值;另一方面,审慎对待智能语言模型生成物,坚持人类主体地位、发挥人类主观能动性,提升编审标准、提高出版人的社会责任感,避免盲目依赖人工智能而引发风险和伤害。其三,培养数字出版复合型人才。新一代人工智能发展规划出版物发行业“十四五”时期发展专项规划均明确提
39、出要加强人才队伍建设,培养数字出版领域复合型人才,应重视三重能力:基础的编辑学、语言学、信息管理学知识技能,一定程度的信息技术、计算机科学、网络技能知识,最重要的是创造性思维和创新能力,以此打破智能语言模型中的信息茧房与算法偏差,真正意义上发挥人工智能的工具价值而非被算法裹挟,为数字出版提供智力支持。4.4技术升级:智能语言模型的配套技术完善现阶段,以 ChatGPT 为代表的智能语言模型还存在人工智能幻觉、过度优化、算法歧视和有害指令等技术局限,人工智能发展水平与数字出版融合之间仍存在难以匹配的矛盾,为应对伦理危机与侵权风险,提升数字出版物内容质量,应从智能语言模型本身与相关配套措施进行技术
40、升级与完善。第一,完善智能语言模型算法,最大程度地克服人工智能幻觉与过度优化难题,提升数字出版物内容合理性与可信度。第二,重视监督学习、奖励模型等算法设计中的价值判断审核,将先进思想理念与普世价值观念注入深度学习算法,在合理范围内实现算法公开与算法监督、打破算法黑箱,避免滋生歧视或有害内容。第三,积极推广使用互联网环境中版权作品的标签、水印、爬虫协议(robots.txt)等技术,明确网络数据与作品的权利状态;相应地,智能语言模型设计者应在数据文本挖掘过程中采取相关措施对上述标识进行检测和筛选,从而保障数据来源合法20。第四,在智能语言模型中增加内容过滤算法,对算法深度学习文本、用户输入指令、
41、模型输出内容进行机器审核,并辅以 ChatGPT 使用条款中的删除或禁用机制,从源头上遏制有害信息、歧视指令和侵权内容,以减轻权利人适用“通知-删除”规则的工作量。第五,研发并完善针对智能语言模型的文本识别与检测技术,对数字出版物内容进行机器筛查和判断,打击利用人工智能进行抄袭改写、虚假署名、学102多媒体数字出版栏目主持睦盫注释1 韩寒.中国数字出版产业稳步向前 N.光明日报,2023-02-21(009)2OpenAI.Introducing ChatGPTEB/OL.2023-03-01.https:/ Z W,Lee N,Frieske R,et al.Survey of Halluc
42、ination in Natural Language GenerationJ.ACM Computing Surveys,2023,55(12):1-384Markov T,Zhang C,Agarwal S,et al.New and improved content moderation toolingEB/OL.2023-03-01.https:/ 张夏恒.ChatGPT 的逻辑解构、影响研判及政策建议 J.新疆师范大学学报(哲学社会科学版),2023,44(5):113-1236 刘平,杨志辉.人工智能构建科技期刊智慧出版模式 J.中国科技期刊研究,2019,30(5):462-46
43、87 姜春辉.人工智能技术与出版的融合探析 J.出版广角,2018(3):59-618 黄延红,侯修洲.科技期刊全流程数字出版平台的构建 J.中国科技期刊研究,2020,31(1):51-559 聂震宁.从智慧阅读看智慧出版转型 J.现代出版,2021(6):5-910李书宁,刘一鸣.ChatGPT类智能对话工具兴起对图书馆行业的机遇与挑战J.图书馆论坛,2023,43(5):104-11011 程忠良,马骁.人工智能时代出版业“数据+算法”运营模式的关键 J.科技与出版,2019(7):118-12312 朱梦云.人工智能生成物的著作权保护可行性研究 J.出版科学,2019,27(3):53
44、-5813 曹博.人工智能生成物的智力财产属性辨析 J.比较法研究,2019(4):138-1501416OpenAI.Terms of useEB/OL.(2023-03-01)2023-03-06.https:/ 王树义,张庆薇.ChatGPT 给科研工作者带来的机遇与挑战 J.图书馆论坛,2023,43(3):109-11817 张今.版权法上“技术中立”的反思与评析 J.知识产权,2008(1):72-7618 张新新,杜方伟.科技赋能出版:“十三五”时期出版业数字技术的应用 J.中国编辑,2020(12):4-1119 邓建鹏,朱怿成.ChatGPT 模型的法律风险及应对之策 J.新
45、疆师范大学学报(哲学社会科学版),2023,44(5):91-10120 丛立先,李泳霖.聊天机器人生成内容的版权风险及其治理:以 ChatGPT 的应用场景为视角 J.中国出版,2023(5):16-2121 曹世生,范军.融合创新:以新技术赋能出版高质量发展 J.科技与出版,2020(5):29-34(收稿日期:2023-03-28)术不端等违反学术伦理与出版伦理的行为。5结语出版产业与技术的联系正变得越来越紧密,出版机构日益向知识运营和服务提供商转型21。随着新一代技术革命、全民共创与全民阅读时代的到来,数字出版正朝着助力文明建设、繁荣文化市场、服务大众阅读的方向演进与变迁。ChatGPT 再次引发人工智能参与社会产业发展的讨论热潮。对数字出版产业而言,新一代智能语言模型既不是激活、引领产业繁荣的灵丹妙药,亦不是颠覆、倾倒行业规则的洪水猛兽。应正确把握技术中立论与价值论的辩证统一关系,始终坚持新兴技术的工具价值与客体地位,从理念调试、政策立法、产业转型、技术升级等角度理性应对数字出版领域智能语言模型的伦理危机与侵权风险,方能实现我国出版业高质量可持续发展,助力新时代文化强国建设。