2024大模型训练数据白皮书.pdf

资源描述

LARGE LANGUAGEMODELS TRAINING DATAWHITE PAPER专家委员会安筱鹏阿里云智能副总裁袁媛阿里研究院执行副院长宋志刚数字中国研究院(福建)院长编写组主要成员傅宏宇王峥赵志远郑达真张荣陈岳峰李天宇徐强编写单位阿里巴巴集团数字中国研究院（福建）阿里云智能集团大模型训练数据白皮书关于我们阿里研究院是阿里巴巴集团的内设智库机构，多年来扎根于阿里巴巴丰富的数字科技商业生态，依托前沿的产业实践和大量的创新案例，围绕集团“用户为先，AI 驱动”的战略重心，聚焦于科技创新、数据和算法治理等领域的研究。联系我们训练数据对大模型发展的重要性.02模型训练所需的数据类型.032.1 训练大语言模型的数据.032.2 训练多模态模型的数据.042.3 训练数据的常见疑问和误解.042.3.1 大模型训练并不依赖用户个人信息.042.3.2 中文语料短缺不是制约我国大模型发展的重要因素.05科学理解高质量数据的含义与作用.063.1 高质量数据的重要性.063.2 高质量数据的标准.073.2.1 高质量数据类型的三重不确定性.073.2.2 同类数据的评估标准并不完全一致.08目录CONTENTS010203大模型训练数据白皮书合成数据作为解决训练数据供给不足的新方案.094.1 训练数据供给不足带来的思考.094.2 合成数据的定义.104.3 合成数据的必要性.104.4 合成数据的生成方法及分类.114.5 合成数据在模型训练中的作用.124.5.1 预训练语料的新物种.124.5.2 提升对齐语料获取效率的加速器.134.6 解决训练数据供给不足的新方案.144.7 在发展中治理的合成数据.16对大模型训练数据治理的思考.175.1 大模型对训练数据的使用特点.175.2 大模型训练数据合规的治理之智.18政府与社会力量协同的训练数据生态.196.1 美国的现状.196.2 中国的现状.21 以更开放和务实的方式解决高质量训练数据供给.阿里巴巴集团在大模型训练与应用的探索.23240405060708自中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见发布以来，我国数据要素建设不断深入，在国家数据局等 17 部门联合印发的“数据要素”三年行动计划（2024-2026 年）进一步明确“建设高质量语料库和基础科学数据集，支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展，可以有效解决我国人工智能，特别是大模型研发所面临的数据瓶颈，进一步发挥大模型对于世界知识数据的汇集和处理能力，创造更大的生产力，助力我国从数据经济走向智能经济新发展模式。大模型是数据要素价值释放的最短路径，通过理解其训练所使用的数据类型，可以更好理解大模型发挥价值的内在机制，破解对训练数据常见的迷思和误解。而促进高质量训练数据的建设，需要理解人工智能对数据的实际需求，科学评价数据的规模和质量；需要综合利用政府、企业、社会等各方资源，构建共享、共创、共赢的合作生态，以更务实、多元、开放的方式解决供给不足的问题；还需要为技术发展预留空间，构建更顺应模型发展的数据治理体系，相信随着技术的日益成熟，相应的商业模式和制度设计也都会逐步完善。01业界认为，算法、算力与数据，是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生成式人工智能大模型成功的驱动力。GPT 模型架构从第 1 代到第 4 代均较为相似，而用来训练数据的数据规模和质量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练，GPT-2 是由经人类过滤后的 40G 数据训练，GPT-3是由从 45T 原始数据中过滤的 570G 数据训练，而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以吴恩达（Andrew Ng）为代表的学者观点认为，人工智能是以数据为中心的，而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值，如果业界将更多精力放在数据质量上，人工智能的发展会更快”。01训练数据对大模型发展的重要性02大模型训练数据白皮书数据作为大模型训练的基础，它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据，随着技术的演进，大模型所需的数据是对知识性内容有强需求，是一种新的类型。模型训练所需的数据类型2.1训练大语言模型的数据大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型（LLM）为例，其训练过程分为预训练（Pre-training）、监督微调（SFT）、基于人类反馈的强化学习（RLHF）三个阶段，后两部分又统称为0203大语言模型迅速发展的同时，Transformer 开始迁移到图像、视频和语音等其他模态数据领域，并与大语言模型融合，形成多模态大模型。多模态模型模拟人类大脑处理信息的方式，把各种感知模态结合起来，以更全面、综合的方式理解和生成信息，最终实现更丰富的任务和应用。从以 Mid-journey 和 Sora 为例的多模态大模型看，在训练阶段需要大量图像-文本对、视频-文本对等有标注数据集进行训练。图像-文本对是包含一张图像和一段描述该图像内容的文本的数据，让模型学习组成图像的像素之间、文字与图像的关联。视频-文本对包括一个短视频和一段描述视频中发生事件的文本，让模型不仅学习单个画面，还需要理解视频中的时间序列和动态变化。2.2训练多模态模型的数据“对齐”（Alignment）阶段。第一阶段预训练所需的语料是各种类型的世界知识，包括网页、书籍、新闻、论文期刊、对话文本、代码等形式，通过大量学习世界知识，构建模型的基础能力，理解客观世界的规律，该阶段的语料特征可以概括为“广”。第二阶段 SFT，通过标注人员设计问答，编写正确答案，将例题投喂给模型，并希望模型在没有见过的任务中“举一反三”，提升泛化能力。第三阶段 RLHF，训练目标是让模型的价值观与人类对齐，需要人类对模型的回答进行打分、排序，让模型知道怎么说更好。第二和第三阶段的数据质量要求较高，需要来自人类的高质量反馈，语料特征可以概括为“齐”。如果将模型微调后部署应用于特定的场景形成行业大模型（如工业、金融、医疗等），则需要满足该场景专业需求的特定领域知识做预训练和对齐，需要具备一定专业深度，如行业数据库、专业文档、专业网站等，这部分的语料特征是“专”。2.3训练数据的常见疑问和误解2.3.1大模型训练并不依赖用户个人信息人工智能经历了从有监督学习到无监督学习的发展阶段，神经网络等技术推动了数据驱动的应用模式。传统的决策类人工智能在需求侧通过学习和分析海量的用户行为数据，判断用户的偏好和需求。在供给侧通过学习内容的特征，借助推荐、排序等机制实现需求和内容的匹配，并根据用户的行为反馈进行优化，提高算法的准确性。以个性化搜索为例，以大量的用户使用记录、用户画像、内容画像等原始数据为基础，提炼出客群和内容标签等不同维04大模型训练数据白皮书度的信息，进而抽象出特征向量，用向量的空间距离计算用户和内容的相似度，通过匹配与排名进行个性化的搜索结果召回。基于上述特点，此类决策式人工智能技术在需求侧需要更多用户数据，在供给侧依赖更为全面的内容特征。与以前的决策类人工智能相比，以大模型为代表的生成式人工智能的技术特征有明显差异。大模型是模拟人类的思维活动方式生成人类可以理解和使用的内容，而训练数据也是基于世界知识，对语料库等知识性内容有强烈需求，因此大模型训练阶段不依赖个人信息等原始数据。此外，为保证生成内容与人类价值观对齐，业界往往利用强化学习，通过纳入人工标注等机制优化表达，使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依赖，而对专业化、高质量语料的知识性内容依赖大。由此看出，随着技术的演进，对训练数据的需求类型也有所不同。然而，有很多人对此仍存在误解。根据第三方专业机构测评显示，超过 60%的受访者误选了“盗取、泄露个人隐私数据的安全风险”作为大模型的最主要风险点。与一般看法相反，过量的个人数据会负面影响大模型的能力，而过于个性化的应用也将增加大模型的运算负担。对此，OpenAI 负责人 Sam Altman 表示，ChatGPT 不需要用户的个人数据，用户可以选择删除其与 ChatGPT 的交互历史；类似的，我国目前主流大模型在提供用户隐私保护的基础上，并不过度收集和使用用户个人信息，并允许用户控制和删除其与大模型交互的对话和提供的内容。当然，在大模型的推理阶段，如果用户恶意诱导，尽管有相应的模型安全机制，仍不能完全避免个人信息泄露的问题。但可以明确的是，大模型在训练阶段并不依赖个人信息。2.3.2中文语料短缺不是制约我国大模型发展的重要因素谈到中文大模型，一个普遍关注的问题是，中文语料和英文语料在互联网中的占比存在显著差异：在全球网站中，英文占 59.8%，而中文仅占 1.3%，那中文语料供给短缺是否是制约我国大模型发展的关键要素呢？在实践中发现，规模并不是决定性影响因素。一是世界知识的积累有的属于客观事实，用英文或中文表达，其原理是一致的。或者说，在机器翻译质量有保障的前提下，可以弥补这部分中文语料的缺少。二是在训练技术上引入新方法也可以弥补语料供给不足的问题。例如通过合理安排不同语言类型的训练顺序，也能让模型学习到供给相对较少语言的丰富特征。然而有一种类型的中文语料是极为重要且存在短缺的-中式价值观类语料。因为模型为了更好地理解客观世界和掌握规律，需要学习大量来自知识和价值观层的数据，它们更多受到人类主观意志的影响。而大模型是概率分布模型，其使用的数据来源分布将使得模型具备与之相似的人类意志。所以，训练中加入更多代表中式价值观的语料，有助于大模型更好地理解和反映中文使用者的文化背景和价值取向，从而在全球化的背景下保持文化的多样性和独特性。而且此类语料短缺的问题也没有办法通过机器翻译弥补，因为即使翻译质量有保障，仍会引入源语言的偏见，体现的仍是源语言的价值观。总体来看，文言文、古汉语、电子书籍等反映优秀传统文化的内容，以及主流媒体发布的能反映本土价值观的内容，都可视为高质量具有中式价值观的语料。但目前看，与语料相关的各环节：05从积累机制、数字化（比如我国古籍数字化率不到 30%），到开放共享与开发利用，及训练过程中机器算法与编码系统的建设，都仍需大量持续投入精力。可见，中文语料“量”的短缺尚可有解决方案，但中式价值观类的语料短缺，则会成为制约我国大模型发展的短板。科学理解高质量数据的含义与作用03在生成式人工智能时代，模型训练的成功与否与所依赖的数据质量息息相关。模型的能力很大程度上可以反映出其训练数据的质量，这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。3.1高质量数据的重要性由于高质量数据可以更好地模拟客观世界，将其作为训练数据可以增强模型能力。从技术层面看，通常用损失函数来量化模型预测输出与实际目标之间的不匹配程度。能更好模拟客观世界的高质量数据，可以使模型预测的概率分布尽可能逼近实际数据的真实分布，通过优化算法调整模型参数，让模型在训练集上的损失函数最小。从模型能力表现看，一是高质量数据可以提升模型的准确性和稳定性。首先，这些数据通常包含更准确和丰富的信息，有助于模型更好地理解数据的内在结构，掌握世界规律，提升产出的精准性。其次，数据清洗是提高数据质量的重要环节，包括去重、删除个信隐私内容、纠正错误、填补缺失值等，经过清洗的数据可以提升训练阶段的稳定性。二是高质量数据具有多样性，可以降低模型对特定数据集的依赖，提升鲁棒性和泛化能力。一方面高质量数据通过对现有不同来源的数据加以混合，调试配比，提升模型执行下游任务的泛化能力。另一方面可以利用数据增强等手段有效提升多样性，即通过对现有数据进行变换或扩充，如旋转、缩放、亮度调整等，生成更多的训练样本，增加训练数据代表性和多样性。然而，即使在训练各阶段中的语料都满足高质量，能做到“真实性”、“准确性”、“客观性”、“多样性”的要求，仍不能完全避免模型结果产生幻觉，即“一本正经胡说八道”。因为大模型本质是概率模型，是基于前文预测06大模型训练数据白皮书下一个词出现的概率，“词语接龙”出现的下一个词并不是 100%有确定性的。所以高质量的语料，可以大幅降低模型结果产生幻觉的概率，但并不能完全避免。但如果在训练中使用了较多错误、有毒、重复的低质量数据，则会对模型能力产生破坏性影响，也就是人们常说的“Garbage In Garbage Out”，比如没有经过严格质量筛选的大量社交媒体对话、用户生成的内容等。在对模型能力的损害上，使用错误的数据进行训练，会导致模型记忆有偏差信息，发生事实性错误；使用有重复的语料，则可能会导致模型在训练过程中对特定类型的示例产生偏见，降低生成结果的多样性，造成模型能力的显著下降。由于高质量数据如此重要，会引发对一系列问题的思考，比如我们能否前置制定统一的标准体系，把高质量训练数据先识别出来？数据质量与模型的能力有什么联系？3.2高质量数据的标准3.2.1高质量数据类型的三重不确定性第一重不确定性来自于所需的语料种类，其类型是由人类对模型能力需求决定的，而能力需求又是根据需要模型所完成的任务而不断演变。回溯基础大模型的发展历程，在 2020 年左右，基于 Transformer 架构的 Google Meena，其目的是让模型具有生成连贯且有意义内容的对话能力，因此对话文本被视为最重要的高质量数据。而随着技术路线的演进，人们发现更通用的上下文理解是重点，因此书籍和科研论文等又被视为高质量数据。通过提升其在训练语料中的占比，可以增强模型从文本中捕捉长距离依赖的能力。随着人们对通用人工智能的向往，对提升通用性能的北极星指标-推理能力有帮助的语料，又更加被重视。一种是代码数据，因为里面涉及大量If-Then-Else 等条件控制信息；另一种是教材，因为涉及了比较详细的数学推理过程，和逻辑链高度相关。如果再拓展到行业模型，根据对模型能力的不同需求，语料类型更难以一一列举。比如，经人类标注的，由视觉相似性图片构成的匹配对数据库，可以作为高质量数据用于大模型在广告领域的训练，通过更好预测用户需求实现对素材点击率的优化。而通过收集人类驾驶员对稀有事件（比如驾驶过程中遇到的复杂路况、极端天气、异常行为的人或车辆等场景）的应对数据，则可以更好训练完全自动驾驶（FSD）模型在不同场景中的处理能力。由此看出，由于生成式 AI 在技术演进和应用场景拓展中具有不确定性，模型对所需要语料类型也在发生变化，“高质量语料”的类型和范围也在不断拓展。第二重不确定性来自于语料形态的演化，高质量数据的形态会不断增强，以强化该类型语料的能力。一方面随着合成数据和数据增强技术的提升，大模型正在不断拓展对数据利用的可能性。如领域知识生成，对于大模型难以直接使用的原始数据，通过加工、改造和泛化可以形成模型训练可用的知识类数据。另外，在自动驾驶等领域，通过仿真数据生成更多样化、不同视角的物理世界用于模型训练，可以提升针对特定场景的数据收集效率，弥补真实07世界中对稀有事件观测不足的问题。另一方面，随着模型长上下文建模能力的增强，对代码和教材的需求又有了质的变化。例如，训练用的代码数据从执行单一任务到仓库级，让模型推理能力从掌握单任务模块进化到学习整体架构；训练用的教材从中小学级别知识拓展到大学，进一步增强了复杂场景下的推理能力。第三重不确定性来自于不同数据类型之间的有效搭配，数据调度对模型能力起到重要作用。该环节强调对不同来源的数据加以混合，以提升数据集的多样性。因为不同类型的数据对模型能力提升的侧重点不同，各个数据来源的配比不同，也会影响模型的泛化能力以及在下游任务的表现，其中包含两个重要环节：一是调整不同来源数据的配比（数据混合），二是不同来源数据用于训练的顺序（数据课程）。数据混合环节可以在训练的不同阶段设定配比，在实践中不断尝试出最优的组合。例如在监督微调阶段，有研究者从 Stack Exchange、Reddit 等网站中精选高赞语料，配合手工整理的问答对，得到共计 1000 条高质量微调数据，以“少而精”的数据在模型对齐能力上取得了很好的效果。数据混合在实践中会采取不同策略，一是增加数据源的多样性，这对大模型在下游任务能力的提升十分关键；二是可以根据大模型执行的目标任务，选择对任务性能产生积极影响的数据。数据课程环节是为了让大模型更好地学习某项技能，对语料学习顺序进行探索。一般来说，按照技能集合的顺序组织预训练语料（从基础技能到目标技能），比直接从专注于目标技能的语料库中学习更为有效，如从通用或简单的例子开始，逐步引入更具专业化或复杂度的数据。3.2.2同类数据的评估标准并不完全一致对同类语料的质量评估，往往从质量、规模、多样性三个维度出发。在质量上，被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选，这些大多可以从来源中做判断。例如，在语言模型训练中，新闻、科研论文或开源代码项目中的内容会受到专业标准（如同行评审）的筛选；常识性内容中，维基百科则经受了一群专注编辑者的筛选；而经过筛选的对话内容则是基于用户的积极互动（如在 Reddit 上获得的点赞数量）；在多模态模型训练中，以视觉中国为例，其网站有经过专业设计师筛选的大量图片和视频素材，并有对图像的光照、构图、艺术性、美观性等专业性标注，形成了高质量的图像/视频-文本对。其次，对于无法从信息来源直接判断数据质量的语料，人们会尝试用评估模型进行打分。例如对大量公开的网页，通过先对少量样本人工评价得到可读性、帮助性、安全性等指标，通过这些具有代表性的样本训练评估模型，将人工定义的评价标准转化为机器可识别的特征和模式，在此基础上评价语料中所有网页信息的质量。然而，即使有了前两种方法，针对部分语料仍无法前置判断其质量。如用于领域模型训练的语料，涉及到不同行业的专业知识，缺少统一的判断标准，往往是在模型训练中不断检验其质量的高低。从规模看，收集足够规模的高质量语料也非常重要。根据大模型“伸缩法则”，当模型的参数或计算量按比例扩大时，模型性能也与之成比例提升。而随着参数规模的增加，也需要更多数据来训练模型，即模型参数与训练语料之间也存在类似的比例关系。需要指出的是，并不是语料规模越大越好，而是高信息密度的语料规模越大越好：以 CC（Common Crawl）和 C4 数据集的对比为例，CC 是一个有 400TB 的公共网络抓取数据集，包含了互联08大模型训练数据白皮书网上数十亿网页，内容非常广泛但未经清洗。而 C4 则是对 CC 进行了过滤噪声、重复内容等清洗后的 305GB 数据集。经评估发现基于 C4 训练的模型性能优于 CC，这既说明了数据清洗的重要性，也说明了语料规模不能一味追求大。此外，同类型语料中的多样性也是值得关注的问题。首先，会涉及到数据集的公平性，从网络采集的信息存在对于弱势群体（如种族、性别、职业、年龄等）不平衡的问题，可能会加剧现有偏见或系统性不平等。在技术层面上，通过对训练数据集进行仔细地审查和筛选，确保其分布的广度和均衡性，可以缓解公平性问题。另外，同类语料的多样性也会影响模型能力，特别是在安全能力建设方面。真实世界中潜在隐患的出现往往是偶然事件，相较于对这些“不良信息”的一概删除，对这些样本采用打安全标签的方式，反而有助于提升模型对安全风险的识别，增强安全防护能力。针对不同类型的高质量语料，意味着其在语料类型、语料形态以及语料搭配使用三个层面存在不确定性。而针对同类型的语料，又涉及到从质量、规模、多样性三方面的综合考量，对高质量并没有统一的评估标准。就像生成式人工智能技术的发展路径充满不确定性一样，对高质量数据的判断，也同样没有人拥有“上帝视角”，可以精准前置预知高质量的标准，来决定哪些是未来的高质量数据。因此，在对高质量数据的理解上，应认识到对高质量并不适合被前置的客观标准定义。“高质量”更多是一种主观判断，它的标准取决于模型的应用目的，数据类型会根据模型的发展阶段“因时而动”、根据技术人员的理解判断“因人而异”、根据模型的训练效果“因效而定”。因此，所谓“高质量标准”的制定，至多也只是对同类型数据在质量维度评估提供一种参考，对模型训练的价值有限。合成数据作为解决训练数据供给不足的新方案044.1训练数据供给不足带来的思考在生成式人工智能技术不断发展的趋势下，训练数据来源是人们最关心的问题之一。上节以政府和社会力量的视角展开。本节以已经使用的数据源和正在探索的新数据源视角展开。在已经使用的训练语料中，有用于语言大模09型训练的文本数据，包括网页信息、书籍、科研论文、知识百科、专业问答、代码以及领域知识，也有用于多模态模型的图片、视频、音频等媒体数据。根据 Epoch AI 的估算，书籍、科研论文等高质量语言数据集可能会在2024 年前耗尽。人们正在积极探索新数据源，以缓解训练语料可能面临不足的问题。一种思路是将未数字化的知识数字化，如在最新发布的 Claude 3 中，提到了将大量未数字化的书籍和资料做数字化处理，成为模型可读取的训练语料。还可利用机器感知数据，比如将无人车、无人机、其他智能硬件设备等生成的大量物理世界数据用于训练。另一种思路是利用模型或算法，批量生成新数据，比如合成数据，然后利用它们训练模型。近期，合成数据在大模型训练和应用的话题引起了广泛关注。一方面，高质量的合成数据可以作为真实数据的补充和替代，模拟现实世界的复杂性和多样性，被视为扩展模型学习范围与能力的重要手段。另一方面，合成数据的生成过程可能存在偏差或噪声，导致其质量和真实性无法完全模拟客观世界。由此引出一系列值得深入讨论的问题：对于合成数据的价值，它能否拓展大模型能力的边界？又是否能替代真实数据，缓解优质数据供给不足的问题？此外，合成数据能否通过对现有数据的深加工，将之前不能被用于训练的数据转化为可用，提升模型对数据利用的可能性？而对于合成数据的风险，人们也会担忧是否会出现“大模型自己产生数据进行自我训练”的循环，导致初始偏差被不断放大，最终使模型失控？这种新数据源还会带来哪些新风险？4.2合成数据的定义合成数据是通过算法和数学模型创建的。首先建模真实数据的分布，然后在该分布上进行采样，创建出新数据集，模拟真实数据中的统计模式和关系。合成数据类似于数据的“替身演员”，发挥补充或替代真实数据的作用。在机器学习和人工智能领域，合成数据可以为模型提供训练材料，帮助它们学习、理解和预测。需要注意的是，如果生成过程设计不当，合成数据也可能缺乏保真度，对客观世界的模拟出现偏差。4.3合成数据的必要性什么情况下会用到合成数据？本质原因是真实世界中获取数据遇到困难。一是真实世界中难以观测，如罕见病或极端天气等。利用合成数据可以设计比真实数据集更广泛的情况，对 Corner Case 进行模拟，提升训练数据集的全面性和多样性，确保在处理边缘案例时也有良好性能，提升模型泛化能力。二是真实世界中数据获取的成本高，如大模型对齐训练中需要人类大量的高质量反馈。利用合成数据可以实现对齐流程自动化，几乎不需人类标注，大幅节省成本，提高获取效率。三是数据获取和处理涉及到真实世界中的个信甚至敏感信息，特别是医疗健康10大模型训练数据白皮书和金融领域。合成数据可以利用差分隐私对个体信息“加噪声”等方法，模拟真实数据集的分布，而不模拟其中的真实个人信息，实现对个信去标识化。由此归纳出，合成数据具有全面性和多样性、经济高效、有利于隐私保护等优点。4.4合成数据的生成方法及分类根据是否基于实际数据集生成，合成数据生成方法主要分为两大类。第一种是基于真实数据集构建的：人们会建立模型以捕获真实数据的分布特性和结构特征，刻画数据中的多变量关系和相互作用。然后从该模型中抽样或生成合成数据。如果模型能很好地代表真实数据，那么合成数据将具有与真实数据相似的统计特性。以 ChatGPT 为例，它深入研究了人类写的数十亿例文本，分析了词语之间的关系，并构建了一个模型来理解它们是如何组合在一起的。在生成文本时，每一个单词的选择也都取决于它前一个单词出现的统计概率。第二种生成方法并不来源于真实数据，而是通过使用现有模型或者人类专业背景知识来创建。现有的模型可以是某个过程的统计模型，也可以是模拟模型。模拟可以通过游戏引擎等方法创建，如最近火爆的 Sora 文生视频模型，里面用到了由游戏引擎11（Unity、Unreal Engine 5 等）合成的视频数据作为训练集，以提高生成质量。根据用于训练的 AI 类型，可以将合成数据分为应用于生成式 AI 和判别式 AI 训练两类。应用于生成式 AI 训练的通常有媒体合成数据，即由模型和算法合成的视频、图像或声音。文本合成数据，即在自然语言处理中由模型生成的文本。而判别式 AI 训练（分类或回归）所需的通常是表格合成数据，类似真实生活中数据记录或表格的合成数据。4.5合成数据在模型训练中的作用基础大模型训练所需的数据类型包含两大类，一是用于预训练的世界知识，二是用于对齐的数据。合成数据作为真实数据的一种替代，现阶段虽然在预训练占比不高，但未来发展潜力巨大，可作为一个“新物种”密切关注；目前合成数据多应用于提升对齐阶段的数据获取效率，增强模型安全和可靠性。4.5.1预训练语料的新物种模型预训练阶段是通过大量无监督学习构建基础能力，掌握世界的规律。大语言模型需要各类世界知识，包括网页、书籍、新闻、代码等；而多模态又需要视频、图片、音频等语料。那么合成数据作为新物种，能对模型的训练语料起到哪些补充作用呢？首先，合成数据可应用于多模态数据的生成。最近火爆的 Sora 文生视频大模型，里面用到了大量由游戏引擎合成的视频数据作为训练集，以提高生成质量。此外，利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AI for Science 等场景的训练。利用模拟模型生成多模态数据可以更好满足模型对训练数据差异化的需求，例如通过有效“过采样”（随机复制少数样例以增大它们的规模）罕见事件或灾难性事件，以确保模型能够针对更广泛的输入保持鲁棒性。而伴随生成式人工智能走向更通用，模型训练将不仅从文字中学习，也会从声音、图片和视频中学习，就更需要多模态的训练数据。因此，我们判断通过合成的多模态数据进行训练的需求还会持续且大幅增加。其次，合成数据还可应用于高价值领域知识的生成。核心是合成数据能通过对现有数据的深加工，将之前不能被用于训练的数据转化为可用，提升模型对数据利用的可能性。例如工业制造领域，利用合成数据，可以把生产、制造等工艺流程相关的原始数据，结合行业知识图谱，转化为可供大模型学习的工业语料，以缓解行业语料短缺的问题。该过程分为三步：一是将原始数据（Data）转变为信息（Information）：即将非自然语言描述的内容（如工艺生产中的操作行为或时序数据）转化为大模型可读的结构化信息（操作记录）。二是将信息提炼为知识（Knowledge）：仅有操作记录并不能直接提供有效知识，但将多条结构化信息与行业的知识图谱、专家经验相结12大模型训练数据白皮书合，可以产出有价值的行业知识（如在什么温度下应该如何操作，好处是什么）。三是将得到的知识泛化：利用大模型的推理能力，将相对单一的知识进行多样性拓展，积累更丰富的行业语料。由此看出，大模型可以利用原始数据、信息、知识等不同层次的内容，打通数据利用的模式。我们判断，通过合成数据拓展对数据利用的可能性，生成领域知识的趋势是“精”，即对语料质量要求高，且是不可或缺的。因为大模型只有在预训练中学习过领域知识，才能在后期利用行业语料进行 SFT 训练时激发出更好的效果，更容易应用于垂直领域。综上，我们认为合成数据作为预训练语料的新物种，发展潜力巨大，特别是在多模态数据和领域知识生成方面值得密切关注。4.5.2提升对齐语料获取效率的加速器对齐数据以人类高质量反馈为主，包含监督微调阶段和基于人类反馈的强化学习。此方法主要在以下几方面遇到问题：一是数据获取的成本更高，二是人类评估的准确性和一致性，三是模型通常选择避免回答敏感和有争议的问题，降低模型的整体效用。如果引入合成数据作为真实数据的补充和替代，能否缓解这些问题呢？合成数据最大的优势是可以大幅提升对齐数据的获取效率，“如果掌握了合成数据技术，对齐的成本可能会降低好几个数量级，或用一样的投入产生更大数量级的数据，竞争格局就会发生变化”。这种对合成数据的应用是13“从人工智能反馈中进行强化学习（RLAIF）”。通常是用一个较大规模模型产出合成数据，生成指令及输入和输出样本，过滤掉无效或重复信息，自动化微调出性能较好的小模型，全过程中几乎无需人类标注。这不仅大幅降低了标注成本，也能缓解人工对齐导致模型对敏感问题拒答的情况。例如斯坦福大学发布的 70 亿参数对话大模型Alpaca，正是采用此类自我指导（Self-instruct）方法，用 OpenAI 的 API 自动生成指令数据进行微调。还有一种基于 RLAIF 新思路探索，希望在不引入外部模型的前提下实现自动化微调。例如自我对局（Self-play），在满足一定条件时，利用合成数据进行自我对抗微调（t+1 代的模型尝试将 t 代模型的输出与真人的输出区分开），得到了比 RLHF 更好的效果。再如 Claude3 用到的宪法式 AI，让 AI 系统在遵循预先设定的原则下，使用模型自身生成的反馈和修正意见来进行自我改进，得到一个既能生成无害内容，又不规避有害问题的模型。同时另一种对合成数据的应用是“从人类和人工智能反馈中进行强化学习（RLHAIF）”，该方法整合了人类和 AI 元素以提供监督。有研究表明，在利用 AI 协助人类评估模型有效性时，模型生成的批评有助于人类发现可能错过的缺陷，提高人类评估的准确性。4.6解决训练数据供给不足的新方案高质量数据是大模型技术发展的主要瓶颈之一，可供大模型学习的数据类型较多，但能够进一步拓展大模型知识边界、推动大模型推理、泛化等关键能力提升的数据更多偏向于视频、图片等多模态数据，以及特定行业中的领域知识数据。此类数据主要来自于人类的创造、制作和经验积累，其规模、类型和质量因客观条件的不同存在较大差异。在大模型强大的无监督数据学习能力面前，大模型的数据需求快速经历了从量到质的转换，能够被大模型更为直接地利用、可以进一步提升大模型关键能力、帮助大模型生成内容更符合人类习惯和要求的高质量数据，成为了最为关键的数据类型。对于提高此类高质量训练数据的供给，现行的主要方案侧重于构建更为开放、包容的高质量数据源，包括建立具有公共或准公共属性的高质量数据集，鼓励行业数据的进一步共享，放宽对于训练数据的权属保护规则等。而合成数据为模型数据供给提供了新的技术方案，将合成数据应用于大模型训练数据中，可以从以下三个方面帮助解决高质量训练数据供给不足的问题。其一，合成数据解决了部分类型的真实世界数据难以观测的问题，拓展了训练数据的多样性。传统上看，通过生成“边缘情况”（如极端天气、罕见病）或者真实世界中的“潜在隐患”（如金融诈骗等安全风险），可以弥补因为样本分布不均衡导致的客观限制。在输入端纠正数据在采集和处理过程中引入的偏误，提高数据分布的合理性和客观性。面向未来，利用合成数据技术生成的仿真数据（如游戏引擎生成的视频），以及对于大模型难以直接使用数据的加工和改造形成的新型数据（如领域知识），可以提升模型对数据利用的可能性，对于推理、泛化等大模型核心能力的突破将起到更为显著的作用。其二，合成数据和真实世界的配合使用提高了模型的安全性和可靠性。在 LLM 中，合成数据将更为广泛地应14大模型训练数据白皮书用于模型对齐阶段，可以提升模型对齐能力，解决基于人类反馈的强化学习过程中人类回答标准不统一，因知识欠缺造成问答准确性不足，以及人类提供反馈成本较高的问题。以高性能模型生成得到的高质量合成数据，以知识蒸馏的方式帮助轻量级模型进一步的监督学习，并为下游开发提供准确、高效的对齐数据来源，从整体上提高各种规模尺寸模型的性能，促进模型安全。在图像领域，合成数据可以弥补对抗样本稀疏的缺陷，将合成图像数据和普通图像数据按照一定比例进行混合，可以提高视觉模型对图片的识别和判断能力，即使在普通数据样本完全缺失的情况下，使用合成数据进行图像识别训练，也可以得到接近普通数据样本训练的效果，从而提升图像识别的鲁棒性。其三，合成数据可以替代个人特征数据，有助于用户隐私保护，解决数据获取合规性的问题。例如，当合成数据用于推荐系统，可以降低后者对个人信息的依赖。传统的直接利用个人行为特征数据进行推荐，模型并不能从文义角度理解用户的需求，为了提升“猜你喜欢”的准确度则需要获取和分析大量的用户行为特征信息。在推荐系统等涉及个人隐私信息的判别式模型中，通过与大模型的结合可以有效缓解该问题。首先，利用生成器自动产出个性化提示词（即合成数据）用于模型优化；然后，发挥大模型对文义的推理能力，可以更好地预测用户的实际需求。用户和大模型进行简单沟通后，由大模型代为执行推荐，在提升推荐匹配度的同时还可以降低推荐模型对个人特征数据的依赖。推荐模型不再高度依赖个人特征信息，也为隐私增强技术的加入提供了操作空间，在合成数据的生成过程可以加入差分隐私等去标识技术，推荐系统在不识别特定用户的情况下也能良好判断用户的实际需求，进行针对用户实际需求而非臆测性、推断性的推荐。154.7在发展中治理的合成数据其一，相比于对合成数据量的扩增，在应用中要更重视质的提升。首先，在语料中使用占比更高的仍然是来自真实世界的数据集，合成数据未被用于大规模替代真实数据进行预训练。相反，如果此阶段过多引入合成数据，可能会影响训练数据分布，从而导致模型对世界知识的理解产生偏差。其次，合成数据的总体规模也会受到模型生成能力和生成速度的限制（例如按照当前的合成图像数据生成速度，在 A100 GPU 上每个图像生成时间大约为 0.8s；启用 xformer 时，在 V100 GPU 上每个图像的生成时间约为 2 秒）。因此，更重要的是关注生成合成数据对客观世界模拟的准确性，更好满足模型对训练数据差异化的需求，以及拓展模型对训练数据利用的可能性。较为通用的方案是按照一定比例将合成数据与真实世界的数据进行混合，用于模型优化，提升模型准确性、鲁棒性和安全性。其二，合成数据本身具备良好的安全性，在后续使用中较为可靠。用于模型优化训练的合成数据目的在于替代普通优化数据提高模型的对齐能力和垂类应用效果，要达到此目的，合成数据安全性和真实性不低于真实世界的数据，否则使用合成数据并不能更好地提升模型性能如果合成数据的质量低于真实数据的数据，则可能造成模型性能不升反降，使用合成数据的价值也将大打折扣。现实情况来看，合成数据往往也是通过高性能模型生成而得来的，此类模型具有良好的安全防护机制，能够有效控制生成内容的安全性，因此产生的合成数据在下游利用中可靠性良好，不会带来“数据-模型自我循环”导致的模型失控问题。其三，对合成数据仍需设置相应的安全管控策略，确保模型整体的安全性不会因为合成数据的使用而受到影响。一是加强对合成数据质量的评估检测。合成数据和其他类型的训练数据一样，需要不断提高准确性和可靠性，而为了保证合成数据具有可用性价值，其准确性和可靠性要高于普通的真实世界数据。二是为合成数据设置备用数据集。合成数据在模型训练中的使用还处于探索阶段，需要更为审慎地观察不同类型、模态和配比合成数据对模型性能带来的影响，并为合成数据准备备用的真实世界数据集，当模型能力和安全性评测、红队测试等监控指标出现异常时，及时介入并采用备份的数据集继续模型训练和应用，保证模型的稳定性。三是建议对用于模型优化、对齐的合成数据在适当环节引入人类参与。例如，对用于对齐阶段生成的问答对和其他媒体格式内容，在进行模型优化前进行人工抽检，确保后续模型调优和对齐的质量。16大模型训练数据白皮书对大模型训练数据治理的思考055.1大模型对训练数据的使用特点首先，在个人信息方面，模型训练阶段不依赖个人信息，对公开个信的使用属于合理使用。人工智能技术从依赖个人信息的决策模型转向以大模型为代表的生成式 AI，反映出数据需求的深刻变革。具体而言，大模

展开阅读全文