资源描述
I 中国信息通信研究院云计算与大数据研究所 人工智能关键技术和应用评测工业和信息化部重点实验室 2023年3月 人工智能研发运营体系人工智能研发运营体系(MLOpsMLOps)实践指南)实践指南 (20232023 年)年)前前 言言 随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和 2035 年远景目标纲要”等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时。近年来,AI 工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用 AI 创造业务价值。人工智能研发运营体系(MLOps)作为 AI 工程化重要组成部分,其核心思想是解决 AI 生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的 AI 生产过程。MLOps 的发展呈现出逐渐成熟的态势,近几年国内外 MLOps 落地应用正持续快速推进,特别是在 IT、银行、电信等行业取得明显效果。与此同时,MLOps 行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难。因此本指南旨在成为组织落地 MLOps 并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的 MLOps 落地进程,提高组织 AI 生产质效。本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布。本指南站在组织如何布局和落地 MLOps 的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理 MLOps 概念内涵、发展过程、落地挑战等现状,并基于 MLOps 的理论研究和实践案例分析组织如何构建 MLOps 框架体系和关键能力,最后总结和展望其发展趋势。由于 AI 产业的快速变革,MLOps 落地应用持续深入,工具市场不断迭代,我们对 MLOps 的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正。目目 录录 一、MLOps 概述.1(一)AI 生产过程管理问题凸显.1(二)MLOps 概念与意义.2(三)MLOps 实施原则.3 二、MLOps 发展现状与挑战.6(一)MLOps 发展过程.6(二)MLOps 落地挑战.11 三、MLOps 框架体系.13(一)机器学习项目生命周期.13(二)MLOps 流程架构.14(三)MLOps 相关角色.19 四、MLOps 关键能力与技术实践.22(一)数据处理.22(二)模型训练.25(三)构建集成.27(四)模型服务.30(五)运营监控.35(六)模型重训.38(七)实验管理.40(八)流水线管理.43(九)特征管理.45(十)模型管理.47(十一)仓库管理.50(十二)模型安全.53 五、MLOps 总结与展望.57(一)总结.57(二)展望.58 图图 目目 录录 图 1 MLOps 示意图.2 图 2 MLOps 实施原则.4 图 3 机器学习技术债示意图.6 图 4 Gartner 数据科学和机器学习技术成熟曲线.8 图 5 MLOps 工具分类一览.9 图 6 机器学习项目生命周期示意图.13 图 7 基于 MLOps 框架的机器学习项目生命周期示意图.14 图 8 MLOps 流程架构示意图.14 图 9 MLOps 相关角色分工示意图.19 图 10 MLOps 关键能力示意图.22 图 11 广东移动的数据处理能力示意图.23 图 12 格物钛的数据处理能力示意图.24 图 13 云测数据的数据处理能力架构图.25 图 14 百度的模型训练架构图.27 图 15 马上消费的构建集成流程图.29 图 16 腾讯的 MLOps 平台示意图.30 图 17 浦发银行模型服务示意图.32 图 18 建行模型服务架构图.33 图 19 中移在线中心 Polaris MLOps 平台模型部署流程.34 图 20 星环科技 MLOps 流程图.35 图 21 联通软件研究院模型成效闭环运营分析示意图.37 图 22 蚂蚁的持续训练能力示意图.39 图 23 蚂蚁的持续训练流程图.40 图 24 百度的实验管理流程图.41 图 25 华为终端云的实验管理界面.42 图 26 农行的流水线管理示意图.44 图 27 华为终端云的流水线编排可视化能力示意图.44 图 28 华为终端云的特征实验流程图.46 图 29 浦发银行的特征工程流程图.47 图 30 河南移动的模型管理示意图.48 图 31 百度的模型管理流程图.49 图 32 九章云极 DataCanvas 模型管理功能示意图.50 图 33 中信证券的机器学习生命周期示意图.52 图 34 绿盟的模型安全防御策略示意图.54 图 35 蚂蚁的 AntSecMLOps 架构图.55 图 36 蚂蚁的蚁鉴-AI 安全检测平台.56 表表 目目 录录 表 1 MLOps 相关角色职责要求.20 附表 1 MLOps 工具链清单.63人工智能研发运营体系(MLOps)实践指南(2023 年)1 一、MLOps 概述 MLOps 是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高 AI 模型生产质效,推动 AI 从满足基本需求的“能用”变为满足高效率、高性能的“好用”。本章首先阐述组织在 AI 大规模生产过程中凸显的管理问题,然后梳理 MLOps 概念和意义,并分析落地MLOps 所遵循的原则。(一)(一)AI 生产过程管理问题凸显生产过程管理问题凸显 Gartner 调查发现,只有 53%的项目能够从 AI 原型转化为生产1。AI 生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。第一,跨团队协作难度大。机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。同时每个团队的协作工具不尽相同,从数据和算法转化为推理服务的整个过程漫长而复杂,从而增大协作难度。第二,过程和资产管理欠缺。模型生产过程无标准化管理,导致AI 资产的价值无法有效发挥。原因在于以下几方面:一是生产过程冗长难管理,AI 模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;二是 AI 资产无集中共享机制,组织内数据、特征、模型等碎片化 AI 资产无法共享使用,优秀实践经验难以沉淀。1 Gartner,Top Strategic Technology Trends for 2021.人工智能研发运营体系(MLOps)实践指南(2023 年)2 第三,生产和交付周期长。机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。据 Algorithmia 报告显示,38的企业花费超过 50的时间在模型部署上2。这一现象的主要原因有三:一是模型文件的生产需要经过不断重复的实验和评估;二是模型服务需要通过编写服务代码和配置参数,并达到业务需求后,方可部署上线;三是业务效果的保证需通过在线模型开展服务验证和结果对比。(二)(二)MLOps 概念与意义概念与意义 MLOps 通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。MLOps 能有效缓解 AI 生产过程的各种管理问题,提升 AI 生产的转化效率。来源:中国信息通信研究院 图 1 MLOps 示意图 MLOps 理念源于面向软件工程的管理方法论 DevOps,起初希望可以参考传统软件生产过程的管理方法,以应对提质增效的挑战。然而 DevOps 并不完全适用,因为机器学习项目是以数据、算法、代码、2 Gartner,Gartner Top 10 Data and Analytics Trends for 2021.人工智能研发运营体系(MLOps)实践指南(2023 年)3 模型为核心的动态模式,整个过程充满探索性、实验性和不确定性。若要迎合动态模式的需求,需要一种融合了机器学习特性的 DevOps方法或体系,MLOps 应运而生。MLOps 意义和价值主要体现在以下几方面。第一,建立团队协作机制。通过在组织级明确各流程中各角色(例如业务人员、数据工程师、数据科学家、运维工程师等)和职责,并以流水线的方式连接各团队成员的工作,使团队协作机制得以建立,打破沟通屏障,让不同角色各司其职(例如,使数据科学家不用再沦陷于处理繁琐的模型更新和维护等工作),降低团队间整体合作成本。第二,实现敏捷交付过程。通过自动化流水线等方式实现敏捷交付,从而提高模型交付效率,加快模型迭代速度,提高模型效果,提供更丰富、更优质的产品体验。第三,构建全链路反馈闭环。通过贯通需求、开发、交付、部署、运营多环节的全链路,嵌入合规、监管、道德、安全等要求,形成完整的全链路流水线。同时,持续改进和简化原有运营和治理流程,高效率、低风险地实现持续集成、部署、训练和监控,形成有效的反馈闭环。第四,统一管理 AI 资产。机器学习项目中数据、算法、特征和模型等资产是一个有机整体,通过对 AI 资产的高效统一管理,并加以风险防控和安全管理等手段,实现有效治理。(三)(三)MLOps 实施原则实施原则 作为 AI 基础设施之一,MLOps 促进各团队高效协作,提升业务价值产出。一般来说,实施 MLOps 需要遵循的原则包括自动化、持续性、版本化、可监控、可测试、可追溯、可复现、可协作等。人工智能研发运营体系(MLOps)实践指南(2023 年)4 来源:中国信息通信研究院 图 2 MLOps 实施原则 自动化包括模型自动化构建、自动化集成、自动化测试、自动化部署等,减少人工操作,提高操作准确性,是 MLOps 的核心。持续性包括持续集成(CI)、持续部署(CD)、持续训练(CT)、持续监控(CM),是 MLOps 实现全流程闭环的基础。版本化包括数据、模型和代码等 AI 资产的版本控制能力,是达到可复现、可追溯的基础,是保证资产可在组织各层面共享使用的基本能力之一。可监控包括模型、模型服务及模型生产过程等维度的健康状态监控能力,以发现数据漂移和概念漂移,识别问题和改进方向,是维护高质量模型服务的基础。可测试从模型评估、集成测试、系统测试、业务测试、生产验证等过程维度,保障模型的功能、性能和可信能力(安全性、保密性、可解释性、公平性等)满足需求,是保证模型交付质量的重要手段。可追溯通过“效果模型实验数据”全流程追溯过程的实现,提供模型实验及数据的血缘回溯能力,是根因分析的基础,是事后审计的手段,也是过程可信的体现。人工智能研发运营体系(MLOps)实践指南(2023 年)5 可复现通过端到端记录模型构建过程相关数据、算法、参数等元数据信息,支持重现实验过程并获得高度相似的结果,是数据科学家开展模型工程的重要支撑。可协作确保不同团队角色在数据、代码和模型上进行协作,是全流程可持续闭环实施的协作基础,是提高团队整体效率的保障。人工智能研发运营体系(MLOps)实践指南(2023 年)6 二、MLOps 发展现状与挑战 MLOps 在国内外得到了广泛应用,并在多个行业取得了实质性效果。本章首先阶段性梳理 MLOps 发展历程,然后从落地应用和工具市场等角度分析当前发展现状,最后总结了 MLOps 落地面临的挑战。(一)(一)MLOps 发展过程发展过程 1.发展历程 2015 年至今,从业界意识到机器学习项目技术债给 AI 生产上线带来的潜在巨大影响伊始,MLOps 前后经历了斟酌发酵、概念明确、落地应用三大阶段。斟酌发酵阶段(2015 年至 2017 年前后)。2015 年 Google 在Conference and Workshop on Neural Information Processing Systems(NIPS)上发布的论文Hidden Technical Debt in Machine Learning Systems 首次提出机器学习项目技术债问题,一方面,机器学习项目具有传统软件工程的代码运维问题,这部分问题占比较小;另一方面,机器学习项目本身存在数据依赖关系不稳定、配置易出错、实验不可重现等问题,为模型的持续运维和迭代带来大量隐患。这篇论文标志着机器学习高效落地问题被明确提出和正视,也催生了产业界形成系统化的方法论和规范化的管理流程,解决技术债问题的强烈需求。来源:Hidden Technical Debt in Machine Learning Systems 图 3 机器学习技术债示意图 人工智能研发运营体系(MLOps)实践指南(2023 年)7 概念明确阶段(2018 年至 2019 年前后)。2018 年业内人士逐渐开始密集讨论大规模生产中机器学习生命周期集成化管理的重要性,MLOps 这一概念被提出并逐步接受。2019 年 Continuous Delivery for Machine Learning3提出的 CD4ML 理念,阐述了机器学习项目如何开展持续交付(CD),并提出端到端的交付流程。CD4ML 将传统软件工程中的持续交付方法论扩展到机器学习中,使跨团队成员可基于数据、代码和模型,实现机器学习项目小步快跑、安全持续的增量式迭代。落地应用阶段(2020 年至今)。2020 年以来,产业焦点集中于 AI大规模快速落地,布局 MLOps 平台或工具的需求日益迫切,推动组织数智化转型成为产业界追逐的目标。2021年,Gartner将包括MLOps在内的 XOps 列为 2021 年十大数据和分析技术趋势之一4。此外,从2019 年到 2022 年,Gartner 连续 4 年将 MLOps 纳入数据科学与机器学习技术成熟度曲线5。2021 年,中国信息通信研究院牵头开展MLOps 系列标准编制,以引导产业有序发展,形成行业自律规范。来源:Gartner 3 Continuous Delivery for Machine Learning,https:/ Gartner,Gartner Top 10 Data andAnalytics Trends,2021.5 Gartner,Hype Cycle for Data Science and Machine Learning(2019,2020,2021,2022).人工智能研发运营体系(MLOps)实践指南(2023 年)8 图 4 Gartner 数据科学和机器学习技术成熟曲线 2.发展现状 MLOps 产品提供方和应用方不同程度地受益于 MLOps 体系的蓬勃发展。随着工具市场和行业应用的发展不断推进,新工具不断涌现,在 IT、金融、电信等行业得到了广泛应用和落地。根据情报和市场研究平台 MarketsandMarkets 2022 年研究报告显示,MLOps 市场规模将从 2022 年的 11 亿美元增长到 2027 年的 59 亿美元6。(1)资本市场持续火爆,MLOps 工具不断创新 近年来,MLOps 相关工具链已成为 AI 投融资领域的明星赛道,涌现了诸多以 MLOps 工具为主打产品的初创公司。例如,聚焦于深度学习可视化工具的 Weights&Biases 获得 2 亿美元融资,且平台估值达 10 亿美元;聚焦于提供机器学习平台的 Tecton 获得 1.6 亿美元融资;聚焦于机器学习模型多硬件适配部署的 OctoML 获得 1.33 亿美元融资,且平台估值达 8.5 亿美元。在资本市场的驱动下,MLOps 工具持续创新。据不完全统计,目前全球约有 300 多款工具,大致可分为两类:一类是 MLOps 端到端工具平台,为机器学习项目全生命周期提供支持。端到端工具平台包括国外的 Amazon SageMaker、Microsoft Azure、Google Cloud Platform、DataRobot、Algorithmia、Kubeflow、MLflow 等,国内的百度智能云企业 AI 开发平台、阿里云机器学习平台 PAI、华为终端云 MLOps 平台、腾讯太极机器学习平台、九章云极 DataCanvas APS 机器学习平台等;另一类是 MLOps 专项工具,对特定步骤提供更为集中的支持,主要包括数据处理、模型构建、运营监控三大类。专项工具包括国外 6https:/ 年)9 Cloudera 提供的数据共享工具,DVC 和 DAGsHub 提供的数据和模型版本管理工具,Neptune.ai 提供的元数据管理工具等,国内的星环科技提供的运营监控工具,第四范式提供的特征实时处理工具,云测数据提供的标注工具等。来源:中国信息通信研究院 图 5 MLOps 工具分类一览(2)MLOps 行业应用稳步推进,落地实践成果颇丰 第一,国外 MLOps 落地广泛、效果显著。其主要应用于组织内部的服务运营、产品或服务开发、营销、风险预测及供应链管理等场景,应用行业涉及 IT、金融、电子商务、制造、化工和医疗行业等。IT 行业:应用 MLOps 后,美国某 IT 公司将开发和部署新 AI 服务的时间缩短到原来的 1/12 到 1/6,运营成本降低 50%;德国某 IT公司,通过自动化编排和实验跟踪,以相同的工作量运行 10 倍的实验数量;以色列某 IT 公司实验复现时间减少 50%;某美国出行科技公司三年内机器学习产品数量从零扩展到数百个。金融行业:应用 MLOps 后,新加坡某保险公司推理结果的生成时间从几天缩短至不到 1 小时;欧洲某大型保险公司节省了大量维护人工智能研发运营体系(MLOps)实践指南(2023 年)10 和调查时间,可实时跟踪和比较模型性能,并自动检测以前需要数月才能检测到的漂移;美国某支付公司可实时部署和运行其反欺诈预测模型,并实时分析新数据以适应新威胁。电子商务:应用 MLOps 后,荷兰某酒店预定网站通过打通机器学习模型生产流程,提高了生产规模,具备应用 150 个面向用户的机器学习模型的能力,逐步推进 AI 规模化落地。制造业:应用 MLOps 后,土耳其某水泥制造公司通过提升模型生产效率和质量,大大提升了 AI 赋能业务的能力,使得替代燃料的使用量增加 7 倍,减少 2%的二氧化碳排放总量,成本降低 3900 万美元。化工行业:应用 MLOps 后,美国某化工企业将模型部署周期从原来的 12 个月缩减至 30 到 90 天。医疗行业:应用 MLOps 后,美国某医疗企业通过快速构建和测试模型,为业务提供精准决策,使得每年从患者日支付的护士工时中节省 200 万美元,通过减少患者住院时间每年可节省 1000 万美元7。第二,国内 MLOps 处于规划和建设前期,落地探索成效初显。IDC2022 年预测,到 2024 年 60%的中国企业将通过 MLOps 来运作其机器学习工作流8。近 3 年来,国内各行业开始探索契合自身特点的 MLOps 落地解决方案。在数智化转型热潮中,IT、金融和电信等数字化程度较高的行业处于相对领先地位,其他行业进展稍缓。IT 行业:凭借在数据方面拥有的先天优势,IT 行业最早开始构建 MLOps 并驱动其业务智能化水平的提升。如百度、华为、阿里、京东等,关注机器学习项目全生命周期的优化和改进,并在原有 AI 7 https:/ IDC,IDC FutureScape:全球人工智能(AI)及自动化市场 2022 预测中国启示.人工智能研发运营体系(MLOps)实践指南(2023 年)11 中台或云服务平台上逐步扩展 MLOps 过程管理功能,实践效果明显。百度通过应用 MLOps 使得开发周期缩短 54%,测试周期缩短 67%,所投入的人天数缩减 57%9。金融行业:鉴于对风险的敏锐嗅觉,金融行业在使用 MLOps 驱动业务增长的同时,对模型风险的关注与日俱增。如工行、农行、浦发银行、中原银行、中信证券等,细分上千个应用场景,重点聚焦于模型生产、模型管理、模型安全、模型风险等方面,借助 MLOps 实现模型全流程管控。中原银行通过应用 MLOps 将模型上线周期从周缩短至天,将模型部署时间从小时级缩短至秒级9。电信行业:由于用户数量巨大,模型上线后的运营监控成为电信行业关注的重点之一。如联通、移动等,对模型运营监控的关注度较高,以保证模型的稳定性。某电信运营商应用 MLOps 建立模型运营监控体系,实现模型持续训练,节省人力 300 人天/年,成本降低 80%9。(二)(二)MLOps 落地挑战落地挑战 近年来,我国 MLOps 逐步在多行业中得到布局应用。将 MLOps引入模型开发阶段的实践较为成熟,而 MLOps 引入到模型交付和模型运营阶段的落地处于逐步规划建设中。在这个渐进式过程中,MLOps 落地面临着诸多挑战。一是组织落地驱动力不足。对于大多数组织而言,MLOps 落地驱动力不足。首先体现在 MLOps 建设成本较高,但短期内价值无法立即显现,导致必要性分析难度增大;其次是 MLOps 技术栈不清晰,且部分组织对已有 AI 能力和规模不确定,无法明确 MLOps 建设的目标成熟度,导致制定技术方案的难度加大;最后是业内缺乏成熟的 9 数据来源:中国信息通信研究院行业调研访谈.人工智能研发运营体系(MLOps)实践指南(2023 年)12 MLOps 实践指南作为指导,缺乏标杆组织和案例作为参考,导致诸多组织落地 MLOps 时“摸着石头过河”,进程缓慢。二是支撑工具选型难、集成难。虽然 MLOps 工具市场目前处于蓬勃发展阶段,为应用方提供了许多选择,但随之带来的问题也比较明显。一方面,由于工具种类繁多,功能复杂,解决某一环节问题的工具往往有许多个,缺乏统一的能力标准;另一方面,尽管 MLOps开源工具占多数,但如何将多个工具有效集成和打通,整合全生命周期各项关键能力,很大程度依赖于组织和人员的技术能力。这两个原因导致组织落地 MLOps 时,面临解决方案难决策、平台难选取、工具链难集成等难题,导致难以实现 MLOps 的快速落地。三是模型治理和可信道阻且长。机器学习模型的治理错综复杂,体现在两个方面:一方面,同一模型在不同业务场景面临的风险程度和所需更新频次不同,不同类别模型所需的生产过程和风险等级亦不同;另一方面,模型面临的事前、事中和事后风险包括生产过程不可追溯、线上模型效果下降、模型存在偏见、推理结果不可解释、无法审计等,导致 AI 可信落地难。四是环境间的交互难以平衡。企业内部的 MLOps 实践过程需要有效管理开发环境、测试环境、准生产环境、生产环境等之间的关系,外部需要有效打通与 DevOps、DataOps、FeatureOps 的连接,同时又要保证流程的简洁和安全。环境间的交互障碍,导致 MLOps 的自动化进程受限。人工智能研发运营体系(MLOps)实践指南(2023 年)13 三、MLOps 框架体系 机器学习项目生命周期伴随着 AI 的发展早已形成,而 MLOps 的出现驱动产业界对机器学习项目生命周期进行了完整梳理。本章由信通院和行业专家结合机器学习和 MLOps 相关理论研究和产业实践,围绕机器学习项目的全生命周期,对业界现有的 MLOps 框架体系做出总结归纳。(一)机器学习项目生命周期(一)机器学习项目生命周期 机器学习项目以需求、数据、代码、算法为输入,以模型、模型服务为输出,其生命周期主要包括定义问题、数据收集、数据处理、模型训练、模型评估、模型部署等过程。来源:中国信息通信研究院 图 6 机器学习项目生命周期示意图 MLOps 围绕持续集成、持续部署、持续监控和持续训练,构建和维护机器学习流水线,并通过流水线的衔接形成全生命周期闭环体系。基于 MLOps 框架的机器学习项目生命周期通常包括需求设计、开发、交付和运营四个阶段,细分为需求管理、数据工程、模型开发、模型交付、模型运营等过程。需求管理:根据商业目标与业务需求,开展可行性分析,编制技术需求和技术方案。数据工程:将源数据处理成可用数据,并存储至合适位置便于流转。模型开发:在实验环境中,对模型进行训练、参数调优、评估与选择等过程,得到最优模型。人工智能研发运营体系(MLOps)实践指南(2023 年)14 模型交付:将模型与配置、代码和脚本等进行封装,生成可交付物,并部署至目标环境。模型运营:在生产环境中为上线的模型服务提供监控和运营维护能力。来源:中国信息通信研究院 图 7 基于 MLOps 框架的机器学习项目生命周期示意图(二)(二)MLOps 流程架构流程架构 典型的 MLOps 流程架构包含需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线七个部分。来源:中国信息通信研究院 图 8 MLOps 流程架构示意图 人工智能研发运营体系(MLOps)实践指南(2023 年)15 1.需求分析与开发 需求分析与开发是指对业务方的需求进行分析和设计,对规则、代码、脚本等进行开发。目的是解决机器学习项目中需求管理流程混乱、不同角色对于需求的理解不一致及风险不可控等问题,从源头提升项目质量,降低需求变更带来的影响。主要输入:业务需求。主要步骤:1)将业务需求转为技术问题,确定使用机器学习模型解决潜在业务问题的可行性及必要性,评估模型潜在的风险。2)设计机器学习项目架构,确定要使用的技术。3)梳理项目过程需要的数据,以及数据处理过程和规则(例如,数据采集和标注规则,数据转换、清洗、特征选择和特征生成规则等),这些规则会根据后续的反馈持续迭代更新。4)开发对应的算法、训练代码、数据脚本、模型服务代码等。5)基于算法和脚本,触发数据工程和模型实验流程,得到最佳特征数据与模型参数等。主要输出:项目计划,设计文档,用于数据工程、特征工程、模型训练及模型服务的代码与配置。2.数据工程流水线 数据工程流水线是指以流水线方式,对数据进行接入、处理、存储、分析等工程化处理。目的是解决数据来源繁杂、数据及特征难以共享、数据管理不统一等问题,为模型开发及模型服务提供干净可用的数据原料。主要输入:原始数据、数据处理和特征工程的代码与配置。主要步骤:人工智能研发运营体系(MLOps)实践指南(2023 年)16 1)接入并提取原始数据,包括流数据、静态批处理数据或云存储数据。2)对原始数据进行初步分析探索,挖掘并分析数据内部结构、分布等规律,检查数据质量。3)数据处理从数据清洗与转换开始,以预定义的转换规则作为输入,处理数据异常、缺失、冗余等问题,生成可用格式的数据作为输出。4)最大限度地从原始数据或处理后的数据中提取、变换为新的或更高级的特征,预定义的特征工程规则作为输入,将生成的特征作为输出,并存储至特征库。主要输出:处理后的数据、特征。3.模型实验流水线 模型实验流水线是指以流水线方式,采用数据、算法和参数进行训练的实验过程。目的是解决过程难以回溯、实验难以复现、错误难以追查、参数难以配置和选择等问题,提高模型生产质量,并为持续训练提供基础。主要输入:原始数据、特征、模型实验所需代码与配置。主要步骤:1)利用特征库的能力,结合原始数据,开展数据分析,得到模型实验所需数据集。2)触发多轮模型训练,不断调整和选择性能最优算法和超参数。3)对不同模型参数进行交叉测试和验证,一旦性能指标达到预期,迭代训练将会停止。模型训练和模型评估任务可根据条件重复触发。4)导出模型并提交至仓库,包括训练算法、数据脚本、服务代码、模型等。人工智能研发运营体系(MLOps)实践指南(2023 年)17 主要输出:最佳算法、数据脚本、模型服务代码与配置、模型文件、实验指标。4.持续集成流水线 持续集成流水线是指以流水线方式,对模型和代码进行持续构建与集成的过程。目的是解决模型及代码构建、集成测试、安全扫描等过程繁琐、易出错、集成效率低下等问题,并以流水线的自动化提高交付质量。主要输入:最佳算法、数据脚本、模型服务代码与配置、模型文件。主要步骤:1)将代码、模型、配置等要素进行构建打包和集成测试,生产出可交付的部署包(例如镜像文件、JAR 包等)。2)将构建、测试、扫描等过程进行集成,以生成持续集成流水线。3)对集成过程出现的问题进行反馈和处理,提高集成成功率。主要输出:部署包。5.持续部署流水线 持续部署流水线是指以流水线方式,将模型服务部署至目标环境并开展相应评估的过程。目的是解决部署周期长、部署配置易出错、部署进程启动晚、流量接入配置复杂、模型运行状态不稳定等问题,做好模型为业务系统提供推理服务的充分准备。主要输入:部署包、特征、服务工作流配置(例如更新策略或 AB实验策略等)。主要步骤:1)将模型服务部署至目标环境,并通过更新策略将新版本模型服务进行持续部署。人工智能研发运营体系(MLOps)实践指南(2023 年)18 2)对已部署模型服务配置相应流量管理策略,使其按照策略有序接入流量并开展验证和评估工作。3)根据已分配流量在模型上的运行结果,评估模型效果优劣,驱动模型优化。主要输出:模型服务、评估报告。6.持续训练流水线 持续训练流水线是指以流水线方式,依据相关条件的触发持续对模型进行训练的过程。目的是解决数据漂移、模型服务不符合预期等业务问题,以及重新训练复杂耗时等效率问题,提高模型自生产能力。主要输入:流水线配置(包括节点、触发条件、参数等)、旧数据、新数据、特征。主要步骤:1)从特征库自动提取版本化特征。2)自动化开展数据准备和验证,并拆分数据集。3)根据模型实验阶段已选择的算法和超参数,对新数据进行自动训练。4)执行自动化的模型评估、超参数迭代。5)训练后的模型被导出并保存至模型仓库。6)根据需要触发模型测试及持续部署流水线。主要输出:新模型。7.持续监控流水线 持续监控流水线是指以流水线方式,贯穿 MLOps 端到端生命周期,持续对过程和结果开展监控,同时在特定场景特定条件下触发模型重新训练的过程。目的是解决模型效果下降的问题,通过监控发现问题并持续改进,提高过程流转效率,确保模型服务质量。人工智能研发运营体系(MLOps)实践指南(2023 年)19 主要输入:各类指标数据。主要步骤:1)收集各类指标值,并进行记录和保存。2)根据既定规则开展数据分析。3)根据分析结果生成报告,必要时为触发器提供数据。主要输出:分析结果、触发值。(三)(三)MLOps 相关角色相关角色 尽管机器学习模型的构建主要由数据科学家完成,但要最终为业务系统提供推理服务却需要多角色合作。组织应围绕 MLOps 流程的持续运转,明确角色与分工,可提高多角色间的协作效率,从而提升整体生产效率和质量。下图展示了 MLOps 相关角色分工示意图,但由于 MLOps 领域的飞速发展,将来可能出现的新角色暂未列出。同时,在许多组织中,各角色可能是专职或兼任,具体如何安排应视组织结构和业务场景等情况而定。来源:中国信息通信研究院 图 9 MLOps 相关角色分工示意图 典型 MLOps 相关角色分工包含业务人员、项目经理、机器学习架构师、数据工程师、数据科学家、软件工程师、测试工程师和运人工智能研发运营体系(MLOps)实践指南(2023 年)20 维工程师等。表 1 展示了在实际的机器学习项目全生命周期中,业务人员、数据科学家等各类角色所关注的不同重点及具体的工作职责。表 1 MLOps 相关角色职责要求 角色角色 关注点关注点 工作职责工作职责 业务人业务人员员 业务需求 1.识别和收集产品的新需求、缺陷和改进方向;2.提出明确的需求目标,在交付阶段进行需求验收。项目经项目经理理 项目全生命周期过程 1.带领团队进行业务需求的可行性分析;2.制定项目计划,统筹把控和管理项目全流程的进度、成本、质量、风险、资源等;3.推动项目持续优化改进,复盘问题并协调制定改进措施。机器学机器学习架构习架构师师 组织级机器学习体系架构 1.统筹设计硬件、底层技术、开发平台到上层应用的架构;2.规划设计 MLOps 流程架构,保障机器学习项目生产过程的一致性,从而确保生产质量的可控;3.管理和维护各条机器学习流水线,确保流水线的可扩展和灵活性。数据工数据工程师程师 数据 开展数据探索性分析,并对数据进行清洗、筛选、加工等处理,同时构建特征工程(可与数据科学家共同构建),完成数据准备工作。数据科数据科学家学家(建模建模 专家专家)机器学习 模型 1.将业务需求转化为技术需求;2.跟进数据准备过程,确保数据的高质量;3.模型开发过程中,选择性能最佳的算法和超参数,开展模型构建、模型训练、模型评估和模型选择,输出精准、高效的模型;4.模型交付、运营监控过程中,配合问题定位和决策。有的组织在模型构建阶段,亦开展模型优化和压缩等工作。软件软件 工程师工程师 模型工程化 1.将数据科学家提供的模型转化为模型服务,开发服务代码,便于模型服务与业务系统无缝协作;2.对模型进行优化或压缩、集成和部署模型服务。人工智能研发运营体系(MLOps)实践指南(2023 年)21 角色角色 关注点关注点 工作职责工作职责 测试测试 工程师工程师 模型 测试 开展模型效果验证、模型服务的功能与非功能测试。运维运维 工程师工程师 模型交付与运营 维护 开展模型服务的上线部署和运营监控工作,保障模型生产运行的可靠性和高可用。来源:中国信息通信研究院 值得关注的是,近年来行业开始出现 MLOps 工程师角色,职责主要包括 MLOps 平台部署与维护、流水线构建与管理、模型优化、度量改进等。MLOps工程师在Linkedln新兴职业排行榜中高居榜首,五年内增长了 9.8 倍10。国内绝大部分组织中的 MLOps 工程师职责由数据科学家、软件工程师或运维工程师兼任,相信随着 MLOps 的普及与发展,MLOps 工程师将成为专职岗位。实践案例:中原银行的模型风险分析师实践案例:中原银行的模型风险分析师 中原银行在风险合规要求较高的场景中,设置模型风险分析师的角色,对数据科学家开发的模型进行验证评估,确保模型设计方案、开发过程满足既定的业务诉求,并满足监管、合规等相关政策要求。1.模型需求设计,结合统计方法与专家经验,验证模型原理和方法的合理性、模型的可用场景和局限性,清晰理解模型的特征、影响及参数估计情况,确保满足业务需求。2.建模过程验证,检查建模过程的合理性,包括需求管理、数据工程、模型开发等过程的准确性、合规性、可控性。3.模型效果验证,将模型输出结果与真实结果进行比较,检验概率、模型参数的区分能力、准确性、稳定性等,确保模型稳定可靠。10 如何成为 MLOps 工程师,MLOps 工程实践.人工智能研发运营体系(MLOps)实践指南(2023 年)22 四、MLOps 关键能力与技术实践 当前,MLOps 概念逐渐明晰,应用落地持续开展。组织在落地时,以总体流程架构为主线,以计划解决的问题为目标,对关键能力各个击破,逐步形成 MLOps 落地效应。为顺利构建和实施 MLOps 流水线,组织需提前做好关键能力的建设予以支撑。本章围绕 MLOps 过程管理、制品管理和基础保障三个维度,以业界共识为基础,提出了 12 个关键能力,并对工程实践过程中应考虑的核心要点展开分析,同时提供优秀实践案例以供参考,梳理了部分 MLOps 工具链清单(见附表)。来源:中国信息通信研究院 图 10 MLOps 关键能力示意图(一)数据处理(一)数据处理 数据处理是将源数据加工处理成模型开发所需数据,为模型开发及最终决策提供高质量数据。数据处理是 MLOps 生命周期的上游环节,是模型训练的基础,高质量的数据有助于生成更优质的模型。核心要点:对接入的源数据进行数据清洗、数据转换、数据增强等处理,以减少数据异常、缺失、冗余等问题,提高数据质量。源数据通常包人工智能研发运营体系(MLOps)实践指南(2023 年)23 括结构化数据和非结构化数据(例如文本、图像、音频等),结构化数据的处理包括去重、处理无效值和缺失值等。文本数据的处理包括降低字频、
展开阅读全文