1、阿里云人工智能平台PAI年度发布黄博远阿里云智能大数据AI产品总监“AIGC带来的新机遇”AIGC 是我们这个时代的新机遇AI生态在半年之内发生了大量的变化,国内外涌现出多家公司进入技术竞赛白热化阶段Microsoft,Google,Meta等公司深度投入,已经成为继互联网时代的下一个产业时代风口ChatGPT,GPT-4,DALLE MidjourneyStable DiffusionClaude 2LlaMA 2Bard,PaLM 2代表产品以LangChain为代表的开源框架,降低了开发人员基于大语言模型搭建应用程序的门槛。在开源社区涌现了许多有趣的AIGC项目langchain-Cha
2、tGLM:基于ChatGLM的本地知识问答ChatMind:使用ChatGPT生成思维导图ChatPaper:根据输入关键词,自动在arxiv上下载最新的论文,并对论文进行摘要总结。开源生态下游应用文本模型&服务帮助企业和用户生成智能营销文案,从诞生到成为独角兽仅用了18月。基于GPT构建了AI Dungeon 2 虚拟世界文字冒险游戏。图像Fashion Diffusion大模型颠覆传统服装设计行业,智能生成符合用户需求的风格款式图片。视频 人工智能系统Watson为科幻电影摩根制作预告片。推出AI生成视频软件,赋能用户制作专业级视频特效。音频基于AI算法,自动生成适合指定场景的音乐,如电子
3、、古典、舞曲等等。AI研发新范式和新挑战AI生态链的整合和角色分化是行业发展的需要,符合社会整体效率提高的要求,必将推动AI普惠化的进程。AI生态的形成上游:通用模型生产者与平台方(如阿里)。中游:利用垂直行业知识对模型进行优化(生态伙伴)。下游:最终AI应用的使用者(最广大的用户群体)。AI开发范式的升级从预训练模型开始,快速定制、快速落地。AI开发门槛大大降低,AI推广加速,行业应用增长。场景化解决方案高速 RDMA 网络(RoCE)异构计算磐久服务器(CPU、GPU)分布式存储 CPFS/NAS/OSS灵骏智算服务&机器学习框架(PaaS)低PUE液冷/风冷,模块化IDC设施AI应用:自
4、动驾驶/科研智算/金融风控/智能推荐/智能设计/智慧城市/智能制造/智慧医疗/智慧法务/第三方MaaS平台模型服务(MaaS)ModelScope 魔搭社区计算资源&基础设施(IaaS)容器服务 ACK弹性计算 ECS 机器学习框架(PAI-TensorFlow/PAI-PyTorch/Alink/Spark,EasyRec/EasyPhoto/EasyTransfer/Megatron/DeepSpeed/RLHF)PAI-灵骏计算资源云原生通用计算资源大数据计算资源(MaxCompute/EMR/Flink)AI资产管理(数据集/模型/镜像/代码/自定义组件/权限管理MLOps云产品依赖
5、优化与加速(DatasetAcc 数据集加速/TorchAcc 训练加速/EPL 并行训练框架/Blade推理加速/AI Master 自动容错训练/EasyCkpt 秒级异步训练快照)PAI-DashScope 模型服务灵积模型在线服务PAI-EAS分布式训练PAI-DLC标注服务PAI-iTag交互式建模PAI-DSW可视化建模PAI-Designer 快速开始PAI-QuickStart/PAI-智码实验室/PAI-DSW Gallery 开发者工具CLI/PaiFlow/OpenAPI特征平台PAI-Feature Store阿里云人工智能平台PAI全面升级“三个效率,助力企业AI创新
6、”人,最宝贵的资源PAI-iTAG 智能标注PAI-DSW 云原生交互式建模PAI-DLC 云原生AI训练服务PAI AI 工作空间 算力配额管理、集群监控、租户管理PAI AI资产 数据集管理、镜像管理、代码管理、模型管理、任务管理PAI OpenAPI 全链路OpenAPI|PAI-EAS 云原生AI在线预测服务阿里云PAI-全生命周期优化的AI平台完整覆盖AI标注、开发、训练、推理一体化全链路的AI工程平台,全面提升行业、产业落地效率PAI 团队和达摩院深度合作共建,打造智能标注产品,提供全场景、高质量、智能化的标注平台服务和人力标注服务。交互式建模,支持直接编码 coding 来建模,
7、服务算法专家。DLC 给客户提供一个做训练的环境,支持分布式训练、单机的训练。一键把模型变成一个在线服务,提供云上非常好的稳定性、弹性、规模以及性价比。人力标注服务:专业、全托管的数据服务公益模式标注基地,专业培训上岗,全托管的项目管理,极大降低标注人力成本任务分发与验收标注+质检+验收的任务分发机制,保证标注数据的高质量交付标注能力图像、文本、视频、语音、PDF、多模态、自定义等全方位标注能力和场景预标工具预置OCR、ASR等预标工具,大幅提升标注员的效率和准确率数据安全阿里云最新的数字安全传输技术,保护标注数据不泄露智能标注打通PAI-EAS部署的模型,让模型服务进行主动预标注人员与权限管
8、理管理员+标注组长+标注员的人员与权限管理,保证各角色的权限隔离和数据安全Pipeline PAI-Flow18个AI 工作空间53个iTAG37个DSW26个DLC18个 EAS 52个DSW-?AI?Notebook?WebIDE?Terminal?LLM?OSS?NAS?CPFS?DLC/EAS?CPU/GPU/?CopilotDLC?/EAS?DSW?DLC?/EAS?WebIDE?LLM?Copilot?Notebook?多资源组支持支持弹性资源/用户专属资源灵骏高性能资源/通用计算资源灵活的环境/任务类型支持丰富的官方镜像/自定义镜像任务类型覆盖传统机器学习/深度学习等标准框架监控
9、及告警资源组/任务级别数十种监控告警指标任务失败支持电话/短信/邮件等多种告警渠道训练任务容错基于AIMaster的容错监控AI大模型高性能状态保存恢复任务优先级管理支持多级Quota进行资源更精细化调度分配支持按任务优先级/成员优先级/角色优先级多层次管理PAI-DLC 分布式训练单机多卡、多机多卡分布式训练,云原生灵活环境配置,企业级资源管理服务部署发布的多项功能,帮助客户实时高效地监控服务状态,简化服务发布更新流程,适配最合理的计算资源。PAI 模型服务与AI推理PAI EAS模型在线服务+Blade推理加速,帮助客户一站式解决AI部署和推理的全部环节。服务推理场景EAS模型在线服务Bl
10、ade推理加速一键压测模型部署层容器调度层基础设施层灰度发布实时监控通过自动扩缩容等诸多方法,帮助客户在业务的波峰波谷中更高效的管理集群资源,达到降本增效。弹性扩缩容定时扩缩容弹性资源池CPUGPU抢占型实例倚天710成本降低30%,性能提升性价比最高70%。专属GU规格,成本售卖优势,助力客户降本增效EAS全面接入Spot Instance 抢占型实例,最高降本90%。实时在线推理接收响应发送请求近实时异步推理离线批量推理接收响应发送请求接收响应发送请求优化模型服务(LLM)产品(SD)原始模型优化配置测试数据LLM大语言模型AI绘画垂直场景深度优化通用场景优化技术编译优化高性能算子库量化机
11、器,如何高效的利用PAI灵骏智算服务-让大模型训练推理简单、高效PAI提供了完整的基于RLHF的大模型训练框架,一站式完成RLHF LLM训练。提供了RLHF SDK快速开发RLHF训练中需要的SFT/RM/PPO模型。通过PAI-DLC控制台,简单方便地提交RLHF训练任务,可视化地管理分布式任务。PAIRLHF基于人工反馈的强化学习PAI-Blade通用推理优化支持Tensorflow、PyTorch及主流加速设备:GPU、CPU、端侧设备。支持计算图优化、厂商优化库、AI编译优化、高性能算子库、混合精度及自动压缩等多种优化技术。易用,标准Python SDK,一个接口即可完成优化。AI
12、Master自动容错弹性训练per-job级别的组件,任务监控、决策、资源控制pod失败重启;Job退出异常检测;日志转储等模型训练精度与DDP完全一致的分布式训练方式训练任务作业弹性伸缩,支撑任务高效调度训练任务作业容错处理增强平台稳定性支持作业任务精细化管理,减少资源浪费EasyCkpt秒级异步训练快照秒级Checkpoint训练精度无损基于层次化架构的训练进度保存与恢复支持任务销毁前自动checkpoint简单易用、代码入侵性极小TorchAcc模型训练加速框架支持数据并行训练,优化计算和通信overlap,提升分布式训练效果支持AMP训练加速支持自动显存优化等使得AI的训练推理 更快、
13、更易用、更稳定,全面提升AI计算效率网络亲和调度+万卡弹性扩容:大规模部署和随时弹性扩容。端网融合的算存体系:超高吞吐的端网融合存储计算系统。最新一代的算力释放:海量算力+最新特性,大计算最优选择。创新的智算互联架构:集群网络的极致设计,消除通信拥塞。极致性能 高性能计算、网络、存储支撑的高性能AI集群专为密集型深度学习业务及LLM/AIGC大模型训练场景打造的高性能集群架构20TB超高吞吐并行存储(每秒)17%通信效率提升3.2T高速RDMA链路绿色节能IDC机房高性能分布式文件存储RDMA高性能网络异构物理计算层3.2T高速RDMA链路AI通信优化智能网络监控管理全自动化部署白屏化故障诊断
14、高性能异构计算GPU高性能CPU大内存容量高效数据传输高可靠性&故障监控高性能高并发性高可靠性&高可用性高可扩展性支持多种访问协议RDMARDMA超大规模GPU集群10万卡?AI?checkpoint?5?RDMA?api?zero-touch RDMA?AIGC?“?”?NUSA|?CNP|?AI Master|?Easy Ckpt|?OpenAI?RLHF?ChatGPT?LLM?PAI?RLHF?LM/SFT?Reference?RM?Value?Policy?PPO?PAI-DLC?RLHF?LLM Policy?PAI-DLC?LLM?RLHF?RLHF?LLMPAI?RLHF?PA
15、I-DLC?RLHF?自带最佳实践,业务落地提速MaaS?PAI?AI?ModelScope/Huggingface?ModelScope|?ModelScope|?!#$%&()?PAI|DSW?PAI|DLC?PAI|?EPL/TorchAcc?PAI|?FineTune?PAI|DSW?PAI|EAS?PAI|Blade?PAI|DLC?PAI|EPL/TorchAcc?PAI|?PAI|iTAG?PAI|DSW?PAI?AI?ModelScope?4000+?1?+?NLP?CV?AIGC?LLM?大模型场景化最佳实践提供全面覆盖大模型生产流程的端到端最佳实践 一、提供基于灵骏端到端实
16、现对话大模型训练+部署全流程最佳实践 大模型Pretrain,SFT,RLHF三阶段训练的示例脚本 提供示例中文数据wudao2.0及处理工具 模型离线推理和评估工具 在线服务部署+blade加速示例代码 用户半天左右即可完成上述完整的灵骏大模型开发/部署体验 一、开源大模型生态支持 支持开源大模型10+,包括LLAMA,GLM,Falcon,Bloom等流行系列模型 支持主流开源分布式训练框架MegatronLM,DeepSpeep 开发模型Convert工具,支持Huggingface模型和Megatron模型格式互转 提供开源模型在8卡-千卡范围的的最佳训练/分布式参数推荐,极大降低用户
17、的调试成本目前已服务数十家云上客户100+热门AI案例LLM、AIGC领域前沿大模型案例实时更新涵盖数字分身、AI歌手、亚运老照片修复等热门场景一键启动云资源继续开发支持用户快速对感兴趣的内容进行二次开发配合免费试用计划可免费微调/部署案例模型社区生态对接支持用户指定github库中的Notebook案例支持ModelScope/DashScope中Notebook案例个人Notebook分享传播用户云上开发完成的Notebook可通过Gallery进行分享传播智码实验室-Notebook Galley热门场景、前沿模型,打造属于开发者的内容平台,让开发者快速学习上手?AI?PaaS?IDC?RDMA?3.2T?RDMA?AI?GPU?CPU?&?&?Torch Accelerator?AI?R DMARDMATHANKS