AI模型时代的多模态数据存储、管理和应用.pdf-资源下载-咨信网-让知识获取变得高效

AI模型时代的多模态数据存储、管理和应用.pdf

1、AI 模型时代的多模态数据存储、管理和应用Alex Chen阿里云智能集团-研究员2026 中国 AI支出占亚太的 58%智能客户服务，业务创新和自动化，销售流程，IT 优化，欺诈分析2026 年亚太地区 AI 支出5 年复合增长 24.5%*Source:IDC Worldwide Artificial Intelligence Spending Guide,2023495 TFLOPS2x200G RDMA 32 Core144 TB Mem 1EFLOPSGPUDPUAI 服务器万卡集群XX分布式训练容错多租户隔离和调度规模复杂度软件复杂度架构复杂度原始数据集训练数据集数据预处理模型训练

2、模型验证反复训练优化不断训练优化数据收集场景化精调模型验证模型部署推理内容安全模型部署服务推理结果输出输入内存墙：模型参数量增长 10 倍算力：模型计算量增长 68 倍多模态：从单一的文本（2 KB）变成文本、图片（200 KB）、音视频（MB）混合单个样本的数据量（Token）大幅增加模型、参数量模型参数计算量GPT-3（175B）350GB314 ZFLOPSGPT-4（1800B）3.6TB21500 ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k单个样本的Token 量20494096819232768GPT-3 模型训练内存需求=参数+梯度+优化器+其他 2

3、8TB 80GB(A100 显存大小)GPU 显存几乎没有变化,GPU 单卡的算力只增长了 3 倍CPU 卡显存大小计算量A100/A80080GB156 TFLOPSH100/H80080GB459 TFLOPS训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到 GPU 卡上分布式计算每个 iteration 结束时利用高速网络在所有 GPU 上 all reduce 同步模型参数GPU 卡规模越大，对高速网络、可靠存储要求更高算法工程师要经常检查模型质量，如果学习率不够就要利用 checkpoint 回溯、参数调优后再继续训练Initialize trainingList

4、 files in dataset and shuffle/随机打散数据Prepare MP&PP/规划模型并发，流水线并发Repeat(for each batch):/迭代多轮 iterationRead file for the batch/读取一批数据用于训练TrainingAll reduce/所有 GPU 同步模型参数Checkpoint if necessary/周期性 checkpointCPU1b 模型切片，加载到 GPUGPT-3（175B）GPT-4（1800B）模型分片FwdBack数据分片4）all-reduce，更新模型参数3）SGDCPUCPUCPUall-red

5、uce模型并行数据并行5）周期性生成checkpoint1）数据shuffle、切片2）读取数据集分片iterations文件类型文件类型样本数据集：海量小文件，比如 Laion-5B 数据量 250TB，涉及文件数约 100 亿IO Pattern每个 GPU 32 路并发读集群并发读 6百万 QPSIO Pattern大块写模型文件，16 个 GPU 节点 30 秒写完模型文件，单节点写吞吐 1GB/s每张 GPU 卡单路大块写优化器状态文件，2048 卡并发写总带宽 48GB/s文件类型文件类型（以以 200B 参数参数、2064 卡为例卡为例）模型文件：16x8 GPU 节点，128

6、个 3GB 文件,约 384GB优化器状态文件：2048 GPU 的 zero 优化器状态，2048 个 1.2GB 文件，约2.4TBIO Pattern每张 GPU 卡单路大块读模型文件、优化器状态文件，并发读总带宽 60GB/sCPUsdatapartdatapartdatapartdatapartdatasetCPUsoptimstatemodeloptimstateoptimstatecheckpointCPUsoptimstatemodeloptimstateoptimstatecheckpoint视频文件小文件（特征帧）读取文件写小文件小文件读取小文件小文件删除小文件某客户的视频

7、推理存储性能需求视频第1帧第2帧第 T 帧图像分类模型帧特征 x1图像分类模型帧特征 x2图像分类模型帧特征 xT平均汇合视频特征 z全连接层类别预测分布式元数据分布式元数据：小文件规模最大 100 亿，具备百万 QPS 元数据处理能力，比如 lookup,getattr,open 等高性能存储介质和高性能存储介质和高性能高性能网络网络：NVMe SSD 和 2*100G RDMA，checkpoint 大块顺序读写，低延时和高吞吐P2P P2P 分布式读缓存分布式读缓存：每张 GPU 读取同一份模型 checkpoint，集群并发读，需要具备最高百 GB/s 吞吐能力数据并行数据并行写写：每

8、张 GPU 读写各自的优化器状态，集群并发写，需要具备超过 50GB/s 吞吐能力CPFS CPFS 数据服务全分布式架构目录树服务数据服务目录树服务数据服务目录树服务数据服务目录树服务400 Gbps Lossy RDMA文件锁服务文件锁服务文件锁服务文件锁服务CPFS ClientCPFS ClientElastic File ClientElastic File ClientElastic File Client分布式I/O计算节点并行与所有存储服务器同时读取数据目录树结构切分到多台服务节点支撑百亿文件百亿文件下仍可提供超高元数据性能实现目录树动态的负载均衡避免目录热点单个文件的读写均匀

9、分布至多个存储节点单集群最大支持单集群最大支持 2TB/s 2TB/s 吞吐，吞吐，3000 3000 万万 IOPSIOPS客户端支持链接层高可用，链路问题秒级别切换客户端元数据缓存，查询操作无需跨越网络操作速度提升10 倍，与本地 EXT4 性能相媲美客户端提供端到端 I/O 指标，便捷调查访问热点和 I/O 瓶颈客户端分布式读缓存，有效加速重复访问的热数据读速度，带宽和缓存池随计算规模增大而提升万卡GPU集群应用应用文件客户端文件客户端CPFSCPFS存储节点存储节点Elastic File ClientElastic File Client元数据缓存GPUGPU 服务器服务器GPUGP

10、U 服务器服务器AI 应用/PAI-DLC、TensorFlow、PyTorch.存储节点存储节点多链接多链接元数据缓存.分布式数据读缓存计算服务高性能文件存储RDMA海量数据的存储成本优化海量数据的存储成本优化OSS 提供低成本海量数据存储最低 0.75分/GB/月事件驱动的高效元数据同步OSS 数据变动在 CPFS 中分钟级可见数据块粒度流动，多并发技术可实现百 Gbps 流动性能支持配合任务调度预加载或随 I/O 读取 LazyloadPAI-DLC、Porch、TensorFlowAIAI 训练训练CPFSCPFS 文件系统文件系统OSSOSS 数据湖存储数据湖存储对象接口POSIX

11、接口OSS 数据湖存储OSS OSS 冷归档和深度冷归档冷归档和深度冷归档如何找到高质量数据呢？如何找到高质量数据呢？高质量的数据是高质量的数据是模型迭代的核心模型迭代的核心生成 Bucket 维度的元数据管理库支持 9 大类元数据索引条件筛选提供 5 种聚合输出方式数十亿文件秒级完成数据索引支持 Object 粒度的搜索与聚合数据更新后 10 秒内更新至索引池数据管理数据审计数据监管元数据组合条件索引自定义聚合输出秒级返回结果元数据管理库元数据管理库存储类型、读写权限、文件名、上传类型、最后修改时间、文件大小、对象 tag、对象 Etag、对象版本对象存储对象存储 OSSOSS通过对存储类型

12、Object 标签及最后修改时间等条件设定，快速完成 Bucket 的文件扫描实现秒级文件名模糊搜索、数据聚合、按 Object 标签进行文件筛选等能力提高数据扫描与管理效率-业务案例：“汽车”“街道”“都市”标签-但没有“自驾游”这种对内容具有概括能力的语义标签-业务案例：“服装”“综艺”“美女”标签 -但没有“明星走秀”这周对视频具有内容语义描述能力的标签原子标签对视频描述能力不足堆叠标签数量无法满足业务需求需要使用“原子标签+语义标签”的方式提高视频理解深度苹果小孩苹果小孩小孩吃苹果以文搜图/视频，图搜图/视频以及“文字+图片”组合搜索精确过滤等多种模态搜索模式非结构化数据标量索引向量

13、索引全文索引图片文本Embedding多模态图像描述模型信息提取文本提取时空信息提取分层共享存储（Auto-tiered Storage）宽表引擎索引引擎存储引擎（Data Storage&Index）通道引擎（CDC）数据订阅数据投递多模型接口（Multi-Model&APIs）统一查询接口（SQL）向量引擎(Proxima)AI EmbeddingAI Embedding+向量 API+向量 UDF以文搜图、视频、以文搜图、视频、文本、语音文本、语音文本分割、问题分析（聊天历史）、答案推理文本分割、问题分析（聊天历史）、答案推理智能媒体管理智能媒体管理分布式水平扩展全托管支持自定义 Sc

14、hema 信息向量+条件过滤组合查询大规模向量索引流式构建向量状态变更即时生效快速实现增删改查功能大规模数据低延迟查询自研高效查询算法ProxiamProxiam SE SEProxiamProxiam DE DEProxiamProxiam CE CEDashVectorDashVector实现了对大数据的高性能相似性搜索云原生分布式大规模向量的高性能、高可靠、高可用相似性搜索支持百万量级 TopK 向量召回支持多类目召回基于 Proxima 内核面对非结构化数据提供高效的向量管理和相似向量查询功能与存储原生集成无需移动，自动处理文本、图片、视频支持多模态内容审核场景化构建元数据管理快速实现

15、应用FPGA 硬件实现多种格式编码，热点计算和压缩对象存储 OSS文件存储 NAS多媒体处理引擎文档预览与编辑文档转换AI 内容审核图片 AI语音识别数据管理与索引索引聚类故事生成数据处理工作流网盘云相册AI 应用社交图库家庭监控文件解压缩让不可能变为可能让不可能变为可能应用层的创新应用层的创新生产效率的提升生产效率的提升体验是竞争力：1 秒的延迟导致 7%的用户流失业务迭代快：55%应用每周或每天发布更新基础设施与架构革新：混合云、云原生容器化微服务 DevOps运维数据多样化：数据容量、种类、可变性增加DevOps 为了调查问题，需花费数小时查找、对比、分析SecOps 为了调查 Case

16、需在百 TB 数据中抽丝剥茧数据联合：融合分析、全链路可观测更易使用：无需维护多套系统、易扩展、免运维降低噪声：有效通知、便于正确响应减少故障时间：自动检测异常、快速根因诊断交互式根因分析NL2SQL 智能问答时序/链路异常检测日志自动标注Trace 基础模型时序基础模型日志基础模型logmetrictrace通义模型知识智能运维模型智能运维模型指标异常检测、日志文本智能分词Trace 链路高延时诊断智能问答智能问答分析运维场景多模态数据基于通义千问 NL2Query 技术人工辅助微调人工辅助微调人工标注、结果打标修正模型根据人工反馈自动微调基础模型开箱即用快速扩容和服务迁移通用模型灵活扩展

17、通用模型灵活扩展游戏服务系统调用、依赖关系复杂，任何阶段出问题都可能导致游戏操作失败或卡顿，影响玩家用户体验根据服务中的 Trace 数据自动生成拓扑图围绕高延时分析、高错误率分析、系统热点和瓶颈进行分析和诊断缩短问题处理时间，优化系统延时在海量 Trace 中快速定位异常根因和性能瓶颈无需人工干预，提高大规模分布式系统异常定位效率数千请求秒级定位根因，在生产中准确率达 95%探测导致 Trace 高延时或错误的服务关联 Log/Trace/Metric，自动检测根因预测微服务系统的性能瓶颈将 Trace 聚合，找到 Trace 的 Pattern快速找到相同错误类型的报错15:23 共有 1

18、个入口服务产生 2880 条慢 Trace 其中入口服务 Front-end 的 POST/jordrg 发现次数最多共出现共出现 28802880 次占次占100.0%100.0%在根因分析结果中，主机 pay-ment-5b7dBd684b-zjtzv 出现比例最高，其中共出现共出现 28922892 次占次占 34.0%34.0%在根因分析结果中，服务 payment 出现比例最高，其中共出现共出现 28922892 次占次占 99.0%99.0%在根因分析结果中，方法 POST/payment-tAuth 出现比例最高，其中共出现共出现 28922892 次占次占 99.0%99.0

19、SLS Mall 共有 12 个服务，45 个入口接口，在选择的时间段中，共产生了 1641195条Trace，其中请求平均延迟 21288.11ms21288.11ms 全栈数据关联分析异常检测故障检测智能化诊断AIAI 基础设施基础设施ITIT 优化优化GPU495 TFLOPSDPU2x200G RDMA 32 CoreAI 服务器144TB Mem,1EFLOPS大规模高性能网络高性能低成本存储灵骏AIOps AIOps 业务流程业务流程收集：收集：构建 AI 基础设施的可观测数据资源池，简化数据访问组织：组织：优化数据治理，改善数据质量，提高访问效率分析：分析：“数据”+“

20、建模”，高效分析关联数据洞察：洞察：智能化诊断，实现高效的问题定位AI 应用融合分析训练效率与准确率数据效率与安全性统一的数据视图以数据为基础以数据为基础AIOps 通过收集、组织、分析和融合数据，实现对 AI 基础设施的监控管理和智能异常分析数据准备模型训练与部署应用与内容生成内容分发与协作数据准备/分析/标注模型持久化内容安全管理内容分发协作模型训练与推理Hadoop 应用HTTP 应用HDFS 协议/OSS 对象协议HDFS 元数据（目录分层空间）对象元数据（扁平命名空间）AI 训练与推理文件存储 CPFSPOSIX/MPI-IO/NFS文本违规检测图片违规检测视频违规检测图片水印版权

22、EAS 机器学习 PAI|BladeFineTune机器学习 PAI|DSW 机器学习 PAI|EPL/TorchAcc 机器学习 PAI|灵骏智算服务1000+开源模型，模型下载次数 6000+万，覆盖 NLP、CV、语音、多模态等各个领域，尤其是 AIGC、LLM 等大模型云原生的 AI 工程化平台支撑模型开发、训练、推理、部署全链路强大算力强大算力ITIT 基础设施优化基础设施优化可靠存储、高效网络、强大算力全链路 AI 工程平台支持大规模分布式训练和推理高质量数据高质量数据AIAI 的关键生产力的关键生产力用 AI 的方法找数据向量索引聚合图像/视频/多模态数据搜索应用创新应用创新提升生产效率提升生产效率以数据为基础AIOps 实现对 AI 基础设施监控管理和智能异常分析

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？