陈文光：AI时代的数据处理技术.pdf-资源下载-咨信网-让知识获取变得高效

陈文光：AI时代的数据处理技术.pdf

1、AI 时代的数据处理技术陈文光清华大学/蚂蚁技术研究院大数据：数据量，数据生成的速度和多模态数据量(Volume)和数据生成速度(Velocity)图片，文档，图，时序，交易物联网、边缘设备和用户行为产生大量数据多模态数据(Variety)(in zettabytes)Volume of data/information created,captured,copied,and consumed worldwide from 2010 to 2025 Statista 2021 https:/ https:/ 5 GBGPT-22019年215亿40 GBGPT-32020年51750亿45 T

2、BGPT-3.5（ChatGPT）2022年11千亿级百 TB 级？GPT-42023年3万亿级（估）未披露大模型需要大数据如何获得更多数据？如何提升数据质量？如何高效处理海量数据？80%Data20%Model+=Better AI吴恩达（Andrew Ng.）吴恩达的“二八定律”：深度学习应当从 Model-centric 向 Data-centric 转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成：RAGVector databaseQuestion?PromptNearest neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数

3、据库一体化数据处理与 AI 计算一体化趋势一：在线离线一体化问题在线模型（策略）表现与离线不一致AppsDatabase(MySQL)Queue(Kafka)RealTime ETL（Flink,SPARK)OLTP（Hbase,KV,ES)ETL（Flink,Spark+HUDI)DataLake（MPPDB，HDFS)OLAP（Presto,CK)Analysts实时链路离线链路Online Model Update(PyTorch,TF)Model Serving(PyTorch,TF)Batch Training/Test(PyTorch,TF)数据不一致模型效果不一致2-in-1

4、 Architecture:TP&AP 一体化HTAP 引擎(TP+AP)SQL优化器并行执行存储过程用于事务和分析工作负载的一份数据副本双计算引擎原生多租户架构Oracle 兼容性MySQL 兼容性与多租户高度兼容，实现资源隔离兼容 MySQL 和 Oracle单机分布式一体化架构分布式存储分布式事务分布式调度可以独立部署，也可以分布式部署架构创新Zhifeng Yang,Quanqing Xu,Shanyan Gao,Chuanhui Yang,Guoping Wang,Yuzhong Zhao,Fanyu Kong,Hao Liu,Wanhong Wang,Jinliang Xiao.O

5、ceanBase Paetica:A Hybrid Shared-nothing/Shared-everything Database for Supporting Single Machine and Distributed Cluster.PVLDB,16(12):3728-3740,2023.OceanBase:分布式 HTAP 数据库实时数据分析和决策对于企业来说非常重要：OceanBase 采用分布式架构，具有优异的 TP 性能，同时支持分析和批处理（AP）自动计划不断演变复杂查询优化水平可扩展性（数百亿条数据记录）和低延迟（秒）线性化实时 OLAP 处理能力同时处理TP和AP查询T

6、P&AP同一套引擎优化资源分配和流量控制的灵活策略，集群级别的并发控制混合负载Traditional processingHTAP processingStep 2 OLAP requestsOceanBaseclusterOLTP+OLAP requests Step 1 OLTP requestsTP&AP 同一套引擎HTAP+DBaaS:成本优化和简化维护成本优化，维护方便HTAP 引擎OLTP workloadOLTP systemOLAP systemOLAP workload图风控方案中的在线离线一体化：问题分布式图数据库，支持自定义图查询语言 GQueryTuGraph DB

7、流图计算系统，支持 GremlinTuGraph Dataflow在线近线数据不一致模型效果不一致TuGraphDBMessage QueueTuGraphDataflowTuGraphDataflowDecision EngineStreamingWriteRule based ServingDataServingDecision MakingHistorical PlaybackApplication 以在线数据库内容为准，同步到近线系统保证在线近线数据一致避免不同语言语义的不一致性很多细节，比如 Nodelimit在线近线系统使用同样的查询语言TuGraph DB:分布式图数据库，

8、支持国际标准图查询语言 ISO-GQLTuGraph Dataflow:流图计算系统，支持国际标准图查询语言 ISO-GQLTuGraphDBMessage QueueTuGraphDataflowTuGraphDataflowDecision EngineStreamingWriteRule based ServingDataServingDecision MakingHistorical PlaybackApplication图风控方案中的在线离线一体化：解决方案趋势二：向量数据库与关系数据库一体化存储引擎事务引擎SQL引擎向量索引向量搜索引擎向量存储SQL查询向量查询OceanBase蚂

9、蚁VSAG库查询处理器查询请求应用场景一体化的优点OceanBase 以插件形式实现向量数据库指将向量数据处理能力和关系型数据管理能力结合在一起的技术策略蚂蚁 VSAG提供通用向量检索和构建接口（与 Faiss 形式类似）-Add/Build：增量/批量构建向量索引-KnnSearch/RangeSearch：向量检索（返回行号和距离）-Serialize/Deserialize：向量索引序列化/反序列化VSAG 是面向蚂蚁的通用向量索引库提供最佳实现的 HNSW生产可用的 DiskANN支持 INT8 类型向量检索（非 SQ/PQ）PQ（进行中）包含目前主流的向量索引实现自适应指令集加速

10、SIMD 指令集加速）索引分区Top1/TopK 召回优化向量间距离计算优化针对场景的优化VSAG 与 Faiss 的区别VSAGFAISS提供最佳实现的 HNSW提供生产可用的 DiskANN支持 INT8 类型向量检索（非 SQ/PQ）提供 x86、ARM 平台编译和 SIMD 运行提供大量 low level 的算法，可自由组合（IVF、PQ、SQ、Refine）提供最佳实现的 GPU 支持提供 Binary 向量索引算法IVF 算法对于批量搜索有很大加速低门槛使用，无需算法专业知识，不需要算法选型，直接通过简单接入，可以快速获得向量检索能力，拥有内存和磁盘两个场景下极致解决方案的索引

11、库向量检索工具箱，可以深度定制向量检索算法，对于特定的场景/workload 可以有更好的性能，需要用户对于检索算法/参数非常了解，有最好的 GPU 算法实现，面对高写入/高 QPS 场景有巨大优势在 OceanBase 中集成 VSAGOceanBase 提供模块化机制引入 VSAG针对所有 OceanBase 节点进行检索对所有节点结果进行合并与 OceanBase 中的本地二级索引类似Vector Search RequestExtensionsVSAG LibOceanBase NodeExtensionsVSAG LibOceanBase NodeExtensionsVSAG Lib

12、OceanBase NodeOceanBase ProxyOceanBase ProxyOceanBase Proxy检索过程与分析型索引类似OceanBase 新增向量二级索引趋势三：数据处理与 AI 计算一体化大数据流程AI 流程CCNet 流程Common Crawl 是一个海量的、非结构化的、多语言的网页数据集，包含近 10 年的随机网络数据，PB级规模，可从 Amazon S3 上免费获取。GPT-3 训练数据的 60%来自 Common Crawl。CCNet 是 Facebook 发布的数据清洗流程，希望从 Common Crawl 中能够提取出高质量的文本数据集。大模型训练数据

13、处理Data+AI 典型场景删冗以正则化后的文档哈希值为键，保留首次出现的文档分词基于 SentencePiece 分词器，支持48种语言质量评估使用 KenLM 库中的一个文本质量模型评估perplexity过滤分桶根据用户提供的语言白名单、黑名单过滤，根据质量分桶语言分类基于 fastText 的预训练语言分类模型（126MB）解析从 WARC 中分离 HTML请求与响应头、HTML 内容。Common Crawl 原始数据清洗后高质量文本数据AI 和大数据处理在硬件层面也有很大差别数据处理与 AI 融合问题GPU 或 AI 加速器处理器网络主要编程语言编程框架通用 CPUCPUNVLin

14、k+IB/100Gbps+10Gbps 25Gbps-PythonJava/ScalaPythonPyTorch,Tensorflow,PaddlePaddleSQL,Spark,DataFramePandas，NumpySciPy,NotepadAI大数据处理小数据处理AI 计算在数据中心的比例将持续显著增加，主要是 Python 生态分布式大数据处理主要是 Java 生态“小数据”处理主要是 Python 生态数据与 AI 独立生态的问题SparkTF/PyTorchSpark预处理神经网络后处理1.两类软硬件生态的开发、调试、部署和维护都更加复杂2.系统间数据传输开销降低性能3.需要招聘

15、两类程序员，或精通两者的程序员只支持 CPU，不支持 GPU 和异构加速器重新开发深度学习模块，不能复用 TF 中的功能 Spark 本身性能有缺陷问题一种尝试：BigDL*深度学习的 Java 化*Dai,J.J.,Wang,Y.,Qiu,X.,Ding,D.,Zhang,Y.,Wang,Y.,.&Wang,J.(2019,November).Bigdl:A distributed deep learning framework for big data.SoCC 2019另一种尝试：Spark 的 Python 化Koalas EvolutionLaunched at Spark+A

16、l Summit 2019Now3 million PyPI downloadspermonth.PySpark 支持 Dataframe 和 SQL Koalas 是 Pandas 的 Spark 封装，现在已经被合并进入 Spark3.2 PySpark 在 Spark 用户中的使用已经接近一半 Python 由于无静态类型，编译优化方面有难度，在常见查询中与 Java 性能有约 50%的落后融合数据处理和 AI 生态的愿景Python UDF InlinerPython ByteCodeNumba IRExpressionCatalyst 转化为无 Python UDF 的 Logical Plan 进而交由 ChukonuSQL 执行视情况增加数据类型、操作、优化规则等，以支持复杂的UDF开源诸葛弩待开发Python UDF InlinerPySparkCatalyst OptimizerCode Generator for Chukonu C+20 APIC+20APINative RDDExecution Engine for General MR app and MLLogicalPythonUDFPythonFunctionAI 将成为主要计算形式数据处理生态应该围绕AI来建设加速器支持与弹性任务调度一次编写，到处执行谢谢

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？