2022年中国数据库行业分析报告.pdf

资源描述

1、modb.promodb.pro向量启航，向量启航，引擎加持引擎加持20222022年年1010月月中国中国数据库行业分析报告数据库行业分析报告墨天轮行业分析研究中心墨天轮行业分析研究中心2022-10-152022-10-15乐/知/乐/享同/心/共/济摘要摘要www.modb.pro2022年10月的墨天轮中国数据库流行度排行榜火热出炉，本月共有245个数据库参与排名，相比上月新增七个数据库，本月排行榜前十名变动较大：达梦数据库上市程序恢复，热度大涨，排名反超openGauss，重回第三；华为旗下两大数据库品牌名次均下降；云原生数据库云原生数据库PolarDBPolarDB、TDSQL

2、TDSQL再创佳绩，名次均上升一位再创佳绩，名次均上升一位。本月排行榜从第十一名至第三十名，竞争激烈，归属变动较大。在这一赛道中，本月也崛起了一批数据库新秀，拥有亮眼的表现。本月报告中墨天轮发布了最新向量数据库全球产业图谱最新向量数据库全球产业图谱，国内典型向量数据库代表有Milvus、Vearch、TensorDB、Om-iBASE等。向量数据库是专门为处理向量嵌入独特结构而构建的数据库系统。它们通过比较值并找到彼此最相似的向量来索引向量,以便于搜索和检索。从技术角度来讲，向量数据库主要解决向量数据库主要解决2 2个问题，一个个问题，一个是高效的检索，另一个是高效的分析是高效的检索，另一个是

3、高效的分析。向量数据库其实就像传统数据去处理一些关系型数据、结构化数据一样，承担的是非结构化数据的低成本存储和高性能计算两大核心能力。具体包括用于搜索和检索的向量索引、单级过滤、数据分片、复制、混合存储以及API功能。向量数据库主要的应用领域如人脸识别、推荐系统、图片搜索、人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索视频指纹、语音处理、自然语言处理、文件搜索等。随着 AI 技术的广泛应用，以及数据规模的不断增长，向量检索也逐渐成了 AI 技术链路中不可或缺的一环，更是对传统搜索技术的补充，并且具备多模态搜索的能力。随着数据库软硬件技术的发展，经典的SQL计算引擎逐渐

4、成为数据库系统的性能瓶颈，尤其是对于涉及到大量计算的OLAP场景。如何充分发挥底层硬件的能力，提升数据库系统的性能，成为近年来数据库领域的热门研究方向，而向量化执行就是解决上述问题的一种有效手段向量化执行就是解决上述问题的一种有效手段。火山模型的诞生为缓存数据库的内存压力，但该设计并未充分利用CPU的执行效率且以往的火山模型一次处理一个元组的方式造成过大的解释执行代价，阻止了对性能影响极大的编译优化。2005年MonetDB/X100:Hyper-Pipelining Query Execution的论文首次提出“向量化引擎”的概念，后续国产数据库陆续推出向量化执行引擎，加速加速OLAPOLA

5、P场景的查询分析速度场景的查询分析速度。乐/知/乐/享同/心/共/济目录目录 contentcontent一、数据库排行榜及前沿动态一、数据库排行榜及前沿动态二、向量数据库二、向量数据库的概述与的概述与解析解析三、三、向量引擎加持传统数据库向量引擎加持传统数据库四、向量数据库四、向量数据库产品相关产品相关案例案例乐/知/乐/享同/心/共/济实干兴邦实干兴邦-前四强合成前四强合成 TODO TODO 促促成长成长来源：墨天轮排行榜秋风萧瑟，洪波涌起。2022年10月的墨天轮中国数据库流行度排行榜火热出炉，本月共有245个数据库参与排名，相比上月新增七个数据库，本月排行榜前五名变动较大：达梦数

6、据库上市程序恢复，热度大涨，排名反超openGauss，重回第三；PolarDB上升一位居第五。20222022年年1010月中国数据库排行榜月中国数据库排行榜TOP5TOP5TiDB本月得分612.45分，较上月得分环比上涨5.4%。这也是其今年6月重夺榜单第一宝座后，连续五个月稳坐榜首。自2020年1月至今，TiDB已累计霸榜33个月。O c e a n B a s e 本月得分584.12分，与第一名得分差距从上个月的44.23分缩小至28.33分。其本月分数涨幅最大，较上月得分上涨8.8%，排名第二。达梦本月得分较上月上涨20.9分，以556.12分摘得探花。

7、其上月排名被反超后，一直奋力向上，本月排名赶超openGauss。达梦自递交入股申请书后，一直备受关注。openGauss本月得分较上月仅下降2.37分，排名却下降一位居第四。9月30日，openGauss迎来了里程碑事件，openGauss3.1.0版本正式上线，此版本与之前版本特性功能保持兼容。PolarDB作为国产云原生数据库中的佼佼者，本月排名赶超GaussDB这一云上竞争对手。其本月得分下降5.08分，以不到一分的微弱优势排名第五。乐/知/乐/享同/心/共/济稳中求进稳中求进-金仓、金仓、T TDSQLDSQL立足创新创佳绩立足创新创佳绩来源：墨天轮排行榜20222022年年101

8、0月中国数据库排行榜月中国数据库排行榜TOP6-TOP10TOP6-TOP10其是华为云自研数据库的统一品牌，本月得分435.39分,以不到1分的微弱劣势被反超。9月，GaussDB亮相华为全联接2022曼谷站，其动向不太频繁，热度上有所降低。GaussDBGaussDB其是南大通用数据技术有限公司推出的自主品牌的数据库产品。九月，GBase南大通用数据库相继中标成都农商行&自贡银行&泉州银行等多个重点项目。GBaseGBase其是腾讯云企业级分布式数据库，本月得分279.70分，以4.53分的优势领先GBase。近日，腾讯云数据库以其过硬的产品，成功中标中国邮政4年订单。TDSQLTDSQL

9、其是成立最早的国产数据库厂商，据太极股份的半年财报，人大金仓2022上半年营收1.23亿、净利润940万。其本月以4.02分的分数劣势，排名第七。人大金仓人大金仓本月得分较上月下降13.64分，连续13个月蝉联墨天轮排行榜第十名。其是阿里云自主研发的一款实时分析数据库，在云上拥有一席之地。新环境下，AnalyticDB也一直在打磨产品。AnalyticDBAnalyticDB乐/知/乐/享同/心/共/济异军突起异军突起-后起之秀细分领域后起之秀细分领域闪耀光芒闪耀光芒来源：墨天轮排行榜20222022年年1010月中国月中国数据库新秀得分详情表数据库新秀得分详情表本月排行榜从第十一名至第三十

10、名，竞争激烈，归属变动较大。在这一赛道中，本月也崛起了一批数据库新秀，拥有亮眼的表现。MogDBMogDB云和恩墨基于 openGauss 内核进行增强提升，推出的一款安稳易用的企业级关系型数据库MogDB，本月排名上升两位至第17名，逐渐逼近前十赛道。上个月MogDB力争上游，在市场拓展和生态建设上都卓有成效。DolphinDBDolphinDB由浙江智臾科技有限公司研发的一款高性能分布式时序数据库,公司主创团队从2012年开始投入研发，本月排名上升两位至第20名，也是排行榜上排名第二的时序数据库。StarRocksStarRocks北京鼎石纵横科技有限公司于2020年推出的一款新一代极速M

11、PP分析型数据库系统，本月排名跃升六位至第21名。9月24日，年度盛典 StarRocks Summit Asia 2022 顺利举行，9月27日，StarRocks2.3.3重磅发布。TGDBTGDB腾讯云推出的原生分布式并行图数据库TGDB是排行榜上图数据库第一名。其排名上升两位至第27名。它不仅具备图数据库的优点，还兼具原生图数据库的关联关系深链查询能力和分布式图数据库的数据延展性及计算性能。CTSDBCTSDB墨天轮排行榜上时序数据库第三名CTSDB，在整体排名中较上月排名上升三位至第28名。CTSDB是腾讯唯一的时序数据库，其支撑了腾讯内部20多个核心业务。KunDBKunDB其是2

12、019年星环科技推出了一款分布式关系型数据库，其本月排名较上月虽未发生变化，但是实力不容小觑。近日，星环科技获得证监会批准，正式进入科创板IPO发行阶段，将成为“国产大数据基础软件第一股”。乐/知/乐/享同/心/共/济产品动态产品动态-openGauss 3.1.0openGauss 3.1.0版本正式发布版本正式发布来源：openGauss官网2022年9月30日，openGauss 3.1.0版本正式上线！openGauss 3.1.0版本是 openGauss 2022年发布的Preview版本，版本维护生命周期为半年。此次发布包含两个数据库服务端安装包：企业版和轻量版。openGau

13、ss 3.1.0版本与之前版本特性功能保持兼容，在企业级特性、高可用、高性能、高智能、高安全、工具链、可扩展性企业级特性、高可用、高性能、高智能、高安全、工具链、可扩展性七大特性上全面增强。企业级特性企业级特性1 1.行存表压缩能力增强行存表压缩能力增强2.2.发布订阅能力增强发布订阅能力增强3.3.细粒度滚动升级细粒度滚动升级4.statement_history4.statement_history视图诊断能力增强视图诊断能力增强1 1.两地三中心跨两地三中心跨RegionRegion容灾容灾2.CM2.CM支持对外状态查询和推送能力支持对外状态查询和推送能力3.DCF3.DCF（Dist

14、ributed Consensus Distributed Consensus FrameworkFramework，分布式共识框架，基于，分布式共识框架，基于PaxosPaxos算法实现数据同步强一致。）支持算法实现数据同步强一致。）支持策略化多数派策略化多数派高可用高可用高性能高性能基础算子性能提升基础算子性能提升新选择率模型典型场景选择率估算准确率、性能提升1X 分区表页面估算优化典型场景性能提升20%。Partition Iterator算子优化典型场景性能提升5%。函数依赖特性支撑多列查询典型场景行数估算准确率提升1X。1.DBMind1.DBMind自治运维平台自治运维平台构建端

15、到端自治运维平台：新增异常检测能力，完善自监控、自诊断、自调优能力。2 2、智能优化器智能优化器实现库内Bayes网络算法并基于此实现智能统计信息以提高多列基数估计准确度。计划自适应选择解决因数据倾斜等跳变难题。高智能高智能高安全高安全工具链工具链细粒度细粒度AnyAny权限增强权限增强Any权限管理，新增支持5种对象共12种：ALTER ANY TYPE、DROP ANY TYPE ALTER ANY SEQUENCE、DROP ANY SEQUENCE、SELECT ANY SEQUENCE ALTER ANY INDEX、DROP ANY INDEX CREATE ANY TRIGGE

16、R、ALTER ANY TRIGGER、DROP ANY TRIGGER CREATE ANY SYNONYM、DROP ANY SYNONYM1.MySQL1.MySQL全量迁移性能提升全量迁移性能提升2.MySQL2.MySQL增量迁移支持事务级并行消费，提增量迁移支持事务级并行消费，提升增量迁移性能升增量迁移性能3.3.支持基于默克尔树的数据校验支持基于默克尔树的数据校验4.4.支持支持openGaussopenGauss到到MySQLMySQL迁移，满足迁移，满足MySQLMySQL反向迁移要求反向迁移要求可扩展性可扩展性集成集成openLookengopenLookeng，提供分布式

17、提供分布式OLAPOLAP能力能力基于openLookeng实现分布式分析能力，openLookeng复用ShardingSphere中间件的分库分表能力，使openLookeng可以获取openGauss数据进行分析运算。加上ShardingSphere搭配openGauss形成的分布式OLTP能力一起组合成分布式的HTAP能力。立即体验：https:/opengauss.org/zh/download.html 乐/知/乐/享同/心/共/济产品动态产品动态-Oracle 23cOracle 23c新特性和发布新特性和发布周期周期计划计划来源：墨天轮、DOAG 2022会议DOAG 202

18、2 会议上，Oracle 的产品经理 Gerald Venzl 披露了 Oracle Database 23c 的一系列新特性。Oracle Database 23c 的发布计划已经明确公布，在2022年，Beta版已经开始测试。新版本将在2023年发布，23c 是一个长期支持版本。Oracle 23c Oracle 23c 十小新特性十小新特性01 01 不带不带FROMFROM子句的子句的SELECTSELECT查询查询02 02 单表支持单表支持40964096列列03 03 SCHEMA SCHEMA 级别的权限级别的权限04 04 Boolean Boolean 数据类型数据类型05

19、 05 基于别名和基于别名和位置的位置的GROUP BYGROUP BY06 06 Javascript Javascript 存储过程存储过程07 07 SQL DomainsSQL Domains08 08 DDLDDL的的 IF EXISTS IF EXISTS判断判断09 09 数据库数据库对象对象增加注释增加注释10 10 标准的表值构建标准的表值构建升级到升级到Oracle 23cOracle 23c的路径的路径11g11g12c12c12c12c18c18c19c19c21c21c23c23c20192019 20202020 2021202120222022 20232023

20、20242024 20252025 20262026 20272027 20282028 20292029 20302030 2031203120322032 2033203319c Long Term19c Long TermWaived Waived Ext.Ext.ExtendedExtended21c Innovation21c InnovationBetaBeta23c Long Term23c Long TermExtendedExtended版版本本发发布布周周期期计计划划RELEASE 2RELEASE3乐/知/乐/享同/心/共/济学术动态学术动态-中国在中国在

21、VLDBVLDB20222022的论文盘点的论文盘点来源：http:/vldb.org/pvldb/volumes/15/VLDB2022于9月5日召开，VLDB（Very Large Data Base）作为数据库领域的三大顶级国际会议之一，是面向数据库研究人员，内核开发人员，开发商以及用户的年度国际会议论坛，代表数据库系统领域最杰出的研究和工程进展。VLDB2022会议中共有336篇国内外论文入选，其中中国贡献115篇，占比超过1/3。由于单篇论文有多个作者，来源地不同，以下数据含重复计数。115115221221国内外收录论文数分析国内外收录论文数分析国内国内国外国外14141 11 1

22、1 14 44 41 11 14 42 20 05 510101515AlibabaAlibabaOceanBaseOceanBaseZillizZillizPingCAPPingCAP腾讯腾讯华为华为美团美团百度百度字节字节快手快手数量数量23238 85 54 45 55 52 21 10 05 51010151520202525MicrosoftMicrosoftMetaMetaAmazonAmazonSAPSAPIBMIBMGoogleGoogleOracleOracleeBayeBay国外收录论文主要来源单位国外收录论文主要来源单位数量数量国内收录论文主要学术机构来源国内收录论文主要

23、学术机构来源香港科技大学香港科技大学 1717篇篇香港中文大学香港中文大学 9 9篇篇北京大学北京大学 1111篇篇清华大学清华大学 1313篇篇中国人民大学中国人民大学 6 6篇篇国产数据库厂商被收录论文数国产数据库厂商被收录论文数乐/知/乐/享同/心/共/济调研动态调研动态-四家图四家图数据库厂商数据库厂商入选入选GartnerGartner调研调研报告报告近日，国际知名调研机构Gartner发布了聚焦图技术的调研报告图数据库管理系统市场指南（以下简称“指南”），在全球范围内，甄选出了32家图数据库代表性供应商，Galaxybase、AtlasGraph、Ultipa、StellarDB

24、四个数据库作为优质图数据库入选指南，获得了业界积极评价和高度认可。指南从图技术市场现状，未来发展方向、图数据库选型等多个维度深入分析，明确市场发展趋势和竞争格局，为企业客户提供战略参考。来源：墨天轮、各厂商官网网网图数据库管理系统市场指南图数据库管理系统市场指南亮点亮点图数据库分类图数据库分类03 Gartner依据底层存储将图数据库大致划分为原生图数据库和多模图数据库两大类型。原生图数据库，相较于多模数据库，更适用于涉及实时计算、多跳查询和机器学习(ML)等资源密集型处理场景。原生图数据库在处理超大规模图(通常是数十亿个节点)的查询时能提供更优质的性能。”图数据库受众

25、画像图数据库受众画像02 程序开发员程序开发员：正在将更多地面向客户或内部的项目转向图技术，利用图数据库作为存储和执行后端。数据架构师数据架构师：正在为内容管理、个性化和语义数据兼容性设计基于知识图谱的解决方案。数据科学家数据科学家：对数据点、边之间的连接和关系进行高阶探索。业务所有者和领域专家。业务所有者和领域专家。图数据库市场趋势性预测图数据库市场趋势性预测01 到 2 0 2 5 年，包括图数据库管理系统(DBMSs)在内的图技术市场将增长到32亿美元，年复合增长率为28.1%”到2025年，图技术将用于80%的数据和分析创新，高于 2 0 2 1 年的1

26、0%，促进企业快速决策”。大型传统数据库管理系统和平台供应商以及初创公司都在瞄准机会。乐/知/乐/享同/心/共/济评测动态评测动态-最新最新电信行业数据库能力测评电信行业数据库能力测评榜单榜单发布发布2022年9月1日，北京软件和信息服务业协会对电信行业数据库适配测试技术规范、电信行业数据库适配测试业务规范进行了团体标准立项的专家评审。经研判讨论，两项标准正式获批立项。国家工业信息安全发展研究中心依托两项标准组织开展了多轮电信行业数据库能力测评，最新一批入围“场景榜单”的综合排名的前三名：中兴通讯中兴通讯、亚信科技亚信科技、阿里云。阿里云。来源：墨天轮网网电信行业数据库适配测试技术规范、电信

27、行业数据库适配测试业务规范旨在为电信行业数据库产品能力测评提供依据，以真实业务场景全面验证数据库产品支撑电信级应用的能力，为相关单位测试、选型工作提供参考，推进数据库产品在电信行业的应用推广。乐/知/乐/享同/心/共/济商业动态商业动态-九月国产数据库厂商中标一览九月国产数据库厂商中标一览来源：墨天轮20222022年年9 9月国产数据库厂商中标一览表月国产数据库厂商中标一览表公告时间公告时间项目名称项目名称中标数据库中标数据库中标金额（元）中标金额（元）采购单位采购单位2022/9/5某直辖市档案馆数字化运维项目AntDB/某直辖市档案馆2022/9/13中移（杭州）信息技术有限公司202

28、2年国产分布式数据库技术服务采购项目云树系列产品/杭州移动2022/9/13正数网络2022-2023年数据库产品及技术支撑服务集中采购项目（河南省大数据中心）CirroData/正数网络2022/9/15中移动信息2022-2023年分布式OLTP数据库及工具框架采购项目GodenDB、OceanBaseAntDB、GreatDB共计1.45亿中国移动2022/9/19中原银行2022年信息技术应用创新-OceanBase数据库软件许可采购项目OceanBase627 万中原银行2022/9/22中国移动四川公司2021年业务支撑BOSS扩容改造工程国产分布式数据库项目GreatDB188.

29、145万四川移动2022/9/27泉州银行新一代智慧审计平台配套设备及数据库采购项目GBase 8a/泉州银行2022/9/29正数网络2022-2023年数据库产品及技术支撑服务集中采购项目UXDB/正数网络2022/9/29中国邮政技术中台国产关系型数据库和数据备份软件采购项目TDSQL/中国邮政2022/9/302022年第三季度中央国家机关政府采购中心正版软件采购达梦48万国家自然科学基金委员会乐/知/乐/享同/心/共/济融资动态融资动态-时序厂商时序厂商GreptimeGreptime完成天使轮融资完成天使轮融资9月28日消息，时序数据库厂商 Greptime（格睿云）宣布完成数百

30、万美元天使轮融资百万美元天使轮融资，本轮由耀途资本领投耀途资本领投，九合创投跟投九合创投跟投。Greptime 公司当前正在打磨时序数据库 Greptime DB，未来也计划推出基于Greptime DB的全托管数据库服务Greptime Cloud。成立于2022年4月，是一家时序数据库厂商。公司产品主要分为 Greptime DB 和 Greptime Cloud。团队方面，当前Greptime员工人数有15人左右，在北京、杭州分设办公室。其创始团队具备在国内互联网大厂从事超大规模监控系统和车联网云平台研发的经验，解决过超大规模混合云架构下的系统运维和监控问题。在计划中，Greptime的

31、客户画像会分为监控领域（可观测）、IoT（智能制造，车联网）和金融三类。Greptime会先持续打磨产品，并通过开源的方式持续观察商业化可能，计划在2022年年底将分布式版本开源。2023年初，公司计划推出基于Greptime DB的数据库云服务。公公司司简简介介来源：墨天轮、Greptime官网网网GreptimeGreptimeDBDB 简简介介简介：简介：Greptime DB 是 Greptime（格睿云）研发打磨的时序数据库产品。特点：特点：用 Rust 编写，可持续且安全集群版本开源，随用随扩展支持 Python 和 SQL亚秒分析查询与现有数据堆栈良好集成Greptime

32、Greptime云云简介：简介：由 Greptime 完全托管，提供弹性且经济高效的 GreptimeDB 服务轻松快速的配置。特点：特点：协作从各种来源即时获取数据部署在多云上免费升级、备份和安全修复乐/知/乐/享同/心/共/济融资动态融资动态-Nebula GraphNebula Graph获数千万美元获数千万美元A A轮融资轮融资9月15日消息，国内知名的图数据库Nebula Graph研发商杭州悦数科技有限公司宣布获得数千万美元的数千万美元的A A轮融资轮融资由时代资本(Jeneration Capital)领投，老股东经纬创投、红点中国、源码资本全部继续加码；华兴资本担任此轮融资独

33、家财务顾问。悦悦数数科科技技融融资资历历程程2019-02-26Pre-APre-A轮轮2021-01-29Pre-A+Pre-A+轮轮2022-09-15A A轮轮数千万美元数千万美元红点中国经纬创投源码资本数千万美元数千万美元数千万美元数千万美元源码资本红点中国时代资本经纬创投红点中国源码资本悦悦数数科科技技简简介介悦数科技成立于2018年10月，是一家科技型创业公司。公司创始团队来自于Facebook、阿里巴巴、华为等国内外各大知名公司。我们致力于世界上唯一开源的分布式图数据库星云的研发，为客户提供稳定高效的互联网基础技术服务。主要产品：主要产品：星云图数据库（N

34、ebula Graph）、WEB GUI 工具、图探索可视化分析工具、图数据库可视化监控工具。Nebula GraphNebula Graph 产品简介产品简介1 1、产品简介：、产品简介：Nebula Graph 是一款开源分布式图数据库产品，擅长处理千亿节点万亿条边的超大数据集，同时保持毫秒级查询延时，得益于其 shared-nothing 以及存储与计算分离的架构设计，Nebula Graph 具备在线水平扩缩容能力。2 2、核心特性：、核心特性：自主研发可控，开放系统生态权限控制管理，保障业务安全分布式高可用，保证业务连续实时查询性能，加快业务响应多维扩展能力，助力业务增长复

35、杂查询逻辑，适配业务逻辑来源：墨天轮、悦数科技官网网网乐/知/乐/享同/心/共/济一、数据库排行榜及前沿动态一、数据库排行榜及前沿动态二、向量数据库二、向量数据库的概述与解析的概述与解析三、三、向量引擎加持传统数据库向量引擎加持传统数据库四、四、向量数据库向量数据库产品相关案例产品相关案例乐/知/乐/享同/心/共/济向量数据库向量数据库概述概述来源：墨天轮、Milvus 官网向量数据库是专门为处理向量嵌入(vector embeding)独特结构而构建的数据库系统。它们通过比较值并找到彼此最相似的向量来索引,以便于搜索和分析。国内典型向量数据库代表有Milvus、Vearch、Tensor

36、DB、Om-iBASE等。向量数据库向量数据库的的关键技术关键技术向量数据库的特征向量数据库的特征提供标准的 SQL 访问接口，降低用户的使用门槛。提供高效的数据组织，检索和分析的能力。一般用户在存储和检索向量的同时，还需要管理结构化的数据，即支持传统数据库对结构化数据的管理能力。向量数据库的应用向量数据库的应用1.1.构建在大数据和分布式数据库技术基础上构建在大数据和分布式数据库技术基础上必定是shared-nothing架构高可用支持线性扩展2.2.向量索引技术向量索引技术向量索引发展，和各种技术的局限性 (LSH,k-d tree,PQ，PQ Fast Scan)向量与结构化数据

37、的结合3.3.硬件加速硬件加速各种加速硬件的原理，特点 FPGA/GPU/AI芯片加速从技术角度来讲，向量数据库主要解决2个问题，一个是高效的检索，另一个是高效的分析。1）检索通常就是图片检索图片，例如人脸检索，人体检索，和车辆检索，以及猫厂的商品图片检索，人脸支付。2）分析在平安城市应用的比较多，例如人脸撞库，公安会把2个类似作案手法的案发现场周边的人像做对比，看哪些人同时在2个案发现场出现。向量数据库与传统数据库的区别向量数据库与传统数据库的区别数据规模超过传统的关系型数据库传统的关系型数据库管理1亿条数据已经是拥有很大的业务流量，而在向量数据库需求中，一张表千亿数据是底线，并且原始的

38、向量通常比较大，例如512个float=2k，千亿数据需要保存的向量就需要200T的存储空间（不算多副本），单机显然不具备这种能力，可线性扩展的分布式系统才是正确的道路，这对系统的可扩展性，可靠性，低成本提出非常大的挑战。查询方式不同，计算密集型传统的数据库查询通常可以归结为点查和范围查，而无论是点查和范围查都是一种精确查找，即查询得到的结果要么符合条件要么不符合条件，而向量数据库的向量查询通常是近似查找，即查找与查询条件相近的结果，即查询得到的结果是与输入条件最相似的，而近视比较对计算能力要求非常高。低时延与高并发在平安城市中的应用需要支持交互式查询，端到端3秒，对向量数据库的要求提升到1秒

39、，我们的设想是后续所有的警察人手一个查询终端，所以高并发也是必须的，1w QPS是我们的底线。乐/知/乐/享同/心/共/济向量数据库的核心向量数据库的核心能力能力向量数据库其实就像传统数据去处理一些关系型数据、结构化数据一样，承担的是非结构化数据的低成本存储和高性能计算两大核心能力。具体包括用于搜索和检索的向量索引、单级过滤、数据分片、复制、混合存储以及API功能。用于搜索和检索的用于搜索和检索的向量索引向量索引向量数据库使用专门算法来有效地索引和检索向量。不同的用例需要优先考虑准确性、延迟或内存

40、使用，可以使用不同的算法进行微调。除了索引之外，还有相似度和距离指标，用于衡量向量之间的相关性/相似性。向量索引的常见指标包括欧氏距离、余弦相似度和点积。向量数据库使用“近邻（NN）”索引来评估对象之间或与搜索查询之间的相似程度。传统的近邻搜索对于大型索引来说是有问题的，因为它们需要在搜索查询和每个索引的向量之间进行比较。比较每个向量需要时间。近似近邻（ANN）搜索通过近似和检索最相似向量的最佳猜测来规避这个问题。虽然ANN不能保证返回准确的最接近的匹配，但它在精度和速度之间取得了平衡。数

41、据分片数据分片ANN算法可以高效搜索向量。但无论其效率如何，硬件限制了向量在单台机器上的可能性。将向量划分为碎片和副本，在许多商品级机器上进行扩展，以实现可扩展性和具有成本效益。向量数据库将向量平均分成碎片，搜索每个碎片，并在最后将所有碎片的结果结合起来，以确定最佳匹配。通常，使用Kubernetes，并授予每个分片自己的Kubernetes pod，至少有一个CPU和一些内存。这些pod可并行搜索向量。混合存储混合存储使用混合存储，压缩的向量索引存储在内存中，完整的向量索引存储在磁盘上。内存索引可以将搜索空间缩小到磁盘

42、上全分辨率索引内的一小组候选项。混合存储允许企业在相同的数据占用空间中存储更多向量，通过提高整体存储容量来降低运行向量数据库的成本，而不会对数据库性能产生负面影响。单单级过滤级过滤筛选允许根据向量元数据来限制搜索结果。可以通过返回基于限制标准的可用匹配子集来提高搜索结果的相关性。后期过滤首先应用近似近邻搜索，然后将结果限制在元数据过滤限制上

43、。用元数据对向量进行预过滤可以缩小数据集，并可能返回高度相关的结果。然而，由于预过滤首先对索引中的每个向量应用匹配标准，它也会严重降低向量数据库的性能。单级过滤结合了预过滤的准确性和相关性，其速度与后过滤一样快或更快。通过将向量和元数据索引合并为一个索引，将两种方法结合起来以达到最佳效果。复制复制分片允许向量数据库采用许多pods以并行的方式来更快地执行向量搜索。但是，如果需要同时或快速连续地执行许多不同的向量搜索呢？复本复

44、制了整个pod集，以并行处理更多的请求。复本还可以提高可用性。向量数据库可以将副本分散到不同的可用区，以确保高可用性。A P I与许多托管服务一样，应用程序通常通过API与向量数据库进行交互。这使企业可以专注于自己的应用程序，而不必担心管理自己的向量数据库的性能、安全性和可用性挑战。API调用使开发人员和应用程序可以轻松上传、查询、获取结果或删除数据。来源：https:/www.pinecone.io/learn/vector-database/乐/知/乐/享同/心/共/济向量数据库应用场景向量数据库应用场景向量数据库主要的应用领域如人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言

45、处理、文件搜索等。随着 AI 技术的广泛应用，以及数据规模的不断增长，向量检索也逐渐成了 AI 技术链路中不可或缺的一环，更是对传统搜索技术的补充，并且具备多模态搜索的能力。来源：墨天轮语音、图像、视频检索语音、图像、视频检索向量检索的第一大类应用就是对语音、图像、视频这些人类所接触到的，也最为常见的非结构化数据的检索。以图片搜索为例，先以离线的方式对所有历史图片进行机器学习分析，将每一幅图片抽象成高维向量特征，然后将所有特征构建成高效的向量索引，当一个新查询（图片）来的时候，对其进行分析并产出一个表征向量，然后用这个向量在之前构建的向量索引中查找出最相似的结果，这样就完成了一次以图片内容为基

46、础的图像检索。文本检索文本检索上左图以搜索“浙一医院”为例，如果使用文本分词“浙一”和“医院”，是搜索不到结果的。如果能够利用对人们历史语言，甚至历史的点击关联进行分析，建立起语义相关性的模型，把所有的地址都用高维特征来表达，那么“浙一医院”和“浙江大学医学院附属第一医院”的相似度可能会非常高，因此可以被检索出来。上右图以搜索“杭州阿里巴巴”的地址为例，在仅使用文本召回的时候，几乎没办法找到相似的结果，如果通过对海量用户的点击行为进行分析，将点击行为加上地址文本信息合并形成高维向量，这样在检索的时候就可以天然的将点击率高的地址召回并排列在前面。搜索、推荐、广告搜索、推荐、广告在电商领域的搜索/

47、推荐/广告业务场景中，常见的需求是找到相似的同款商品和推荐给用户感兴趣的商品，这种需求绝大多数都是采用商品协同和用户协同的策略来完成的。新一代的搜索推荐系统吸纳了深度学习的 Embedding 的能力，通过诸如 Item-Item(i2i)、User-Item(u2i)、User-User-Item(u2u2i)、User2Item2Item(u2i2i)等向量召回的方式实现快速检索。几乎覆盖了所有的几乎覆盖了所有的 AI AI 场景场景向量检索几乎覆盖了大部分的可以应用AI的业务场景。例如广告反作弊、人群分析、视频指纹、版权保护、语音识别、智能问答、地址标准化、多语言翻译、地理信息、分子结构

48、分析、生物群落分析等。乐/知/乐/享同/心/共/济向量数据库的向量数据库的发展历程发展历程来源：腾讯云开发者社区、墨天轮FaissMilvusVearchOm-iBASEProxima01020304062017年3月，Facebook 开源了 AI 相似性搜索工具 Faiss（Facebook AI Similarity Search）。支持相似度检索和聚类，多种索引方式，CPU和GPU计算，以及Python和C+调用。其使用场景最常见的为人脸比对，指纹比对，基因比对等。2019年4月，Milvus 0.1发布，2019年10月，Ziiliz开源了向量数据库 Miivus。Milvus 是

49、一款开源的特征向量相似度搜索引擎。Milvus 使用方便、实用可靠、易于扩展、稳定高效和搜索迅速。2019年10月，Vearch v0.1发布。它是京东研发的一款分布式向量搜索系统，可以用来计算向量相似度或用于机器学习领域如：图像识别，视频识别或自然语言处理各个领域。Vearch基于 Faiss 实现，提供了快速的向量检索功能。Om-iBASE（向量数据库）是基于智能算法提取需存储内容的特征，转变成具有大小定义、特征描述、空间位置的多维数值进行向量化存储的数据库，使内容不仅可被存储，同时可被智能检索与分析。2021年10月，阿里巴巴发布了其开源项目多模态向量检索引擎 P r o x

50、i m a。Proxima 是阿里巴巴达摩院自研的向量检索内核。目前，其核心能力广泛应用于阿里巴巴和蚂蚁集团内众多业务，如淘宝搜索和推荐、蚂蚁人脸支付、优酷视频搜索等。20172019201920202021Zilliz Cloud20222022年8月，Ziiliz 推出了云端全托管向量数据库服务 Zilliz Cloud，进一步赋能企业 AI 应用，在全球范围内享有广阔的市场前景。0705TensorDB 是爱可生公司基于Milvus进行完善增强的企业发行版向量数据库软件。该产品实现了超大规模向量型数据的高效组织，设计了易扩展的索引结构，有效支撑了时变环境下的向量数据快速比对。2020Te

展开阅读全文