1、知识图谱与自然语言处理产业分析技术创新,变革未来人工智能产业化发展进程技术能力创新、应用规模突破、产业地位跨越随着2016年AlphaGo战胜人类棋手,开启了新一波人工智能浪潮,人工智能技术及产业进入加速发展期;2021年 DeepMind团队开源AlphaFold2数据集,其利用人工智能技术解决蛋白质结构预测问题,供全世界科研人员使用。AI技 术应用于生物领域取得的前瞻性进展有力推动了生命科学发展,也代表随着AI算力提升及算法的不断突破创新,AI技术在 各行业领域的增量式技术改进、系统性前瞻性研发等重要产业改造环节提供价值。人工智能产业化进程发展至今,已逐步 从AI技术与各行业典型应用场景融
2、合赋能阶段向效率化、工业化生产的成熟阶段演进。作为智能化转型工具,AI技术所带 来的创新增量价值引人瞩目,产业应用规模不断突破,数字经济加速器的产业地位逐步稳固。产业产业角色相角色相对稳对稳定定 技技术术价价值稳值稳步提升步提升人工智能产业成为国际竞争焦 点,承担国家经济发展引擎功 能依托算法开发平台、AIDC算 力资源、数据基础服务等基础 层资源,多环节提效AI技术价 值的释放,解决需求方人工智 能生产力稀缺问题AI产业社会化分工的出现,逐 步进入各产业深度参与、双向 共建的效率化、工业化生产阶 段各行业需求侧推动供给端 人工智能技术研发进步,如自然语言生成技术、多 模态识别等人工智能技术应
3、用于各行业的集成化创新,如 AR/VR/MR、物联网、5G 通信、半导体产业等决策类人工智能技术应用 突起,企业尝试依赖AI解 决主流业务问题人工智能技术真正能解决 需求侧某些应用场景痛点,且符合经济效益人工智能技术在部分应用 场景实现标准化应用计算机从数据中学习算法深度学习在语音图像领域大获成功落地落地实验阶实验阶段段应应用普及用普及阶阶段段AI赋赋能百能百业阶业阶段段效率化、工效率化、工业业化生化生产阶产阶段段雏雏形期形期发展 轨迹时间起步期起步期赛赛道孵化中道孵化中部分部分赛赛道成形道成形产产品形品形态态与商与商业业模式探索模式探索龙龙头头企企业业跑跑出出 赛赛道道竞竞争争加加剧剧 商商
4、业业模式多元模式多元中国人工智能中国人工智能产业产业化化发发展展进进程程现处现处于向成熟期跨越于向成熟期跨越阶阶段段 人工智能成人工智能成为为数字数字经济经济发发展的基展的基础设础设施施52022.1.1211571585199824763106385948696050382156877695939617362140441160521077201920202025e2026e2021e2022e核心产品市场规模(亿元)2023e2024e带动相关产业规模(亿元)人工智能产业规模视觉市场筑起主要版图,头部规模聚集效应显现人工智能产业正从发展期向成熟期过渡,除AI芯片外的细分技术赛道产业已跨过高速
5、增长期,步入了稳步增长阶段。2021年人工智能核心产业规模预计达到1998亿元规模,相应规模将于2026年超过6000亿元,2021年到2026年的CAGR 为24.8%,计算机视觉仍是AI技术赛道中贡献最大的市场。然而,随着下游各方数字化发展的意识不断加强,其对数据这 一AI模型生产要素的要求也在不断变高,采购含有机器学习技术的数据类产品的需求暴露与凸显,在一定程度上带动了机 器学习市场。除AI技术赛道外,AI芯片作为底层算力资源的关键硬件,其2021-2026年的CAGR在维持40%以上,是拉动 整体产业规模增速的重要拉力。从参与者类型看,我们判断大约30%-45%的市场仍为人工智能创业企
6、业所占据,且随着 头部人工智能企业冲刺科创板或港股市场的进步,其市场份额会进一步扩大,市场份额的高地也会进一步为头部人工智能 企业所占领。从外围赛道入场的互联网公司、云服务公司、大数据公司、信息技术服务公司、通信设备公司以及个别科研院所则切分其余市场。注释:核心规模包括计算机视觉、智能语音、对话式AI、机器学习(含自动驾驶)、知识图谱、自然语言处理、AI芯片等核心产业;带动规模为为达到AI应用目的而连带采购的、具 有相关性的软硬件产品、服务。来源:研究院根据专家访谈与桌研自主建模研究绘制。CAGR=24.8%CAGR=22.3%2019-2026年中国人工智能年中国人工智能产业规产业规模模13
7、人工智能产业图谱注释:以企业主营业务为主。图谱中所展示的公司logo顺序及大小并无实际意义,不涉及排名。来源:研究院根据公开资料研究绘制。2021年中国人工智能年中国人工智能产业图谱产业图谱人工智能基人工智能基础层础层人工智能技人工智能技术层术层AI 框架AI 开放平台商用版 AI 应 用模型效率 化生产平台AI 算力基础AI 芯片(Fabless)智能服务器与 高性能计算中心智能云AI 数据资源管理技技 术术 及及 应应 用用 标标 准准 与与 规规 范范科科 研研 学学 术术 机机 构构 与与 各各 层层 次次 人人 才才通通 信信 与与 信信 息息 网网 络络数数 据据 存存 储储 设设
8、 施施物物联联网网 与微型与微型传传 感器感器关键通用技术机器学习知识图谱关键领域技术计算机视觉语音识别自然语言处理人工智能人工智能应应用用层层城市公共事城市公共事业业、企、企业级业级客客户户、消、消费费者者AI 基础数据服务大数据治理与数据智能方舟 先知Brain+AI 模型生产SenseParrotsAI+工业计 算 机视觉 知识 与决策预 维测 护与对话式AI智 自主无人系统能 汽 车智 能 机 器人 无 人 机AI+零售AI+政务AI+金融AI+泛互联网计算机视觉视觉与图像流程智能规划与推荐业务决策智能 智能搜索客户服务AI+泛安防AI+医疗计 算 机 视觉大智 数能 据 化 医 辅
9、学 助 影 诊 像 断大 决 数 策 据 辅 及 助辅 制 助 药24知知识图谱识图谱与自然与自然语语言言处处理理本章本章赛赛道内容分道内容分为为以下四个部分:以下四个部分:赛赛道道资资本情况:本情况:一方面,融资事件与金额相当,且轮次靠前,多处于早期;另一方面,融 资热度较高的行业为金融与医疗。产业规产业规模解模解读读:大数据基座类产品价格高、硬件比例大,产品整体上偏沉重,企业一般进行一次采购,后续升级维护。随着数字化转型的加速与渗透,此类产品未来将步入存量封 顶阶段,新的增量市场则由垂直行业的知识图谱与NLP应用或解决方案所替代。知知识图谱识图谱的的产产品品趋势趋势及落地困及落地困难难探探
10、讨讨:互联网领域的通用知识图谱不断朝着精准化、便捷 化的方向发展,产品已步入成熟期,各大供应商将垂直行业知识图谱纳入研究探索的范畴。在垂直行业知识图谱落地的过程中,会遇到商业拓展与技术上的难点,阻碍技术产品化、产品商业化的进程,对此,我们提出了三点方法论建议。NLP的金融商的金融商业业生生态态圈及圈及发发展展热热点点:金融NLP商业生态圈主要由银行、与金融机构存在血 缘关系的第三方科技公司/生态服务商、垂直领域的NLP公司以及互联网大厂组成,金融机 构与NLP公司存在共生关系。低代码、无代码软件的进步使大规模部署NLG模型成为可能,而在部署时,模型的常识性差又催生了多模态NLG模型这一发展热点
11、Knowledge Graph and Natural Language Processing25 融资情况融资事件与金额规模相当,融资多处于早期阶段统计时间内,有关知识图谱或NLP的融资事件共214起,合计获投302.1亿元,分别占人工智能总融资事件数与总融资金 额(不包含自动驾驶与AI芯片)的27.6%与20.7%;两类技术赛道的融资轮次靠前,知识图谱类产品多处于研发孵化阶段。2018-2021年年11月中国知月中国知识图谱识图谱融融资资概况概况61.0%19.0%A+轮及以前PreB轮到B+轮C轮及以后战略融资来源:研究院根据各融资网站数据调整与处理绘制。2018-2021年年11月中
12、国知月中国知识图谱识图谱融融资轮资轮次情况次情况6.0%14.0%55.0%18.0%14.4%A+轮及以前PreB到B+轮战略、收购及其他C轮及以后来源:研究院根据各融资网站数据调整与处理绘制。2018-2021年年11月中国月中国NLP融融资轮资轮次情况次情况12.6%18.857.049.940.2292716292018201920202021.11融资金额(亿元)融资事件(起)16.837.323.12018-2021年年11月中国月中国NLP融融资资概况概况59.0302214472018201920202021.11融资金额(亿元)融资事件(起)26细分赛道融资热度64.4%50
13、7%26.0%23.3%21.9%20.5%15.1%13.7%9.6%8.2%6.8%4.1%2.7%1.4%1.4%1.4%1.4%金 融医 疗工 业公 安互 联 网政 务营 销交 互 服 务司 法电 力电 信零 售能 源物 流招 聘建 筑文 旅来源:研究院根据各融资网站数据调整与处理绘制。金融与医疗热度高,融资业务广泛在统计时间内获投的164家企业中,以金融与医疗为热门赛道。金融赛道中,银行的风控、营销、反欺诈、反洗钱等应用 需基于NLP进行知识挖掘,基于知识图谱实现多层关系挖掘,对业务有较高的实用价值;医疗赛道中,CDSS、智慧病案、医学数据智能平台、药物分子计算平台等产品或工具需基
14、于NLP与知识图谱构建医学知识库,辅助临床决策或药物研发。2018-2020年年11月中国知月中国知识图谱获识图谱获投企投企业业务赛业业务赛道道热热度度统计统计72家家获获投投45.7%39.1%32.6%27.2%25.0%20.7%18.5%9.8%5.4%3.3%3.3%2.2%2.2%1.1%1.1%1.1%1.1%金融医疗互联网政务交互服务营销工业零售公安电信人事司法智能家居电力能源物流建筑2018-2020年年11月中国月中国NLP获获投企投企业业务赛业业务赛道道热热度度统计统计92家家获获投投6580107139174206246296282332201920202025e202
15、6e2021e2022e核心产品市场规模(亿元)2023e2024e带动相关产业规模(亿元)知识图谱产业规模注释:核心产品市场规模为大数据产品的KG软件部分、行业垂直知识库及应用、通用网络搜索与推荐等。带动规模为为达到知识图谱应用目的,而连带采购的、具有相关性的软硬件 产品、服务。大数据与垂直细分领域知识图谱应用成主要增长点知识图谱源自搜索引擎,其将广域网中的数据、信息等内容进行梳理,组合成图谱形式,让搜索更准确、更便捷。随着信 息网络建设与大数据处理能力的增强,知识图谱不再局限于网络百科式的搜索,其衍生出了内容推荐与问答、大数据知识 图谱与垂直行业领域的知识库等多种产品类型,并朝着网络化与可
16、视化的趋势发展。通过对下游行业的研究统计,发 现金融、医疗、公安、互联网四大行业对知识图谱的需求意愿较强,其对大数据知识图谱与垂直细分领域的知识图谱应用 需求成为了拉动市场规模的主要动力。据统计测算,2021年,中国知识图谱核心产品的市场规模为107亿元,带动规模 为412亿元;而到2026年,核心规模可突破290亿元,带动规模超1000亿元。2019-2026年中国知年中国知识图谱识图谱核心核心产产品及品及带动带动相关相关产业规产业规模模CAGR=20.3%1039CAGR=22.5%868732634523412来源:研究院根据专家访谈与桌研自主建模研究绘制。2022.1.27知识图谱核心
17、行业规模注释:核心产品市场规模为大数据产品的KG软件部分、行业垂直知识库及应用、通用网络搜索与推荐等。172130394555泛安防与医疗先行,金融与互联网具备潜在空间金融、互联网、泛安防、医疗构成了知识图谱的四大强需求行业。在金融领域,以银行为采购主体,以金融大数据平台或 关联交易、内部知识挖掘、行业风险传播、实时风控等知识图谱解决方案为主要产品类型,且未来以解决方案为主;金融 业的购买预算较为充足、信息化基础完备,是知识图谱潜在发力空间较大的赛道,预计2026年核心产品规模可达68亿元。在互联网领域,数量众多的中小型互联网企业需要高性价比的搜索引擎、内容推荐和通用知识图谱服务于线上购物、网
18、络 交友、内容直播等业务,市场空间于后期逐渐释放。在泛安防领域,有大部分市场属于公安赛道。随着公安大数据建设工 作逐渐走向完备,知识图谱平台或研判分析、情报分析等解决方案在中等发达城市将成为市场发力点。2021年,泛安防(主要为公安)知识图谱核心市场规模为20亿元,2026年将达到43亿元。在医疗领域,受电子病历、智慧医院评级政策 驱动,各级医院及医疗机构采购CDSS与智慧病案等知识图谱产品,未来产品将逐步渗透至二级与基层医院。2019-2026年中国知年中国知识图谱识图谱核心核心产产品在主要行品在主要行业应业应用用规规模模6857173744511414182023 233026303543
19、67121419234510 681016 12151720192026e2024e2025e泛安防领域市场规模(亿元)20202021e金融领域市场规模(亿元)医疗领域市场规模(亿元)2022e2023e互联网领域(亿元)工业领域市场规模(亿元)来源:研究院根据专家访谈与桌研自主建模研究绘制。2022.1.28知识图谱主要类型及应用通通用用 互互联联 网网知知 识识图图 谱谱搜索引擎 智能推荐 智能问答通用知识 百科常识 泛学科领域 知识互互联联网网大大厂厂:产品供内部使用为主,其 产品的搜索效率、精准度、关联推荐度 都在逐步提升,能力可封装对外出售中中小小型型供供应应商商:产品直接对外出售
20、并 面向预算有限的中小型互联网客户泛互联网领域的通用信息检 索、商品/服务/视频/交友推 荐、KBQA等,使用者一般 为C端用户供供应应商商类类型及特点型及特点适用行适用行业场业场景景覆盖内容覆盖内容产产品品类类型型资资质质:需要供应 商具备强大的爬 虫以及爬虫后大 规模的数据处理 能力分分场场景景产产品品类类型型:关联交 易、内部信息挖掘、交易 风险传播、实时风控、风 控人均画像等分分场场景景产产品品类类型型:分警种 的情报研判分析,如禁毒 分析、非法集资经侦分析 等,或嵌入情指勤舆一体 化等大型解决方案中分分场场景景产产品品类类型型:院内以 CDSS、智 慧 病 案、DRGs为主,院外以
21、制药 所用到的医药知识库为主分分场场景景产产品品类类型型:制造业 中的故障预测与监测、故 障自动问答;电力行业中 的电力基础设施图谱、用 电量推荐与预测等底座底座行业知识图谱的搭建有赖于前期的大数据建设。通常而言,在完成数据基建工作后,会搭建一套平台型工具,在 平台上叠加开发不同场景的知识图谱轻量级应用或偏重的解决方案,以满足B端客户对行业细分场景的业务需求相相构构互互建建输输广广送送度度知知深深垂垂识识 度度 直直 行行 业业 知知 识识 图图 谱谱强强调调知知识识深度深度公安公安医医疗疗AI大脑深度思考的发展方向:行业知识图谱知识图谱的产品类型以通用知识图谱与垂直行业知识图谱为典型代表。通
22、用知识图谱经过开拓性构建阶段后,逐渐演变为 通用互联网知识图谱,形成搜索引擎、智能推荐、智能问答三大产品类型,产品发展较为成熟。行业知识图谱将领域内的 知识建成图谱,用于问答、辅助决策与业务分析,是支持AI大脑深度思考的知识库基础。目前该类型产品的核心问题是整 个知识图谱的应用生态建设问题,即将图谱建立起来后,维护成本如何衡量,与人工构建的知识量级及深度有何差异,能 否支撑足够多的应用开发等一系列问题,其强调知识深度,需要配备业内的专家标注,现阶段还处于发展早期。通用知通用知识图谱识图谱与行与行业业知知识图谱识图谱强强调调知知识识广度广度工工业业金融金融来源:研究院根据专家访谈、公开资料自主研
23、究绘制。29行业知识图谱落地情况行行业业理解待提升理解待提升产产品化封装待提升品化封装待提升对产对产品品预预期期过过高高图谱应用于何种 应用、业务点更 有效很难说清楚,单一的专家难以 解决所有问题,持续的行业摸索 才能提升行业理 解在业务理解与技术 水平都达到标准后,图谱理应与专家的水 平相当,但如何将 高成本训练出的图谱 以既经济实惠又保证 盈利的方式封装并出 售,是一个难点客户对知识图谱的 预期往往过高,期 望以一个知识图谱 解决领域内的所有 问题,比如工业制 造的图谱可作为故 障检修问答手册,但不能马上进行故 障归因推荐、预测底底层层基基础设础设施欠缺施欠缺领领域数据集缺失域数据集缺失图
24、图数据存数据存储储困困难难部分客户的底层的 硬件设施仅能进行 数据存储、数仓计 算,无法跑大规模 的数据量,这就导 致构建知识图谱时 要用到的深度学习 模型无法在客户的 内网运行分行业的数据集种类、数据集数量差异大,需要配备资深的专 家进行专业样本标注,而专家水平也有 层次之分,需根据图 谱要求选择,同时业 内专家 本身就比较 稀缺由于知识图谱是二维 链接的图数据存储形 式,不是数据库的 线性结构形式,其数 据组织的存储计算复 杂度提升了许多,需 要对数据 库进行定 制化开发持持续续深入深入业务业务业务人员需持续深耕行业,理解业务 数据和应用场景,不能孤立地做图谱方法方法论对论对策策形成持形成
25、持续续迭代的生迭代的生产闭环产闭环模型生产的各个环节形成闭环和迭代,持续优化图谱,避免一次性完成的思路注重可落地的注重可落地的产产品化与工程化品化与工程化提高对数据治理的关注度,兼顾产品成 本与可落地程度之间的关系,避免一味 追求算法和智能深耕业务,持续迭代,注重可落地性,克服双重卡点在行业知识图谱的推进过程中,供应商会面临业务与技术上的卡点。业务方面,供应商团队常面临行业理解不到位、产品 化封装难、客户期望过高等问题;而在技术方面,客户的底层运算基础设施欠缺、部分数据敏感度高的行业数据集缺失、知识图谱这类二维链接的图数据存在存储困难是普遍问题。对此,供应商需持续深入业务,形成知识图谱模型持续
26、迭代的 生产闭环,并注重产品化与工程化的可落地性,避免一味地投入高额成本却生产出智能化高、业务吻合度低的低效模型。行行业业知知识图谱识图谱落地卡点及方法落地卡点及方法对对策策业务业务落地卡点落地卡点技技术术落地卡点落地卡点来源:研究院根据专家访谈、公开资料自主研究绘制。30NLP市场规模注释:核心产品市场规模为大数据产品的NLP软件部分、行业垂直词向量产品、语音语义应用的NLP模块、通用网络搜索与推荐等。带动规模为为达到NLP应用目的,而连带采购的、具有相关性的软硬件产品、服务。89114171219271333391459278332450对话式AI与知识图谱带动产业规模增长相较于其他AI技
27、术,NLP一般不单独作为独立的产品出售,而是作为底层技术,与智能语音、知识图谱等技术衔接捆绑在 一起,常以对话式AI、机器翻译、知识库等类型的产品出现,在独立的产品化模块方面发展较慢。近两年,受对话机器人 这一应用的推动,智能知识库、分模块对话、对话语义理解、评论正负识别、对话自动输出等NLP产品迎来了发展机遇,且随着通用或垂直行业知识图谱的构建,NLP与知识图谱的捆绑关系将变得更为紧密。据统计研究,2021年,中国 NLP核心产品规模为171亿元,带动规模为450亿元,而到2026年,核心产品规模将达到459亿元,带动规模将超过1000 亿元。2019-2026年中国年中国NLP核心核心产产
28、品及品及带动带动相关相关产业规产业规模模CAGR=22.3%CAGR=24.8%1061905774651546201920202025e2026e2021e2022e核心产品市场规模(亿元)2023e2024e带动相关产业规模(亿元)来源:研究院根据专家访谈与桌研自主建模研究绘制。2022.1.31NLP核心行业规模注释:核心产品市场规模为大数据产品的NLP软件部分、行业垂直词向量产品、语音语义应用的NLP模块、通用网络搜索与推荐等。104558721635 3041526475可通过API形式输出,金融赛道具备较大潜力在互联网领域,NLP能力可被封装到各大服务提供商的AI开放平台中,通过A
29、PI工具+云平台形式对外进行能力输出。广 大中小型互联网企业可接入平台中调用NLP能力,服务于自身的搜索推荐、泛智能营销、交友、直播等业务,同时满足经 济便捷的需求。2021年,互联网NLP核心规模达到35亿元,在2026年将达到97亿元。在金融领域,各大银行、券商的智 能客服与知识库产品需要借助NLP技术,但因金融机构存在技术短板、数据敏感度高,其通常选择借助外部力量做大而全 的、复杂度高的、私有化部署形式的解决方案,且有较为频繁的迭代更新需求,因而成为NLP的明星跑道之一。2021年,金融NLP核心规模为30亿元,在2026年将超过90亿元。医疗、泛安防领域的对NLP的产品需求类似知识图谱
30、产品,尤其 是医疗的CDSS在二级与基层医院的潜在空间巨大,而这与二级、基层医院的诊断能力欠缺存在较强的相关性。据统计预 测,2021年,医疗NLP核心规模达到18亿元,2026年将达到39亿元。2019-2026年中国年中国NLP核心核心产产品在主要行品在主要行业应业应用用规规模模97 9184253113 1216 20 15 1518 1722 19222535 3039 381123345620192026e2024e2025e医疗领域市场规模(亿元)20202021e互联网领域(亿元)泛安防领域市场规模(亿元)2022e2023e金融领域市场规模(亿元)工业领域市场规模(亿元)来源:
31、研究院根据专家访谈与桌研自主建模研究绘制。2022.1.32金融NLP商业生态圈探讨垂直垂直领领域的域的 NLP公司公司金融机构金融机构(以(以银银行行为为主)主)公司公司/NLP生生态态服服务务商商分分词词词词向量向量NER合同合同对对比比 具有血具有血缘缘关系的第三方科技关系的第三方科技摘要自摘要自动输动输出出智能客服智能客服对话对话情感情感识别识别为保持竞争优势,具备多重产品需求的大型银行对于NLP相关 产品的系统更新意愿较为强烈,但这方面的费用过高,因此银 行会带着自研目的进行第一轮采购,吸纳项目技术,自我消化,以方便集中自己的科技人员来做系统更新,服务于自己的内部 部门,然后横向将能
32、力输出给其他银行2.自研自研结结果果由于体制与文化的局限性,银行难以直接成为NLP产品的 供应商,因而其会成立一个第三方公司来研发NLP技术与 产品。该公司不完全受银行控制,体制文化也相对开放,其为保持母公司在众多银行中的竞争优势,会持续与垂直 领域的NLP公司展开合作与交易,学习外部公司新技术。此外,银行甚至会投资、成立一些NLP技术的生态服务商,培育既懂技术又懂业务的行业深耕者。因此,在这样的生 态环境下,银行其实离不开NLP公司,很难说银行会抢走 NLP公司的“蛋糕”产产 品品 与与 能能 力力 输输 送送产产品与能力品与能力输输送送机器翻机器翻译译制定技制定技术标术标准与框架,准与框架
33、积积累累 套件,保有自身存量市套件,保有自身存量市场场RPA嵌入嵌入银行对NLP公司具有依赖性,双方互惠共存以银行为主体的金融机构在外采NLP相关产品时,一般都会带着自研的目的。其采购垂直领域的NLP公司的产品或解决方 案,对项目中的技术、经验、方法进行学习与吸纳,形成自研成果,从而服务于自身内部部门,然后横向输出给其他银行。这就会让部分垂直领域的NLP公司陷入疑问:银行若是学会了技术,自给自足,自己要如何保证市场份额与增量空间。事 实上,银行是离不开NLP公司的。由于体制与文化的局限性,银行难以直接将身份过渡为NLP产品的供应商,其往往会成 立一个需要持续对外学习新技术的第三方公司,或者投
34、资、成立一些NLP公司,以保证经济安全、便捷有效的NLP产品更 新替代,以及在众多银行中的业务竞争力。因此,垂直领域的NLP公司不必过于焦虑,其应继续深耕领域内的技术与业务 实力,保证自己的能力领先,才能够持续对银行输出,保有自己的“蛋糕”。四方共存的金融四方共存的金融NLP商商业业生生态态圈圈互互联联网大厂网大厂1.生生态态圈起源圈起源来源:研究院根据专家访谈自主研究绘制。332022.1.NLG大规模部署与多模态应用低代低代码软码软件件进进步步低代低代码码APaaS零代零代码码BPM其他其他低低 代代 码码 开开 发发 优优 势势通用性通用性低成本低成本联联通性通性高效率高效率灵活性灵活性
35、稳稳定性定性非开发人员通过拖拉拽构建应用减少人力成本与沟通成本支持跨平台部署,打通上 下游数据交付周期短,按需开发设计灵活应对快速开发和 敏捷变更代码结构化程度高,更容 易维护降降 低低 行行 业业 准准 入入 门门 槛槛引引 入入 多多 模模 态态多重多重识别识别技技术术NLG模型缺乏常模型缺乏常识识多模多模态态解决模型常解决模型常识问题识问题模型大模型大规规模模部部署署模型打模型打包包在在线线部部署署模型模型压压缩缩离离线线部部署署在各大下游行业进行大范围应用的时,尽管NLG已经基本解决了诸如语义不顺、语义不通、关联度不高等问题,文字输 出能力已经不断接近人类,但其仍然存 在一个难点模型缺
36、乏常识缺乏常识意味着模型的生成结果适应性 差、结果的可信度低。前者代表模型生 成的结果与场景需求不一致,后者则代 表推理结果与人的认知相违背从大规模部署到多模态应用,NLG模型起跑NLG(自然语言生成)是NLP(自然语言处理)领域的一个分支,区别于NLU(自然语言理解),其更侧重自然语言的表 述与输出过程,主要用于将文本、表格、图片或结构化数据,输出为一段准确且易于理解的文本描述。NLG的产品比 NLU更为深入与复杂,有较高的行业准入门槛,其基于NLU,对文本进行理解分析后,才能进行后续的文字、语言自动 化输出。无代码与低代码软件的进步降低了NLG的准入门槛,NLG的大规模部署由此得以展开。但
37、是,在模型进行大规模 部署时,模型的常识性往往偏离人类认知,导致结果适应性差、结果可信度低等问题,融合了图像、语音、文本、视频等 多重识别技术的多模态NLG模型也因此获得了研究者们的重视,成为一个值得尝试的、可行的方向。NLG大大规规模部署与多模模部署与多模态应态应用用产产生原因示意生原因示意图图图图像像视频视频语语音音文文本本多模态是计算机视觉、智能语音与NLP 之间的交叉研究领域,其典型应用为跨 模态识别与生成,即给定一张图片、一 段视频、一段语音即可生成对应的文本。融合图像、语音、文本、视频等多模态 的信息进行学习,更接近人类的认知方 式,输出的结果也会更贴近人的常识,单独出售NLG的产
38、品实际上很难实现,结合多模态技术,发展多模态产品,如NLG+CV,NLG+RPA等,是一个 可行的发展方向来源:研究院根据专家访谈、公开资料自主研究绘制。342022.1.2022.1.91可信人工智能的重要性升级来源:研究院根据信通院可信人工智能白皮书等公开资料自主研究绘制。可信AI将逐步成为行业规范化、技术商业化的关键助推器新一代人工智能技术迅猛发展,并向社会各个领域加速渗透,这给经济和社会发展带来了新的变革性机遇,也给人类生产 生活带来了深刻的变化,与此同时,科技伦理也成为了当前AI产业技术发展与产业应用中的“必答题”。如今,以中国、美国、欧盟为代表的AI产业领头羊均把确保AI安全、可靠
39、可控的可信人工智能放在了其AI伦理和治理的核心位置,发展 可信人工智能正在成为全球的共识。可信人工智能的核心原则是让AI应用满足可靠、安全、可解释、隐私保护、责任明确 等条件,是落实AI治理的重要实践,所遵循的可信特征与AI伦理和相关法律法规等要求一脉相承,均将以人为本作为其本 质要求。AI企业作为人工智能技术产品化的主体,在可信人工智能的发展实践中正发挥着日益积极的作用,谷歌、微软、百度、京东、旷视等一批国内外企业纷纷投身其中。科技巨头们在可信人工智能上的投入除承担社会公益和行业引领的责 任外,在AI商业化上面临越来越多的限制和挑战也是关键驱动因素。以可信人工智能所包含的隐私保护为例,部分
40、AI企业 在接受监管机构上市问询时,被重点要求说明其技术、业务及产品中涉及到数据应用的具体环节,相关数据来源与合规性,以及保证数据合规的具体措施等。这种自上而下的监管推动也将与企业内驱形成合力,共同推动可信人工智能的发展与实 践,可信人工智能也将成为AI产业下一阶段发展的重点。AI技技术术的的风险风险与可信与可信AI的愿景的愿景算法安全算法安全应应用用风险风险“黑箱黑箱”风险风险数据歧数据歧视风险视风险责责任主体界定任主体界定风险风险隐隐私泄露私泄露风险风险AI技术存在脆弱和易受攻击 的缺陷,使得AI系统可靠性 存疑深度学习具有高度复杂性和 不确定性,人们无法理解或 解释AI决策背后的原因训练
41、的数据存在偏见歧视导 致生成的算法模型失去客观 性和正当性AI系统自动化决策受众多因 素影响,使得责任主体难以 界定生物识别等信息的频繁使 用使得个人隐私数据泄露 的可能性增大可信AI技术与特征AI的系的系统稳统稳定技定技术术、可、可解解释释增增强强技技 术术、隐隐私保私保护护技技术术、公、公平平性技性技术术等等可靠可控、透明可可靠可控、透明可释释、数据保、数据保护护、明确明确责责任、多元包任、多元包容容92预训练大模型的商业化得更大的进步。随着大模型技术的演进,其商业化路径将逐渐清晰2021年是超大规模预训练模型的爆发之年,自2020年GPT-3横空出世,这个具有1750亿参数规模的预训练模
42、型所表现出 来的零样本与小样本学习能力刷新了人们的认知,也引爆了2021年AI大模型研究的热潮。谷歌、微软、英伟达、智源人 工智能研究院、阿里、百度、浪潮等国内外科技巨头和机构纷纷展开大模型研究和探索。大模型意在打造成为变革性产业 基础设施建设设施,是通过一个巨大的模型通用式的解决各个场景的AI解决方案,与弱人工智能时代为单个产品提供单个 解决方案模型的运作方式有着本质上的区别,相比于传统的AI解决方案,大模型不需要针对不同场景研制层出不穷的场景 模型,不需要从头开始训练,规模化的人工智能模型生产形成成本的边际效应,极大地节约了AI应用成本。作为探索通用 人工智能的路径之一,AI大模型本身是一
43、个可能产生原始创新与长期影响的领域,它的出现意味着“AI工业化”开发模式 的到来。尽管现阶段大模型处于发展初期,技术难度、资源消耗和收益模式均面临着诸多挑战,但随着大模型在技术上不 断地提升与演进,未来的AI大模型的商业化路径和收益将逐渐清晰,而站在巨人肩膀上的人工智能行业也会因大模型而取商业模式-多方受益多方受益以模型为为底底座座能力,可将模型以出出售售或或租租售售的方式提 供给科研创新中心、政府机构、行业友商、产业客户 等将能力开放提供开放提供给给ISV,由ISV去开拓更多的下游客 户,根据合作情况制定收费方式通过开源的方式开源的方式集合社区开发者,用众多开发者的力 量解决大模型复杂的技术
44、挑战,最终共享成果共享成果利用大模型的泛化能力加成自自身身AI产产品或解决方品或解决方案案的商的商业业化落地化落地能能力力02技术演进-全全链链把控把控工工程程化化:参数的规模不再是唯一追求点,大大规规模模分分布布 式式训训练练、并并行行计计算算、软软硬硬件件协协同同优优化化等能力的需求催 生大模型工程工程化化落地能力芯片芯片化化:模型的某些运算存运算存储储能能力力如芯片一样固固化化在端侧硬件设备中,减少算力与数据调用的消耗开源开源化化:算法体系、标准体系、基础平台、数据集、工程化测试等全方位的开全方位的开放放标标准准化化:逐渐标准化成熟的行行业业公公认认体体系系来衡量大模 型通用性、易用性多
45、多领领域域化化:具备不同不同领领域域的认知性,如从NLP领域向CV领域发展01技技术术演演进进与与优优化化进进一步加快大模型商一步加快大模型商业业化化预预期期来源:研究院根据公开资料自主研究绘制。AI大模型的技大模型的技术术演演进趋势进趋势与潜在商与潜在商业业模式模式2022.1.93人工智能基础层价值持续凸显来源:研究院结合公开资料自主研究绘制。识别业务识别业务 问题问题数据采集数据采集 标标注注数据治理数据治理特征工程特征工程模型模型训练训练模型模型评评估估 调优调优模型部署模型部署数据数据输输入入 运算运算运运维监维监控控支撑各类人工智能应用开发与运行的资源开发一项人工智能模型并上线应用
46、大致需经历业务理解、数据采标及标注、数据治理、模型训练、模型部署与测试、运维 监控等一系列流程。在该流程运行过程中,开发者往往会发现,模型运行不畅的原因正是数据、算法或算力的某一模块出 现了问题,如数据集缺失或数据标准不统一、算法不贴合实际业务导致输出结果准确性差、算力资源缺失等。围绕模型针 对性地调整与夯实数据、算法、算力三大人工智能基础层资源,才能缓解应用开发的痛点,加速模型的训练与推理,让AI 技术更便捷有效地封装到产品中,推动产品的商业化进展,而企业已经开始逐渐意识到这一点。人工智能未来的产业方向 将不仅局限于上层的应用开发,而且会愈发重视基础层的地位与价值。得到夯实与完善的基础层资源
47、会给予局部的应用开 发乃至全局的AI产业化更好更快的推动力。AI应应用开用开发发上上线线流程需要人工智能基流程需要人工智能基础层紧础层紧密支持密支持开开发态发态流程流程运行运行态态流程流程数据数据环环节节算法与模型算法与模型环环节节算力算力环环节节需需要要满足业务需求的数据 采集高效数据标注统一管理数据资产高质量数据集挖掘数据关联信息需需要要CPU、GPU容器服务 AI 专 用 芯 片;计算资源统一管理实 现 软 硬 一 体提高资源利用率优 化,突 破 性提高执行效率能瓶颈可视化建模、交互式建模、自动建模实现分布式训练框架;模型仓库管理提高算法建模效率;提供算法工程化服务易用的模型部署、运行监
48、控平台实现模型的持续集成、交付与部署需需要要基基 础础 层层 资资 源源应应 用用 开开 发发低低/无无 代代 码码AI开开 发发 平平 台台低/零代码开发,AI落地千行百业开创供给侧“规模生产”与需求侧“定向开发”的双赢局面一方面,企业对垂直行业的细分场景会产生大量长尾式需求,但在高昂定制化开发成本与高性价比追求的矛盾冲突下难以 被满足;另一方面,企业在数智化转型进程中,面对复杂多变的市场环境,也会诞生大量动态需求。面对碎片化、动态的 需求市场,供给侧可提供低/零代码AI开发平台,为企业创造低门槛甚至零门槛的开发环境,高效敏捷地响应企业碎片化、动态化的AI应用需求。借助流程性模块、功能插件和
49、AI功能套件等模块集合,AI应用开发将不再需要依赖专门技术人才去 实现,而是逐渐从专业开发者转移到更多业务人员的手中,让代码开发回归辅助角色,人的应用需求重获主导地位,开创 供给侧“规模生产”与需求侧“定向开发”的双赢局面。低低/零零AI开开发发平台的大平台的大环环境境趋势趋势与供需与供需赋赋能价能价值值企企业应业应用用发发展展趋势趋势纸纸电电子化子化信息化信息化数字化数字化数智化数智化开开发发技技术发术发展展趋势趋势算力算力发发展展趋势趋势机器机器码码汇编汇编语语言言高高级级 语语言言低代低代码码技技术术低代低代码码AI开开发发单单核核多核多核分布式分布式云云计计算算云云AI原原原原生生生生
50、供供给侧给侧:一定程度满足客户碎片化场景需求、规模化生产需求需求侧侧:资源高效利用、减少专业AI人才依赖、更符合自身需求的的定制开发、供需供需赋赋能价能价值值流程性模流程性模块块功能插件功能插件AI功能套件功能套件表表单设计单设计规则设计规则设计流程流程设计设计单单元格插件元格插件第三方插件第三方插件数据治理数据治理机器学机器学习习引擎引擎NLP能力能力流程性模块为低/零 代码平台的基础性功 能,无需编码开发即 可实现流程上设计,完成自主工作流安排基于AI应用需求插入第 三方功能插件,例如即 时通讯功能等厂商将AI能力 与项目经验沉 淀后封装成标 准化或半标的 可调用模块,嵌入开发平台 为上层






