人工智能核心技术产业白皮书!资本降温-白热化竞争来临.docx

资源描述

人工智能核心技术产业白皮书！资本降温，白热化竞争来临"陷入困境〃与〃高速发展，，，AI似乎走进了发展怪圈。编辑I智东西内参在过去一年中，人工智能的新算法不断涌现，深度学习仍是这一时期发展主线，尝试解决更为复杂的应用任务。人工智能的产业格局与生态体系更为明晰，开源开发框架格局逐步确立，以科技巨头引领的生态系统垂直整合速度不断加快；1、深度学习试图从多角度融合创新，开启认知时代仍在探索深度学习仍然是人工智能技术发展的主导路线。当前，基于大量标注数据进行训练是深度学习技术实际应用的主要路线，从1400余万幅图片的ImageNet数据集至2020年脸书和卡内基梅隆大学构建的超过130万种化合物分子间作用数据集Open Catalyst,模型训练所需标注数据普遍达十万以上。然而，这种路线在取得良好成效的同时，面临着严重依赖标注数据的问题，带来在更多细分场景中应用落地的局限性。业内不断拓展深度学习解决问题的边界，推动人工智能进入感知增强时代。人工智能纯粹使用有监督学习方式训练深度学习模型的时代基本结束，受限于对大量标注数据依赖与理解能力缺乏，这种路径难以解决更多应用问题。当前，感知增强时代拉开序幕，这一时期的新算法聚焦提升数据的质量和规模，通过迁移其他领域训练成果、自主生成或增强数据、依托知识图谱常识关系、利用多源数据等方式侧面弥补深度学习的局限性。深度强化学习、多模态学习等多元化的学习方式受到产业热捧，深度学习技术与知识工程、传统机器学习等分支的结合成为学界探索的热点新方向。深度学习加速探索与多元学习方式、多种技术分支的结合，少量数据训练、弱化人为干预以及多模态学习成为下一时期的发展关键。一是减少数据量依赖的少样本学习。少样本学习通过复用其他领域知识结构，使用少量数据对新领域进行训练，已进入初步应用阶段，如英伟达提出基于少样本学习的视频转化 (Few-shot vid2vid)框架，仅借助少量目标示例图像即可合成未出现过的目标或场景视频。二是弱化人为干预的自监督学习、强化学习。业内主流的有监督学习方式数据标注成本高昂，以机器翻译任务为例，市场人工翻译每单词平均价格约7.5美分，假设单个句子平均长度为30个单词，1000万个句子人工翻译标注的成本约为2200万美元；若需支持上百种语言的互译，人工标注训练集的成本将达上千亿美元。这种高昂的数据成本促使学产两界加速对深度强化学习、自监督学习等范式的探索。图灵奖获得者杨立昆(Yann LeCun)加速自监督学习的研究进程，通过从未标记的数据集中学习监督信息，提升数据无标注下的学习能力；DeepMind、 OpenAI等机构不断演进深度强化学习算法，试图显著提升智能体的自主决策和多智协同能力。三是提高应用场景复杂度的多模态学习。应用场景正从单一视觉、语音的感知向多模态理解侧重，复杂度不断提升，从多模态信息源中学习模态间关系成为焦点，如菜肴制作视频与菜谱文本步骤对齐、唇动视觉描述与语音信号融合预测单词等。深度学习技术正在不断挑战更为复杂的任务，扩展能够解决问题的边界。直面推理理解问题的算法路径尚无定论，距离认知时代到来仍需数年。从理论体系角度来看，深度学习的领军专家开始探索深度学习理论体系的新形态，反向传播、经典神经网络模型等己有基础理论受到质疑。目前，杰弗里•辛顿 (Geoffrey Hinton)提出替代深度神经网络(DNN)架构的胶囊网络，试图解决小样本问题。然而，胶囊网络虽连续三年推陈出新，但研究进程并非叠加式的演进，而是完全不同路径的替代。从学习方式角度来看，近一年来，强化学习实现通用智能的技术路径不再是业内共识，不依赖大量人工标注数据的自监督学习成为学习方式的新焦点，并在2020年ICML、 ICLR等全球人工智能学术会议上高频出现，已成为众多专家所关注的关键路径。然而，无论是深度学习体系的颠覆式创新，还是多种学习方式的不断尝试，具备理解能力的算法模型目前未有显现迹象，真正的认知时代到来仍未可知。 M2M-Y00 15OV. M2M-Y00 15OV. 有监僵 ①普遍使用有监督学习方式训练深度学习模型深度学习理论 VGG16 知识有监■学习；舞受限于依II大■标注数髭与就乏 f理MIE力，有监It学习难以解决更多应用问精 Op^AI GPT-3 1750亿 ②扩展至多元学习方式，并与其他技术分支交叉融合感知时代感知增强时代基础理论学习方式技术M合 ▲人工智能技术发展阶段2、任务场景愈加复杂，倒逼学习方式多元化发展有监督学习建立在严苛条件之上，己不能完全满足模型学习需求，面对更为复杂的任务场景，业内加速探索强化学习、自监督学习等多元学习方式，试图缩小与通用智能的距离。深度强化学习不断演进，加速提升自主决策能力。深度强化学习加速拓展任务边界，突破性解决多人棋牌、即时战略游戏等多智能体非完全信息博弈任务。目前，OpenAI、谷歌、微软等企业相继攻克即时战略、德州扑克、麻将等复杂游戏，并加速向无人机群体飞行等更为实际的应用场景拓展。另一方面，深度强化学习不断提升处理复杂任务的能力，逐步拓展芯片设计、音乐编曲等对知识技能要求更高的专业领域，如2020年谷歌研究人员利用深度强化学习优化设计芯片布局，达到PPA （功率、性能、面积）的最佳平衡，显著缩短设计时间；清华大学提出用于在线伴奏生成的深度强化学习算法，能够根据输入音乐实时生成伴奏。自监督学习成为最为活跃的学习方式。谷歌、脸书等多家企业先后发布使用自监督学习的算法模型，通过挖掘无标注数据的监督信息，显著减少人为干预，在自然语言理解（NLP）领域取得显著成效，如谷歌BERT、脸书RoBERTa、 OpenAI GPT-3等。目前，学产两界正在加速自监督学习在计算机视觉（CV）领域的突破创新，已在精细图像处理方面初步取得进展，如华盛顿大学利用自监督学习方式实现图像背景的前后景分离，精度达像素级别，可实现头发丝的精确分商。然而，尽管在自然语言理解、视觉处理等方面取得初步进展，现阶段自监督学习本质上仍依赖规范化、标签化的数据，主要借助预训练模型构造并学习数据特征，而非基于对数据内容和任务对象的深层次认知；真正理解数据内容的自监督学习尚未出现。 3、深度神经网络理论体系尝试颠覆性创新，多分支融合趋势渐显深度学习局限性日益凸显，理论体系探索革新。当前，以杰弗里•辛顿(Geoffrey Hinton)为代表的业内巨头持续推动理论体系的创新，其中，胶囊网络作为革新热点，试图解决数据依赖与不可解释问题；然而，历史上胶囊网络的三个版本更新大相径庭，尚未形成稳定的新形态架构，仍处于探索阶段。此外，以胶囊网络为核心的应用也在不断探索，2020年 Hinton团队提出一种用于机器学习安全领域的网络检测机制，显著提升攻击检出率；中佛罗里达大学学者提出胶囊路由方法，可通过输入句子查询视频中符合条件的人物及特定动作，但上述成果仍停留在研究阶段。深度神经网络与其他技术分支加速融合发展。人工智能头部企业、高校等开始摸索深度神经网络与知识图谱、传统机器学习等分支的融合创新。一方面，知识图谱试图在不颠覆深度学习理论的基础之下，弥补小样本训练与理解推理能力不足的技术天花板。目前，面向垂直领域的专业知识图谱加速发展，已在金融、医疗、司法多个行业初步应用，显著提升垂直行业应用中知识自动关联、自动获取的智能化水平。如金融消费领域，蚂蚊金融知识图谱平台已经广泛应用在蚂蚊内部以及合作伙伴的微贷、保险智能理赔和智能理财等业务领域中；药物研发领域，亚马逊开发药物重定位知识图谱 (DRKG)预测药物与疾病靶点结合的可能性，缩短药物研发周期并降低成本，已用于新冠病毒药物研发。另一方面，深度学习与传统机器学习融合已显现新的算法形态；贝叶斯深度学习成为热点方向之一，有效利用先验知识解决过拟合、小样本数据等问题，模型性能超越传统深度学习方法，如DeepMind提出贝叶斯RNN模型，图注释生成任务表现显著优于传统RNN模型；纽约大学和三星研究人员提出基于贝叶斯思想的深度学习不确定性表示方法SWAG,大幅提高模型泛化能力，在异常点检测、校准等计算机视觉任务上表现良好。 4、预训练模型加速演进，试图实现语言处理领域的通用智能预训练模型参数己至万亿级，训练成本之高几乎成为业内头部玩家的专属技术路径。202。年，OpenAI发布GPT-3模型，模型参数多达1750亿个，高达1200万美元的训练费用为预训练模型的构建构筑壁垒，中小型人工智能企业难以望其项背。2021年，谷歌发布SwitchTransformer模型，再次将模型参数推至1.6万亿新高。此外，微软宣布与OpenAI达成合作协议，获得GPT-3语言模型源码的独家授权，升级巨型模型的寡头格局形势，预示着未来超大规模预训练模型或将掌握在少数头部企业手中。预训练模型已进入可直接用于多种自然语言处理任务的“通用”智能阶段。预训练模型再次升级，头部人工智能企业先后发布通用预训练模型，可直接面向多种自然语言处理任务使用，不再需要针对不同任务进行微调。目前，谷歌T5、 OpenAI GPT-3等通用预训练模型进一步提升文本理解能力，在包含阅读理解、问答等任务的基准测试中接近人类水平。另一方面，通用预训练模型加速步入产业应用阶段，OpenAI 公司发布GPT-3商用应用程序接口（ API），提供问答、翻译、文本生成等服务，搜索服务提供商Algolia、社交媒体平台Reddit等多家企业巳开始使用。 5、模型小型化成为提升模型运行效率的关键深度学习模型效率提升成为应用落地的关键突破点。目前，深度学习模型的复杂度会随着模型精度的提升而提升，步入通过大幅增加计算量而获取高精度的时期。计算量的增长虽带来性能的提升，但高度复杂模型在硬件能力受限的设备上部署运行难度越来越大，以AIphaGo为例，每场比赛仅电费耗费就高达3000美元，模型运行性能与硬件能力的矛盾成为模型效率的关注重点。模型小型化成为提升模型运行效率的主要方向。目前，知识蒸偶、剪枝、量化等模型小型化的技术手段逐步成熟，主流模型可达儿十倍压缩率。如亚马逊利用知识蒸馄进行预训练，从BERT模型中提取压缩模型Bort,压缩后模型大小仅为BERT-large的6%, 推理速度提升七倍；麻省理工学院与上海交大的研究人员提出LiteTransformer,结合量化和剪枝技术将Transformer 模型压缩95%,加速在边缘设备上部署自然语言处理模型的应用进程。与此同时，开发框架中的模型压缩功能创新活跃，模型压缩己成为开发框架必不可少的关键能力，脸书、腾讯、谷歌等头部人工智能企业以及英伟达、英特尔等芯片大厂加速构建完善模型压缩能力，依托自身算法技术与硬件芯片优势，在其主导的TensorFloWx PyTorch、TensorRT等开发框架中提供剪枝、量化等算法压缩工具，并针对GPU、CPU等硬件芯片进行特定压缩优化。 6、深度学习应用加速推动智能计算革命深度学习应用加速推动云端计算范式进入高性能计算时代。深度学习训练效果高度依赖计算资源和数据质量，追求大规模高速处理能力。当前，全球最大规模的训练模型所需算力每年增长幅度高达io倍。同时，产业发展重心开始转变，企业比拼重点从单项技术的 “理论”准确率转向应用场景白热化的“跑马圈地人工智能的技术应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域，以空前的广度和深度推动社会发展。然而，由于人工智能技术成熟周期相对较长，产业发展速度不及资本市场预期，资本热度开始减退。人工智能产业似乎显现出“陷入困境”与 “高速发展”的矛盾现象。本期的智能内参，我们推荐中国信通院的报告《人工智能核心技术产业白皮书》，探讨以深度学习技术为主要驱动力的人工智能发展状况、技术创新重点与产业发展趋势，总结十三五期间我国发展情况，提出十四五期间的发展方向与机遇。本期内参来源：中国信通院原标题：《人工智能核心技术产业白皮书》作者：未注明谷歌曾预测，如所有用户每天使用3分钟语音搜索功能，基于传统CPU的数据中心算力就必须提升一倍，对算力需求快速增长的预期也促使谷歌加速研发针对人工智能应用更有优势的张量处理器。随着深度学习模型结构日益复杂以及训练样本规模持续扩大，算力需求与日俱增，对云侧计算性能提出更高要求。计算模式走向云边协同，端侧场景化算力成爆发新方向。在去中心化的计算形态下，自动驾驶、工业智能、智慧城市等边缘场景产生出大量的算力需求，边缘智能设备需要通过芯片架构、编程模型、专用加速库以及软件框架等多个环节与特定应用深度融合，实现边缘计算平台全栈能力升级，以满足低功耗、实时性、可靠性和安全性等复杂边缘场景需求。预计未来三年，面向工业电子、汽车电子和传统消费电子应用等场景化智能计算芯片增长迅速，市场容量年复增长率高达100%以上，成为推动智能芯片产业主要驱动力量。 03.人工智能产业发展趋势1、从谋求单点技术的“极致”，向场景化综合生态发展单项技术的“理论''准确率不再是智能企业的比拼重点，产业进入应用场景”跑马圈地”新阶段。人工智能企业单点技术标签化的特点逐步弱化，企业加速进入实质应用转化阶段，人工智能技术服务企业的变化尤为凸显。如旷视、商汤、科大讯飞等企业已将重心从视觉、语音等技术转移至社会治理、供应链物流、生活消费等领域的软硬件解决方案，从而催生出旷视天元、商汤SenseParrots等开发框架和基础技术服务平台。目前，以物流、零售、公共安全等为代表的先导应用领域“跑马圈地”持续白热化。旷视升级发布机器人仓储物流软件平台“河图2.0”，并计划投入2()亿元与合作伙伴搭建完整的机器人行业解决方案；商汤持续推进城市级开放平台方舟 (SenseFoundry)在城市域落地，已覆盖全国31个省市、近100座城市，总计接入摄像头十万路；云从推出“云从起云智慧Mall”运营平台，聚焦新零售领域帮助商业地产拥有者进行决策，实现精细化运营。场景化综合生态模式开始清晰，与“类”安卓开发者生态共同驱动产业发展。一方面，“类”安卓开发者生态模式逐步成熟，头部智能企业延续移动互联网典型发展模式，以微服务形式提供视觉、语音等技术服务，凭借第三方开发者来构建多样化的智能应用，大幅提升开发的易用性。另一方面，纯粹基础技术输出难以完全满足智能技术与各行业深度融合和应用落地，主要有三方面挑战：一是需要与行业专有知识深度结合；二是场景碎片化特征突出；三是使用标准数据集训练的图像识别、对话系统在实际行业场景中泛化能力不足，需基于实际场景数据进行二次训练和优化处理，这些均导致开发周期较长和开发成本居高不下。因此，头部智能企业认识到智能技术与传统行业的深度融合应用需要构建新的发展模式。一是加速打造提供模型选择、训练、部署监测等一体化的研发平台，奠定智能技术渗透至各行业规模化应用的基础；二是面向工业、农业、金融、公共安全等行业领域构建多样化行业技术服务及解决方案平台，将行业特有数据、专业知识、业务流程与智能技术进行深度融合；发展速度较快的公共安全、医疗、智能驾驶等领域已初步形成垂直行业平台，提供相对通用的行业应用服务。在此基础之上，智能音箱、智能录音笔、安防无人机等垂直行业智能产品不断涌现，场景化综合生态正在形成。 2、以科技巨头引领的产业垂直整合速度不断加快在过去的一年中，由于人工智能发展所需算力、算法、数据等要素的高位起点以及硬件、软件框架、平台等核心环节间的紧耦合衔接特点，使得谷歌、微软等科技巨头生态系统的垂直整合引领产业整体发展；产业垂直一体化的趋势不断加强，计算支撑、软件框架、研发平台等核心环节基本被老牌科技巨头所把持。算力、软件框架、研发平台、技术服务的纵向一体化几乎成为全球头部科技企业的共识。人工智能硬件、算法、软件平台与行业应用场景的结合紧密度空前，驱使不同环节具备点状竞争力的科技巨头争相探索行业实际应用需求。目前，产业仍为早期发展阶段，任何一个环节的水平化都尚未完全确立，过去以通用基础能力自居的芯片企业、云计算企业，抑或是具有技术独到优势的互联网企业都难以将自身的优势能力直接渗透至复杂多变的行业应用场景中来。因此，科技巨头加速从自身优势能力出发，延伸至行业应用的多个中间环节，试图以这种方式准确把握智能时代的需求方向；在持续保持自身己有优势的同时，布局支撑行业应用的多个核心环节，巩固其生态系统在人工智能时期的领导地位。亚马逊、微软等云服务企业不断强化其智能服务能力，紧抓面向基础技术服务、研发训练与推理等智能计算需求，通过布局研发平台、开源开发框架等技术生产工具，以及更为底层的专用硬件及芯片，提升其智能计算服务的竞争力；谷歌、百度等AI技术优势显著的互联网头部企业基于先进算法和技术优势布局开源框架，并以此为核心上下延伸，构建智能服务生态体系。以英伟达为代表的AI芯片巨头加速提升面向智能任务的芯片性能，积极丰富性能库、编译器、编程框架等软件配套，通过多样化方式壮大开发者社区及产业合作伙伴规模，力图构建软硬协同的产业生态体系。云H务亚马进|微软云H务亚马进|微软云H务亚马进|微软云H务亚马进|微软云H务亚马进|微软云H务亚马进|微软 AI技术谷歌|百度芯片英伟达 ITI 技术生产工只 ▲垂直-•体化布局3、开发框架格局逐步清晰，已从百花齐放向几家分争转变以谷歌TensorFlow、脸书PyTorch等为代表的开源框架格局初显清晰，框架格局己从百花齐放转向几家分争。目前，业界开源开发框架主导权基本被TensorFlow（谷歌）、 PyTorch（脸书）等掌握；微软CNTK、日本初创企业首选网络（preferred networks） Chainer> 加拿大蒙特利尔大学主导的Theano等早期热点框架已通过与主流框架合并或直接停止更新的方式退出历史舞台。 TensorFlow依托工业界的部署优势持续位于第一，市场关注度达15万,超过第二名3倍以上，脸书的PyTorch （合并Caffe2）凭借其易用性迅速突起，在各大顶级学术会议论文中占比超过50%,有赶超势头。同时，我国正在快速进行开源开发框架的系统化布局，百度飞桨、旷视 MegEngine＞华为MindSpore、清华大学Jittor等国产框架加速升级，其中，百度飞桨作为最早推出的开放框架之一，己初步应用于工业、农业、服务业等业务场景，服务230余万开发者，整体应用广度和深度正在不断成熟和完善。发起主体框架名称 Google V 2019.10 魅版本 2015 W52017«Keras«1.0IS本为默认K级接口 Facebook pytorch2017.1 发布 Pytorch2018.12 发布 Pytorchl.O amazon @xnet 2015.9发布2017年布届 Gluon^D I" Microsoft 偷 kMila2007年诞生早臃般-瞄 ChamerJ KONOurr 套 DL4J2016年发布2017年宣布停止更新2019年宣布q2015年发布2019年宣布＜1转向PyToi2014.6发布 KFJava 和 Scala ▲主要开源框架活跃情况端侧推理框架遇碎片化挑战。随着各行业终端智能化需求加速增加，算法模型的终端推理性能引起业内重视。目前，推理框架面临碎片化挑战，一方面，计算终端所使用的芯片类型多样，CPU、GPU虽为主流架构，但NPU、DSP、FPGA 等多样的人工智能芯片也在不断涌现，终端推理框架对底层硬件的适配难以统一；另一方面，算法架构尚不稳定，算子（卷积、激活函数-ReLU等）及组合方式的多样化和持续演化使得单一的推理框架短时间内难以覆盖所有的可能性，推理框架显现出各为其主的发展格局。序号关注度活跃度 ■ ■ 1 TensorFlow 150k 99600+ 2 PyTorch 43. 9k 31400+ 3 MXNet 19. Ik 11400+ 4 CNTK 16. 9k 16100+ 5 PaddlePaddle 13. 3k 28900+ 6 DL4J 11.8k 1000+ 7 Theano 9. 3k 28100+ 端侧推理框架处于多元化发展阶段。谷歌、脸书主导的头部开源开发框架加大训练、推理一体化的布局力度，但推理部分在终端侧市场占比不高。目前，业内涌现了一批各具特色的终端推理框架，如阿里提出MNN框架，集成在手淘、优酷、飞猪等20余终端应用中，实现互动营销、实人认证、试妆等功能；小米构建Mace框架，在小米手机中的相机场景识别、人像模式、人脸解锁等诸多场景中进行应用。但由于硬件芯片、软件算法仍在快速发展，推理框架预计将在很长一段时间难以统一，或始终处于多元发展的格局。开源开发框架竞争焦点从模型库转移至易用性和硬件适配优化。高级语言接口与硬件适配优化成为开源框架构筑壁垒的关键，一方面，高级语言接口封装后端框架中关键的模型构建、训练等功能，降低研发门槛。目前，三大主流框架加速绑定或构建高级语言接口，已出现合作圈地现象。 TensorFlow与keras形成排他性合作，提升框架易用竞争力，与近期以易用性为优势快速提升地位的PyTorch抗衡; MXNet与Gluon联合，由亚马逊与微软共同维护； PyTorch（脸书）以Torch和Caffe2作为后端框架，内部先天构筑高级语言接口。另一方面，硬件适配优化试图解决多样硬件编译工具导致的适配复杂和性能参差不齐问题，统一编译工具与编译语言成为主流开源开发框架的布局重点。目前，谷歌、脸书加01.人工智能核心技术产业发展总体态势1、深度学习技术进入升级优化阶段人工智能技术体系与产业体系错位发展，深度学习理论突破速度逐步放缓，产业开始步入高速发展阶段。目前，本轮深度学习理论突破速度开始放缓，技术红利的持续释放驱动图像分类、机器翻译等多类感知任务准确率大幅增长，步入升级优化期。人工智能本轮爆发初期主要在探讨算法理论的可能性，聚焦探索强化学习、迁移学习等新的学习方式以及 AlexNet、VGG、GoogLeNet等结构多样的算法模型；算法理论的不确定性和技术的不成熟耗费产业界大量精力和时间，阻碍人工智能大规模应用进程。目前，产业开始步入高速发展时期，2020年技术标志性生产工具TensorFlow框架下载量爆发式增长，仅一个月1 超1000万次，占发布四年半下载总量（1个亿+ ）的十分之一；同时，技术成本快速下降，同等算法水平所需计算量每八个月降低一倍，成本降低百倍，业内涌现出研发平速构建统一的编译语言（IR）,试图引导硬件厂商主动适配，获取框架适配的话语权。 4、以研发和技术服务为核心，产业开始打造平台化发展模式平台化发展速度不断加快。当前，人工智能平台发展步伐加快，2020年上半年我国人工智能研发平台市场规模达1.4 亿美元，复合增长率超30%12；头部智能技术服务平台的单日调用次数已过万亿次，如阿里云AI服务的日调用规模超1万亿次，日处理图像10亿张，百度大脑已对外开放了 270多项A1能力，日调用量突破1万亿次。与此同时，人工智能的平台生态规模不断扩大，如讯飞开放平台聚集超过175.6万开发者团队，累计支持超过28.9亿终端;腾讯AI开放平台己服务全球用户数超12亿，客户数超200万。云服务厂商积极主导人工智能研发平台发展。云服务厂商主导人工智能研发平台的发展，亚马逊、微软、谷歌等拥有云计算业务的企业加速布局人工智能研发平台，其中，亚马逊 SageMaker平台最为成熟，份额高于后两者近两倍，占据全球TensorFlow负载八成以上；H2O.ai、DataRobot等研发平台创新企业不断出现，成为资本市场的追捧对象，人工智能研发平台的发展空前繁荣。技术工具链成为研发平台的竞争核心。目前，研发平台整体呈现三类发展特点：一是工具体系化，打造全面的技术工具链成为了这一时期研发平台的竞争核心，技术工具链提供数据处理、模型构建、部署、监测分析等全生命周期的工具服务，如 SageMaker Autopilot> 谷歌 AutoML、微软 MLOps 等；二是开放框架开放化，研发平台基本均同时支持 TensorFlow> PyTorch> MXNet等多个主流框架；三是分布式计算不断优化，研发平台围绕人工智能技术的特点和开发框架对自身的云计算架构进行深度优化，如SageMaker 在256个GPU下的TensorFlow扩展效率可达90%,并同时支持多种类型人工智能芯片。基础技术服务平台走向成熟，已形成涵盖多种基础技术的综合性平台。包含视觉、语音、自然语言处理等智能技术服务能力的基础技术平台是人工智能产业形成最早的平台形态，产业主体主要包括谷歌、微软、亚马逊等拥有云计算业务的厂商和科大讯飞、旷视科技等人工智能技术服务厂商，前者构建的基础技术服务平台在布局初期即向涵盖多种技术能力的综合性平台发展，后者早期主要依托自身某一类技术优势开展平台建设，如科大讯飞侧里语音文本，旷视则侧重视觉处理。目前，业内的基础技术服务平台形态基本成熟，领先平台基本同时包含多类技术能力。究其原因，一方面是由于基础技术能力的构建不再神秘，一家技术厂商同时拥有视觉、文本等能力的难度大幅降低；另一方面则是行业应用场景常常需视觉、语音等多种技术共同支撑，单一类型的技术服务平台不再适合目前的应用需求。垂直行业技术服务平台发展处于早期阶段，尚未形成规模发展。除研发平台显著降低技术与垂直行业融合成本外，垂直行业技术服务平台成为另一种重要平台形态；平台把垂直行业中的关键场景、相对通用的应用技术总结提炼，进而复制推广。目前，业内主流的垂直行业技术平台存在技术服务直接输出和提供关键应用场景解决方案两种服务形态，但均未形成规模。一方面，技术服务直接输出的形态（应用程序接口）一般面向具有成熟应用软件环节的垂直行业，由平台技术服务直接支撑下游软件集成商；此类垂直行业的应用软件环节通常进入门槛较高，或者市场空间有限，因此，人工智能技术企业缺乏与原有产业链软件集成商抢夺市场的动力。另一方面，人工智能技术与垂直行业应用的融合对软件、智能技术、底层硬件等多个环节均提出差异化需求，驱使面向关键行业的多样化全栈解决方案不断涌现。垂直行业技术服务平台通过提供整体方案的选型和设计，同时直接提供智能技术、软件等方案中的某儿种能力，推动智能技术与垂直行业场景的快速融合，如自动驾驶领域的Apollo平台提供雷达、摄像头等硬件选型，高精度地图、路线规划等智能软件为一体的解决方案。 5、智能计算产业形态初显，呈现蓬勃发展态势智能计算己初步形成智能芯片、软硬协同、多样化算力供给模式的产业形态。目前，人工智能芯片架构百花齐放，云侧虽仍以GPU为主，但端侧涌现出面向不同场景的芯片架构，英伟达、英特尔等芯片厂商面向人工智能应用的软硬件工具生态日益完善，面向深度学习的大规模分布式计算平台不断成熟，云智能服务、公共智能超算中心、自建数据中心等多种计算供给模式逐步形成。云侧智能芯片市场仍以英伟达为主导，云服务提供商及初创企业正在持续加大布局力度。传统芯片厂商英伟达加速提升其并行计算能力的优势和多线程并行软件开发生态的壁垒， 2020年推出A100芯片，晶体管数量达540亿，自然语言处理模型BERT训练性能较上一代V10()提升6倍。谷歌、百度等云服务提供商加速升级基于各自工作负载需求的智能芯片，2020年，谷歌发布第四代TPU,平均性能是上一代的2.7倍；百度昆仑1量产，百度搜索引擎及云计算方面部署2万片。另外，Cerebras, Graphcore等初创公司布局新架构智能芯片，部分应用的运行性能优于英伟达GPU,但这类芯片仅能提供有限的软件堆栈，面临一定的市场推广阻碍。端侧多元化应用催生大量创新探索，传统芯片企业和终端企业相对领先。汽车电子和嵌入式消费电子是这一时期端侧智能芯片创新热点。其中，2020年英伟达和英特尔在汽车智能芯片方面持续位于领先位置，英伟达围绕自动驾驶SoC Orin芯片，与理想汽车、奔驰等多家车厂展开合作；吉利概念车则将搭载英特尔EyeQ5芯片；恩智浦、瑞萨和东芝等成熟汽车电子供应商，黑芝麻、地平线机器人等初创企业，以及特斯拉等汽车制造商积极研发自动驾驶汽车芯片，试图与英伟达和英特尔双巨头争夺市场份额。相比之下，端侧嵌入式消费电子类市场软硬件成本以及供应链准入门槛较低，大量初创企业以不同的细分赛道加入市场竞争，其中智能手机神经网络加速芯片市场仍以高通等传统移动芯片企业和终端品牌企业为主，众多初创企业主要集中在视觉和语音处理领域，包括NovuMind、Syntiant等。围绕智能计算芯片的软件工具开始从基础计算向场景计算转变。早期，以英伟达为代表的芯片企业不断构建以 CUDA编程模型为核心的高性能算子库、通信算法、推理加速引擎等多层次基础软件工具生态。当前，随着智能技术在传统行业中渗透的不断深入，头部智能芯片企业开始构建面向差异化场景的软硬一体平台，实现底层芯片、编程框架、行业算法库、细分场景研发平台等全栈高效整合，试图培育多样化行业场景的计算生态、抢占细分市场。例如，2020年，英伟达围绕机器人和自动驾驶场景，打造 Jarvis对话系统、ISAAC机器人等软硬一体计算平台，宝马公司使用英伟达ISSAC机器人平台、Jetson AGX Xavier 芯片平台以及EGX边缘计算机，开发包括导航、操控等五款机器人，依托深度神经网络实现感知环境、检测物体、自动导航等功能以改进物流工作流程。多样化算力供给模式开始显现。目前，云、边、端成为算力供给的主要形态。其中，云侧算力主要以云智能服务、公共智能超算中心和自建数据中心三类供给模式为主，亚马逊、阿里云等云计算企业以云智能服务模式向中小型企业及个人售卖AI算力资源和技术服务，是目前最为主流的供给模式；公共智能超算中心逐步兴起，上海、深圳、重庆等多地开始投建公共智能超算中心，这类中心目前主要以政府主导建设为主，支撑本地企业、科研机构和高校的人工智能技术与应用创新，缓解地方企业及机构算力资源不足、成本较高等问题，推动区域人工智能产业的发展；此外，谷歌、脸书等头部企业通过自建专有智能计算集群的形式提升自身业务运行性能，部分企业根据业务特点研发人工智能专用芯片，试图大幅度降低算力成本。与此同时，边缘与端侧计算模式成为热点，英特尔、英伟达等硬件芯片企业加大边缘智能专用加速产品的布局力度，面向工业、交通等云边协同场景提供解决方案；寒武纪、地平线、云知声等企业聚焦面向视觉、语音等智能任务的端侧芯片研发，在无人机、可穿戴设备、智能摄像头等智能终端中已显现规模化应用态势。 6、全球数据鸿沟仍在加大，开放共享机制与数据服务能力加速构建数据鸿沟问题愈加凸显，开放共享仍在探索阶段。全球数字化加速数据生成和积累，数据资产对全球经济利益的分配已开始产生影响。“大规模数据一更准确模型一更好产品一更多用户一更多数据''的循环逻辑将导致数据定向收拢聚集，人工智能数据资产已开始出现寡头垄断的态势；互联网产生的数据资产半数集中在仅100家左右的少数头部企业中，影响全球人工智能经济利益的分配。据统计，人工智能产生的经济价值中约有70%会累积到中美两个国家，而若推动数据资产的全球化，大多数国家有望将GDP提升1% 至 2.5%0当前，各国政府、头部企业持续推动数据的开放共享，数据原则、数据合作、数据规范与数据共享平台成为重点。政府积极推动数据开放共享原则，注重在保护隐私和公开透明原则下进行数据开放。欧盟率先出台《通用数据保护条例》对涉及隐私的敏感数据做出严格要求；英国、法国、瑞典等国纷纷跟进修订或新增；美国以原则倡议为主，政府先行数据开放，通用数据法案仍在制定中。头部科技企业出于商业利益考量，对数据开放持谨慎态度；目前，微软试图打破这一局面，发起开放数据运动（Open Data Campaign）,提出开放、可用、授权、安全、隐私五大原则，鼓励数据互联互通，承诺围绕健康、环境和各种社会公益项目等问题共享数据，但尚未开放其产生利润专有数据集。跨领域数据合作也成为这一时期的热点，其中垂直行业企业最为积极，数据合作已从点状互惠向有组织的开放共享方向发展。微软、Adobe和SAP联手构建数据共享联盟，通过通用数据模型将数据存储在统一的数据湖中实现共享，吸引安永、飞思创（Finastra）等多行业企业共同加入。同时，数据规范与开放协议尤为重要，国家标准化组织密切关注数据隐私问题，企业也在自发建立数据开放协议或规范，如IEEE P7002数据隐私处理标准、ISO 27701隐私信息管理体系、微软AI模型数据使用协议（DUA-OAI）等。此外，谷歌、微软等科技头部企业推出Datasel search、 Research Open Data等自动化数据搜索平台，进一步降低数据获取难度，打造更加开发便捷的数据生态。数据集建设需求更为专业。监督学习仍是产业界人工智能算法训练的主要方式，因此大规模、高质量的人工标注数据集是产业发展刚需。目前，数据标注从简单、重复的拉框标注向精细化方向发展，呈现三类发展特点：一是数据标注流程趋于智能化，通过预标注技术和半自动化校验的方式辅助人工标注己成为当前发展重点，业内涌现出一批标注工具，可对未标记图像直接生成分割轮廓，并借助人工进行微调；二是标注数据质量要求不断提升，自动驾驶、工业制造等智能任务场景愈之复杂，高质量、精细化的标注数据直接影响算法鲁棒性和准确性，标注准确率需求从90%提升至 99%；三是医疗、工业等差异化垂直应用驱动数据标注服务进一步贴合个性化、多元化的场景需求，如数据服务企业Scale AI 为自动驾驶场景提供标注服务，对车道、烟尘、尾气、雨水等更为个性化的目标物体进行标注。具有智能标注能力的数据服务企业受到资本热捧。以数据标注为代表的基础数据服务市场规模快速增长，资本市场进一步推高专业数据标注企业的估值。2020年，专业数据标注台、技术服务平台等多样化的平台形态，工程技术正在引领产业快速发展。 2、寒冬并非低谷，产业生态已现加速构建态势资本寒冬己经出现。其中，预期过高是主要原因。人工智能企业增速明显放缓，2019、2020年全球每年新增人工智能企业数量已不足100家，且投融资的轮次后移趋势不断扩大。2020年B轮及以上融资笔数占总笔数的62.3%，较上一年增长40%以上。同时，曾获大笔融资的知名创新企业由于预期过高、虚假宣传等原因退出产业舞台。曾对标英特尔的芯片企业Wave Computing,是人工智能计算领域最受关注的独角兽之一，2020年4月由于数据流处理器性能不达预期而宣告破产；智能会计工具ScaleFactor宣称利用人工智能技术自动化生成财务报表，但实际却部分采用人工外包方式处理，在融资1亿美元后于2020年3月宣告倒闭。此外，资本早期对人工智能产业

展开阅读全文