收藏 分销(赏)

AI芯片产业生态梳理.ppt

上传人:精**** 文档编号:10295109 上传时间:2025-05-18 格式:PPT 页数:23 大小:3.65MB
下载 相关 举报
AI芯片产业生态梳理.ppt_第1页
第1页 / 共23页
AI芯片产业生态梳理.ppt_第2页
第2页 / 共23页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,Page,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,单击此处编辑母版标题样式,Page,1,目录,AI,芯片分类,1,AI,芯片产业生态,2,中国,AI,芯片公司,3,4,Page,2,AI,芯片分类,从功能上分,Training,训练,通过大量的数据输入或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型,涉及海量的训练数据和复杂的深度神经网络结构,,运算量巨大,需要庞大的计算规模,,对于处理器的计算能力、精度、可扩展性等性能要求很高,主要使用,NVIDIA,的,GPU,集群来完成,,Google,自主研发的,ASIC,芯片,TPU2.0,也支持训练环节的深度网络加速,Inference,推理,利用训练好的模型,使用新的数据去“推理”出各种结论,,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。,Inference,的计算量相比,Training,少很多,但仍然涉及大量的矩阵运算。,在推理环节,,GPU,、,FPGA,和,ASIC,都有很多应用价值。,可以分为,Training(,训练,),和,Inference(,推理,),两个环节,Page,3,AI,芯片分类,从应用场景分,Cloud/DataCenter,云端,在深度学习的,Training,阶段,由于对数据量及运算量需求巨大,,单一处理器几乎不可能独立完成一个模型的训练过程,,Training,环节目前只能在云端实现,在设备端做,Training,目前还不是实际。,在,Inference,阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是,计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目,前在人工智能应用中需求更为明显。,GPU,、,FPGA,、,ASIC(Google TPU1.0/2.0),等都已应用于云端,Inference,环境。,Device/Embedded,设备端,在设备端,Inference,领域,智能终端数量庞大且需求差异较大,,如高级辅助驾驶,ADAS,、虚拟现实,VR,等设备对实时性要求很高,推理过程不能交由云端完成,,要求终端设备本身需要具备足够的推理计算能力,,一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。,可以分成“,Cloud/DataCenter(,云端,)”,和“,Device/Embedded(,设备端,)”,两大类,Page,6,AI,芯片产业生态,Inference,On Device,设备端推理,Mobile,ADAS,CV,NLP,VR,Inference,On Cloud,云端推理,GPU,FPGA,ASIC,Training,On Cloud,云端训练,GPU,ASIC,TPU1.0/2.0,TPU2.0,Training,On Device,设备端训练,?,Page,7,Training,训练,CPU VS,GPU,架构,Control,ALU,ALU,ALU,ALU,Cache,DRAM,DRAM,CPU,GPU,Page,8,CPU,和,GPU,对比说明,CPU,架构,2007,年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的,CPU,芯片即可提供足够的计算能力。,Google Brain,项目,使用包含,16000,个,CPU,核的并行计算平台,训练超过,10,亿个神经元的深度神经网络。,CPU,的串行结构并不适用于深度学习所需的海量数据运算需求,,用,CPU,做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有,429,个神经元的输入层,整个网络拥有,156M,个参数,训练时间超过,75,天。,在内部结构上,,CPU,中,70%,晶体管都是用来构建,Cache(,高速缓冲存储器,),和一部分控制单元,负责逻辑运算的部分,(ALU,模块,),并不多,指令执行是一条接一条的串行过程。,GPU,架构,GPU,整个就是一个庞大的计算矩阵,,GPU,具有数以千计的计算核心、可实现,10-100,倍应用吞吐量,,还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。,GPU,由并行计算单元和控制单元以及存储单元构成,拥有大量的核,(,多达几千个,),和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同,CPU,不同的是,,GPU,的计算单元明显增多,特别适合大规模并行计算。,Page,9,通用计算,GPUNVIDIA,一家独大,2010,年,NVIDIA,就开始布局人工智能产品,,2014,年发布了新一代,PASCAL GPU,芯片架构,这是,NVIDIA,的第五代,GPU,架构,也是首个为深度学习而设计的,GPU,,它支持所有主流的深度学习计算框架。,2016,年上半年,,NVIDIA,又针对神经网络训练过程推出了基于,PASCAL,架构的,TESLA P100,芯片以及相应的超级计算机,DGX-1,。,DGX-1,包含,TESLA P100 GPU,加速器,采用,NVLINK,互联技术,软件堆栈包含主要深度学习框架、深度学习,SDK,、,DIGITS GPU,训练系统、驱动程序和,CUDA,,能够快速设计深度神经网络,(DNN),,拥有高达,170TFLOPS,的半精度浮点运算能力,相当于,250,台传统服务器,可以将深度学习的训练速度加快,75,倍,将,CPU,性能提升,56,倍,。,Page,10,Training,市场,NVIDIA,竞争对手,Google,Training,市场目前能与,NVIDIA,竞争的就是,Google,。,今年,5,月份,Google,发布了,TPU 2.0,,,TPU(TensorProcessing Unit),是,Google,研发的一款针对深度学习加速的,ASIC,芯片,第一代,TPU,仅能用于推理,而目前发布的,TPU 2.0,既可以用于训练神经网络,又可以用于推理。,TPU2.0,包括了四个芯片,每秒可处理,180,万亿次浮点运算。,Google,还找到一种方法,使用新的计算机网络将,64,个,TPU,组合到一起,升级为所谓的,TPU Pods,,可提供大约,11500,万亿次浮点运算能力。,Google,表示,公司新的深度学习翻译模型如果在,32,块性能最好的,GPU,上训练,需要一整天的时间,而八分之一个,TPU Pod,就能在,6,个小时内完成同样的任务。,目前,Google,并不直接出售,TPU,芯片,而是结合其开源深度学习框架,TensorFlow,为,AI,开发者提供,TPU,云加速的服务,以此发展,TPU2,的应用和生态,比如,TPU2,同时发布的,TensorFlow Research Cloud(TFRC),。,Page,11,传统,CPU/GPU,厂家也进入,Training,市场,传统,CPU/GPU,厂家,Intel,和,AMD,也在努力进入这,Training,市场,如,Intel,推出的,Xeon Phi+Nervana,方案,,AMD,的下一代,VEGA,架构,GPU,芯片等,但从目前市场进展来看很难对,NVIDIA,构成威胁。,初创公司中,英国,Graphcore,公司,的,IPU,处理器,(IntelligenceProcessing Unit),据介绍也同时支持,Training,和,Inference,。该,IPU,采用同构多核架构,有超过,1000,个独立的处理器;支持,All-to-All,的核间通信,采用,BulkSynchronous Parallel,的同步计算模型;采用大量片上,Memory,,不直接连接,DRAM,。,总之,对于云端的,Training(,也包括,Inference),系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。,NVIDIA,的,CUDA+GPU,、,Google,的,TensorFlow+TPU2.0,,巨头的竞争也才刚刚开始。,Intel Xeon Phi+,Nervana,AMD,下一代,VEGA,架构,GPU,芯片,Page,12,Inference On Cloud,云端推理,FPGA,应用,相对于,Training,市场上,NVIDIA,的一家独大,,Inference,市场竞争则更为分散。,业界所说的深度学习市场占比,(Training,占,5%,,,Inference,占,95%),,,Inference,市场竞争必然会更为激烈。,在云端推理环节,虽然,GPU,仍有应用,但并不是最优选择,更多的是采用异构计算方案,(CPU/GPU+FPGA/ASIC),来完成云端推理任务。,FPGA,领域,四大厂商,(Xilinx/Altera/Lattice/Microsemi),中的,Xilinx,和,Altera,(被,Intel,收购)在云端加速领域优势明显。,Altera,在,2015,年,12,月被,Intel,收购,随后推出了,Xeon+FPGA,的云端方案,同时与,Azure,、腾讯云、阿里云等均有合作;,Xilinx,则与,IBM,、百度云、,AWS,、腾讯云合作较深入,另外,Xilinx,还战略投资了国内,AI,芯片初创公司深鉴科技。目前来看,云端加速领域其他,FPGA,厂商与,Xilinx,和,Altera,还有很大差距。,Page,13,Inference On Cloud,云端推理,FPGA,应用,时间,公司,内容,2015/06/10,IBM,在,IBM POWER,系统上运用,Xilinx FPGA,加速工作负载处理技术,2016/03/23,Facebook,Facebook,开始采用,CPU+FPGA,服务器,2016/09/30,微软,微软开始使用,FPGA,加速,Bing,搜索和,Azure,云计算,2016/11/30,亚马逊,AWS,亚马逊,AWS,推出,FPGA,云服务,EC2 F1,2017/01/20,腾讯云,腾讯云推出国内首款高性能异构计算基础设施,FPGA,云服务器,2017/01/21,阿里云,阿里云发布异构计算解决方案:弹性,GPU,实例和,FPGA,解决方案,2017/05/25,百度云,百度对外正式发布,FPGA,云服务器,Page,14,Inference On Cloud,云端推理,ASIC,应用,ASIC,领域,应用于云端推理的商用,AI,芯片目前主要是,Google,的,TPU1.0/2.0,。其中,,TPU1.0,仅用于,Datacenter Inference,应用。它的核心是由,65,536,个,8-bit MAC,组成的矩阵乘法单元,峰值可以达到,92 TeraOps/second(TOPS),。有一个很大的片上存储器,一共,28 MiB,。它可以支持,MLP,,,CNN,和,LSTM,这些常见的神经网络,并且支持,TensorFLow,框架。它的平均性能,(TOPS),可以达到,CPU,和,GPU,的,15,到,30,倍,能耗效率,(TOPS/W),能到,30,到,80,倍。如果使用,GPU,的,DDR5 memory,,这两个数值可以达到大约,GPU,的,70,倍和,CPU,的,200,倍。,TPU 2.0,既用于训练,也用于推理,上一节已经做过介绍。,国内,AI,芯片公司寒武纪科技据报道也在自主研发云端高性能,AI,芯片,目前与科大讯飞、曙光等均有合作。,Page,15,Inference On Device,设备端推理,设备端推理的应用场景更为多样化,智能手机、,ADAS,、智能摄像头、语音交互、,VR/AR,等设备需求各异,需要更为定制化、低功耗、低成本的嵌入式解决方案,这就给了创业公司更多机会,市场竞争生态也会更加多样化,Page,16,Inference On Device,设备端推理,智能手机应用,华为,2017,年,9,月初发布的麒麟,970 AI,芯片就搭载了神经网络处理器,NPU(,寒武纪,IP),。,苹果,2017,年最新发布的,A11,仿生芯片也搭载了神经网络单元。,高通从,2014,年开始也公开了,NPU,的研发,并且在最新两代骁龙,8xx,芯片上都有所体现,,Page,17,Inference On Device,设备端推理,自动驾驶应用,NVIDIA,去年发布自动驾驶开发平台,DRIVE PX2,,基于,16nm FinFET,工艺,功耗高达,250W,,采用水冷散热设计;支持,12,路摄像头输入、激光定位、雷达和超声波传感器;,CPU,采用两颗新一代,NVIDIA Tegra,处理器,当中包括了,8,个,A57,核心和,4,个,Denver,核心;,GPU,采用新一代,Pascal,架构,单精度计算能力达到,8TFlops,,超越,TITAN X,,有后者,10,倍以上的深度学习计算能力。,Intel,收购的,Mobileye,、高通收购的,NXP,、英飞凌、瑞萨等汽车电子巨头也提供,ADAS,芯片和算法。,初创公司中,地平线的深度学习处理器,(BPU,,,BrainProcessor Unit)IP,及其自研雨果,(Hugo),平台也是重点面向自动驾驶领域。,Page,18,Inference On Device,设备端推理,机器视觉应用,Intel,收购的,Movidius,是其中的一家芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头部分使用了,Movidius,的,Myriad,系列芯片。,目前国内做计算机视觉技术的公司中,商汤科技、,Face+,、云从、依图等,未来有可能随着其自身计算机视觉技术的积累渐深,部分公司向上游延伸去做,CV,芯片研发。,国内还有如人人智能、智芯原动等创业公司提供摄像头端的,AI,加速,IP,及芯片解决方案。,Page,19,Inference On Device,设备端推理,其他应用,微软为自身,VR,设备,Hololens,而研发的,HPU,芯片,这颗由台积电代工的芯片能同时处理来自,5,个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和,CNN,运算的加速功能;,语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别;,在泛,IOT,领域,,NovuMind,设计了一种仅使用,33,卷积过滤器的,AI,芯片,第一款芯片原型预计今年底推出,预计可实现耗能不超过,5,瓦进行,15,万亿次浮点运算,可以广泛应用于各类小型的互联网“边缘”设备。,Page,20,全新架构,类脑计算芯片,类脑芯片:是指参考人脑神经元结构和人脑感知认知方式来设计的芯片,其目标是开发出打破冯,诺依曼架构体系的芯片。这一领域目前仍处于探索阶段,如欧盟支持的,SpiNNaker,和,BrainScaleS,、斯坦福大学的,Neurogrid,、,IBM,公司的,TrueNorth,以及高通公司的,Zeroth,等;国内,Westwell,、清华大学、浙江大学、电子科技大学等也有相关研究。,总体来看,类脑计算芯片领域仍处于探索阶段,距离规模化商用仍有比较远的距离,Page,21,全新架构,类脑计算芯片,IBM,的,TrueNorth,,,2014,年公布。在一颗芯片上集成了,4096,个内核,,100,万个神经元、,2.56,亿个可编程突触,使用了三星的,28nm,的工艺,,国内,AI,初创公司西井科技,Westwell,是用,FPGA,模拟神经元以实现,SNN,的工作方式,有两款产品:,1,、仿生类脑神经元芯片,DeepSouth(,深南,),,第三代脉冲神经网络芯片,SNN,,,2,、深度学习类脑神经元芯片,DeepWell(,深井,),,处理模式识别问题的通用智能芯片,,Page,22,中国,AI,芯片公司,名称,成立时间,估值,AI,产品,技术特点,投资方,中科寒武纪,2016,北京,10,亿,美元,2017,Cambricon-1A,基于,CNN,卷积神经网络,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,成为全球,AI,芯片领域第一个独角兽初创公司,地平线机器人,2015,北京,30,亿,人民币,2016,BPU,自研,AI,架构,IP(,高斯、伯努利、贝叶斯架构,),晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投及祥峰投资等,深鉴科技,2016,北京,10,亿,人民币,2017,DPU,基于,FPGA,深度学习处理单元,联发科、赛灵思、金沙江创投、高榕资本、清华控股、方和资本等。,启英泰伦,2015,成都,CI1006,语音识别,ASIC,芯片、支持,DNN,深度神经网络架构,ROOBO,、汇声信息等,云知声,2012,北京,25,亿,人民币,2016,UniOne,、,IVM,、,UniToy,智能家电,IVM,芯片基于高通,WIFI,模组、,UniToy,儿童机器人基于,Linux,系统,启明创投、高通投资、明富投资、磐谷创投等,西井科技,2015,上海,DeepSouth,DeepWell,类脑神经元芯片,复兴同浩、源政投资、合力投资、十维资本、明赢资本,人人智能,2016,北京,FaceOS,基于,ARM,的人脸机芯,ARM,、英诺天使基金,云飞励天,2014,北京,IPU,视觉智能芯片,松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金,NovuMind,2015,北京,深度学习加速器芯片,ASIC,真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等,百度,2001,北京,XPU,基于,FPGA,的云计算加速芯片,华为,1987,北京,麒麟,970 NPU,NPU,基于寒武纪,IP,中星微,1999,北京,星光智能一号,NPU,基于,CNN,卷积神经网络,谢谢观赏,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服