一天搞懂深度学习PPT学习课件.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2,#,深度学习,智慧融入街镇,1,2025/1/5 周日,目录,content,深度学习概述,第一,章,深度学习应用研究,第二,章,总结与展望,第三,章,2,2025/1/5 周日,深度学习概述,第一,章,历史与背景,基本思想,经典模型,3,2025/1/5 周日,1-1,历史与背景,假设我们要让程序判断下面的图像是否为猫：,判断图像是否为猫的规则该怎么描述？用枚举的方法，即为每张可能的图像对应一个结果（是猫，不是猫），根据这个对应规则进行判定。对于高度和宽度都为,256,像素的黑白图像，如果每个像素值的值是,0-255,之间的整数，根据排列组合原理，所有可能的图像数量为：,所以，与其总结好知识告诉人工智能，还不如让人工智能自己去学习知识。要识别猫的图像，可以采集大量的图像样本，其中一类样本图像为猫，另外的不是猫。然后把这些标明了类别的图像送入机器学习程序中进行训练。,机器学习,4,2025/1/5 周日,1-1,历史与背景,机器学习发展阶段,1980s,：登上历史舞台,1990-2012,：走向成熟和应用,2012,：深度学习时代神经网络卷土重来,1980,年机器学习作为一支独立的力量登上了历史舞台。典型的代表是：,1984,：分类与回归树,1986,：反向传播算法,1989,：卷积神经网络,代表性的重要成果有：,1995,：支持向量机（,SVM,）,1997,：,AdaBoost,算法,1997,：循环神经网络（,RNN,）和,LSTM,2000,：流形学习,2001,：随机森林,在与,SVM,的竞争中，神经网络长时间内处于下风，直到,2012,年局面才被改变。由于算法的改进以及大量训练样本的支持，加上计算能力的进步，训练深层、复杂的神经网络成为可能，它们在图像、语音识别等有挑战性的问题上显示出明显的优势。,5,2025/1/5 周日,1958:Perceptron(linear model),1969:Perceptron has limitation,1980s:Multi-layer perceptron,Do not have significant difference from DNN today,1986:Backpropagation,Usually more than 3 hidden layers is not helpful,1989:1 hidden layer is“good enough”,why deep?,2006:RBM initialization,2009:GPU,2011:Start to be popular in speech recognition,2012:win ILSVRC image competition,2015.2:Image recognition surpassing human-level performance,2016.3:Alpha GO beats Lee Sedol,2016.10:Speech recognition system as good as humans,Ups and downs of Deep Learning,1-1,历史与背景,6,2025/1/5 周日,1-1,历史与背景,7,2025/1/5 周日,1-1,历史与背景,8,2025/1/5 周日,1-1,历史与背景,9,2025/1/5 周日,1-1,历史与背景,10,2025/1/5 周日,Step 1:define a set of function,Step 2:goodness of function,Step 3:pick the best function,深度学习原理,Neural,Network,1-2,基本思想,11,2025/1/5 周日,Neural Network,“Neuron”,Different connection leads to different network structures,Neural Network,1-2,基本思想,12,2025/1/5 周日,8 layers,19 layers,22 layers,AlexNet(2012),VGG(2014),GoogleNet(2014),16.4%,7.3%,6.7%,Deep=Many hidden layers,1-2,基本思想,13,2025/1/5 周日,AlexNet(2012),VGG,(2014),GoogleNet,(2014),152 layers,3.57%,Residual Net,(2015),Taipei,101,101 layers,16.4%,7.3%,6.7%,Deep=Many hidden layers,Special,structure,1-2,基本思想,14,2025/1/5 周日,y,1,y,2,y,M,Neural Network,W,1,W,2,W,L,b,2,b,L,x,a,1,a,2,y,y,x,b,1,W,1,x,+,b,2,W,2,+,b,L,W,L,+,b,1,1-2,基本思想,15,2025/1/5 周日,y,1,y,2,y,M,Output Layer,Hidden Layers,Input Layer,Feature extractor replacing feature engineering,=Multi-class Classifier,Softmax,1-2,基本思想,16,2025/1/5 周日,Step 1:define a set of function,Step 2:goodness of function,Step 3:pick the best function,Neural,Network,1-2,基本思想,17,2025/1/5 周日,y,1,y,2,y,10,Cross,Entropy,“1”,1,0,0,target,Softmax,Given a set of parameters,1-2,基本思想,18,2025/1/5 周日,Step 1:define a set of function,Step 2:goodness of function,Step 3:pick the best function,Neural,Network,1-2,基本思想,19,2025/1/5 周日,Gradient Descent,Compute,0.15,Compute,0.05,Compute,0.2,0.2,-0.1,0.3,gradient,1-2,基本思想,20,2025/1/5 周日,Neural Network,Good Results on Testing Data?,Good Results on Training Data?,Step 1:define a set of function,Step 2:goodness of function,Step 3:pick the best function,YES,YES,NO,NO,Overfitting!,Deep Learning,1-2,基本思想,21,2025/1/5 周日,1-3,经典模型,DNN,深层神经网络,CNN,卷积神经网络,RNN,循环神经网络,GAN,生成对抗网络,.,22,2025/1/5 周日,Some patterns are much smaller than the whole image,A neuron does not have to see the whole image to discover the pattern.,“beak”,detector,Connecting to small region with less parameters,1-3,经典模型,-CNN,23,2025/1/5 周日,The same patterns appear in different regions.,“upper-left beak”,detector,“middle beak”,detector,They can use the same set of parameters.,Do almost the same thing,1-3,经典模型,-CNN,24,2025/1/5 周日,Subsampling,the pixels will not change the object,subsampling,bird,bird,We can subsample the pixels to make image smaller,Less parameters for the network to process the image,1-3,经典模型,-CNN,25,2025/1/5 周日,Fully Connected Feedforward network,cat dog,Convolution,Max Pooling,Convolution,Max Pooling,Flatten,Can repeat many times,1-3,经典模型,-CNN,26,2025/1/5 周日,Convolution,Max Pooling,Convolution,Max Pooling,Flatten,Can repeat many times,Some patterns are much smaller than the whole image,The same patterns appear in different regions.,Subsampling,the pixels will not change the object,Property 1,Property 2,Property 3,1-3,经典模型,-CNN,27,2025/1/5 周日,Fully Connected Feedforward network,cat dog,Convolution,Max Pooling,Convolution,Max Pooling,Flatten,Can repeat many times,1-3,经典模型,-CNN,28,2025/1/5 周日,1-3,经典模型,-CNN,29,2025/1/5 周日,Deep Dream,Given a photo,machine adds what it sees,CNN,Modify image,CNN exaggerates what it sees,1-3,经典模型,-CNN,30,2025/1/5 周日,Deep Dream,Given a photo,machine adds what it sees,1-3,经典模型,-CNN,31,2025/1/5 周日,Deep Style,Given a photo,make its style like famous paintings,1-3,经典模型,-CNN,32,2025/1/5 周日,Deep Style,Given a photo,make its style like famous paintings,1-3,经典模型,-CNN,33,2025/1/5 周日,Deep Style,CNN,CNN,content,style,CNN,?,A Neural Algorithm of Artistic Style,1-3,经典模型,-CNN,34,2025/1/5 周日,More Application:Speech,Time,Frequency,Spectrogram,CNN,Image,The filters move in the frequency direction.,1-3,经典模型,-CNN,35,2025/1/5 周日,More Application:Text,?,1-3,经典模型,-CNN,36,2025/1/5 周日,深度学习应用,第二,章,机器视觉,智能语音,.,37,2025/1/5 周日,2-1,机器视觉,（,1,）机器视觉,用机器的眼睛理解世界,机器视觉是指通过用计算机或图像处理器及相关设备来模拟人类视觉，以让机器获取相关的视觉并加以理解，它是将图像转换成数字信号进行分析处理的技术。,机器视觉技术流程,图像采集,目标提取,目标识别,目标分析,图像捕获,图像压缩,图像存储,图像预处理,图像分割,特征提取,目标分类,判断匹配,模型建立,行为识别,38,2025/1/5 周日,2-1,机器视觉,关键技术与应用,A),生物特征识别技术,安全领域应用广泛,生物特征识别技术是一种通过对生物特征识别和检测,对身伤实行鉴定的技术。从,统计意义上讲人类的指纹、虹膜等生理特征存在唯一性，可以作为鉴另用户身份,的依据。目前，生物特征识别技术主要用于身份识别，包括语音、指纹、人脸、,静脉，虹膜识别等。,39,2025/1/5 周日,2-1,机器视觉,关键技术与应用,B),光学字符文本识别一一智能物流的核心技术,光学字符文本识别技术,(Opical Character Reconrition),是指计算机通过光学设备检,查纸上打印的字符,通过检测暗、亮的模式确定其形状，然后用字符识别方法将形,状翻泽成计算机文字的过程，从而完成计算机对文字的阅读。,OCR,技术具体到场,景就是通过扫描，将各类印刷体的文档证件,(,名片，银行卡、财务单据等,),自动识,别录入电脑等终端，让大量信息的高效录入成为可能。,物品包装检测系统,40,2025/1/5 周日,2-1,机器视觉,关键技术与应用,C),物体与场紧识别一机器人和自动驾驶使用最广,物体、场景识别是指计算机将图片内容与数据库中的资料进行比对，进而识别图片或视频中的物体与场景。识别过程与人脸识别类似，即通过检测定位、特征提取、,3D,建模、模型比对对物体进行识别。,机器人,机器规觉技术的应用打破了传统机器入应用的局哏性。以检测服务为例，在未配备机器视觉的条件下，由于被检产品规格的多样，用户需要使用大量的专用工具来实现产品位置的固定，成本过高，更换工具的工作量目大。而机器视觉技术具有位置无需固定、精度与,J,靠性的协调统一非接触式定位与测量全面观量、随动检测等特点，因此使用视觉系统定位仅需更换产品的检测文件，机械成本及更换工具时间大为降低。,自动驾驶,机器视觉技术在自动驾驶中可以识别、发现周遭环境和各类物体的运动状态,;,定位车道、检测坡度与弯度,;,自动规划行车路线井控制车辆到达的地。目前,技术方面,E,实现从感知到控制的飞跃，辅助驾驶成熟度大幅提升。深度学习的出现提高了对环境感知的精度，提供更全面的环境信息，提示危险，辅助驾驶。基于机器视觉的无人驾驶感知系统使用了多种规觉传感器，包括毫米波雷达、激光雷达和摄像头等。毫米波雷达用于测距,;,激光雷达用于感知环境,;,摄像头用来识别交通信号和其他物体标准的数据集用来开发、验证基于视觉的算法,;,底层的,Optical Flow,与立体视觉技术对车辆定位和物体的识别与跟踪都至关重要。,41,2025/1/5 周日,2-2,智能语音,语音识别的目标是将人类语音表达的内容转换为机器可读的输入，是构建机器的“听觉系统”。语音识别技术经历了长达,60,年的发展，近年来机器学习和深度神经网络的引入，使得语音识别的准确率提开到足以在实际场景中应用。,(1),深度神经网络声学模型发展回顾,2006,年,GoeaffreyHinton,提出深度置信网络,(DBN),。促使了深度神经网络,(DNN),研究的复苏。,2009,年,Goffrey Hinton,将,DNN,应用于语音的声学建模，在,TMIT,上获得了当时最好的结果。,2011,年底，微软研究院的俞栋、邓力又把,DNIN,技术应用在了大词汇最连续语音识别任务上，大大,降低了语音识别错误率。从此以后基于,DNN,声学模型技术的研究变得异常火热。,微软去年,10,月发布的,Switchboard,语音别测试中，更是取得了,5.9%,的词错误率，第一次实现了和,人类一样的,i,别水平,这是一个历史性突破。,1,语音识别技术已趋于成熟,42,2025/1/5 周日,2-2,智能语音,(2),语音识别技术流程,语音识另整个过程包含语音信号预处理、声学特征提取、声学和语言模型建模、解码等多个环节,，简单来说，声学模型用来模拟发音的概率分布，语言模型用来模拟词语之间的关联关系。而解,码阶段就是利用上述两个模型，将声音转化为文本。,1,语音识别技术已趋于成熟,语音,/,语言学知识,数据挖掘技术,信号处理技术,统计建模方法,训练,语言,/,语音数据库,语音,信号,端点检测,降噪,特征提取,解码,识别结果,语音,/,语言模型,43,2025/1/5 周日,2-2,智能语音,简单地说，自然语言处理,(Natural Language Processing,简称,Nl.P),就是用计算机来处理、理解以及运用人类语言，它属于人工智能的一个分支，是计算机科学与语言学的交叉学科。实现人机间自然语言通信意味着要使机器既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解，后者称为自然语言生成。,2,自然语言处理,(NLP),发展现状,Word2vec,RNN,GRU,Word2vec,可以在百万数量级的词典和上亿的数据集上进行高效地训练,;Word2vec,该工具得到的训练结果词向量，可以很好地度量词与词之间的相做性。,RNN,现在已经是,NLP,任务最常用的方法之一。,RNN,模型的优势之一就,Recurrent Noural Networks),是可以有效利用之前传入网络的信息。,目的是为,RNN,模型在计算隐层状态时提供一种更复杂的方法，这种方法,GatedRecurrentUnit,将使模型能够保持更久远的信息。,几种常用的深度神经网络,NLP,模型,44,2025/1/5 周日,2-2,智能语音,A),问答系统,问答系统能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。基本工作原理是在线做匹配和排序。比如,IBM,的,Watson,典型的力法是把问答用,FAQ,索起来，与搜索引擎相似。对每一个新可题进行检索，再将,答按匹配度进行排序，把最有可能的答案排在前面，往往就取第一个作为答案返回给用户，,B),图像检索,同样也是基于深度学习技术，跨模态地把文本和图片联系起来。,C),机器科译,机器翻译的历史被认为与自然语言处理的历史是一样的。最近，深度学习被成功地运用至机器翻译里，使得机器翻译的准确率大幅度提升。,比如谷歌的神经机器翻译系统，就是一个非常强大的系统，需要很多训练数据和强大计算资源，加上各种各种新技术的用，翻译的准确率超过传统的统计机器翻译。,D),对话系统,对话系统的回复是完全开放的，要求机器能准确地理解,|,可题，并且基于自身的知识系统和对于对话目标的理解，去生成一个,C,复。因此，虽然人机对话在,2016,年随着,cho,的成功已经被炒得火热，但效果并不尽如人意。,2,自然语言处理主要应用场景,45,2025/1/5 周日,2-2,智能语音,A),问答系统,问答系统能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。基本工作原理是在线做匹配和排序。比如,IBM,的,Watson,典型的力法是把问答用,FAQ,索起来，与搜索引擎相似。对每一个新可题进行检索，再将,答按匹配度进行排序，把最有可能的答案排在前面，往往就取第一个作为答案返回给用户，,B),图像检索,同样也是基于深度学习技术，跨模态地把文本和图片联系起来。,C),机器科译,机器翻译的历史被认为与自然语言处理的历史是一样的。最近，深度学习被成功地运用至机器翻译里，使得机器翻译的准确率大幅度提升。,比如谷歌的神经机器翻译系统，就是一个非常强大的系统，需要很多训练数据和强大计算资源，加上各种各种新技术的用，翻译的准确率超过传统的统计机器翻译。,D),对话系统,对话系统的回复是完全开放的，要求机器能准确地理解,|,可题，并且基于自身的知识系统和对于对话目标的理解，去生成一个,C,复。因此，虽然人机对话在,2016,年随着,cho,的成功已经被炒得火热，但效果并不尽如人意。,2,自然语言处理主要应用场景,46,2025/1/5 周日,2-2,智能语音,2,自然语言处理主要困难,语言的特点,语言是不完全有规律的，会出现功能冗余，逻辑不一致等情况。,语言可以构建出非常复杂的表达，能把词形成句子。,语言是开放的系统，新词新义无穷无尽。,语言要和世界知识相联系。,语言的使用和理解要结合上下文，结合语境。,47,2025/1/5 周日,总结与展望,第三,章,48,2025/1/5 周日,人工智能产业链分析,4,总结与展望,人工智能产业链可以分为基础设施层、应用技术层和方案集成层。,A),基础设施层主要有基础数据提供商、半导体芯片供应商、传感器供应商和云服务商。在过去的,5-10,年,人工智能技术得以商业化，主要得益于传感器等硬件价格快速下降，云服务的普及，以及,GPU,等芯片使大规模并行计算能力得以提升。人工智能产业在基础施层面的搭建已经基本形成。,B),在应用技术层，主要有语音识别、自然语言处理、计算机视觉、深度学习技术提供商。与其他技术相比，语音识别在技术和应用方面都已经较为成熟，谷歌、亚马逊、苹果、百度、阿里等巨头的布局很深，科大讯飞和出门问问等企业也显示了良好的增长势头。另外，计算机视觉尤其是人脸识别、自然语言处理等方向也将是技术和应用较快发展的领域。,C),处于方案集成层的企业，主要是把人工智能相关技术集成到自己的产品和服务中，然后切入特定场景,(,金融、家居、医疗、安防、车载等,),。未来场景数据完整,(,信息化程度原本就比较高的行业或者数据洼地行业,),厅馈机制清晰、追求效率动力比较强的场景或将率先实现,Al,技术的大规模商业化。目前来看，自动驾驶、医疗、安防、金融、营销等领域是业内人士普遍比较看好方向。,方案集成层,应用技术层,基础设施层,智能金融,个人助理,无人驾驶,智能安防,智能医疗,智能家居,计算机视觉,大数据,机器人,自然语言处理,语音识别,深度学习,半导体芯片,云服务,传感器,49,2025/1/5 周日,感谢各位领导莅临指导！,50,2025/1/5 周日,

展开阅读全文