《深度学习》课件第2章深度学习的数学基础.pdf

资源描述

深度学习BIGDATA全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用第二章深度学习的数学基础2.1线性代数212概率与统计 2.3多元微积分2.1线性代数第二章深度学习的数学基础 2.L1向量空间点空间中的每一个点与向量就建立了一映射。因为向量与点之间的这种一映射关系，可以把向量转化成几何空间中实在的点，利用点空间单方法来处理向量，这样处理就更加直观；或者把点空间的概念和方法推升到商董中，例如：借助几何中点空间的思路,就形成向量空间。募A我们把点空间的概念推广到向量中，。0尸o=(o,o)X 轴2.1线性代数第二章深度学习的数学基础 2.L1向量空间直观上，空间是一个几何的概念，但本质上，空间是由数据的运算规则确定的。数学上，空间不仅意味着定义了集合、集合成员、集合元素的运算及其运算规律；并且所有集合元素（即运算对象）按照这些运算规律运算后，运算结果仍然属于这个集合，即运算具有封闭性。空间就是由某些运算规则规定下形成的封闭集合，集合中的元素无论如何运算，结果仍然在该集合中。直观地看，就像密闭箱中的气体分子，无论如何运动都超不出箱体的范围。2.1线性代数第二章深度学习的数学基础 2.L1向量空间给定一个非空集合是，和数域集合F,在V中定义了加法运算+,在，与F之间定义了数乘运算,，%A y c匕ke F，如果该加法运算+和数乘运算祠时满足下面所有规则，则称，是F上的向量空间或线性空间。(1)规则1：若见夕6，则仇+夕6，(2)规则 2：若a邛 CV，则a+S=/?+a(3)规则3：若见EV，贝l(a+夕)+y=a+(夕+y)(4)规则4:存在零元素0 e，对都有0+a=a(5)规则5:对任意向量a e，都存在负元素-a e U使得ct+(a)=02.1线性代数第二章深度学习的数学基础 2.L1向量空间(6)规则 6：若a EV,k e F,则/c-a eV,(7)规则7：若a,/3 eV,k E F，贝Ik (a+夕)=k a+k,B(8)规则8：若a E V,k,l E F r 贝U(k+l)-a=k-a+l-a(9)规则9:若a W匕 F，贝认,Q,a)=(kl)a(io)规则10:若a c U,则存在一个单位元素1 e尸使得1-a=a2.1线性代数第二章深度学习的数学基础 2.L1向量空间通常，常见的线性空间如下所示。(1)Rmxn：所有血x九的实矩阵在通常矩阵加法和数乘意义下对实数域R构成线性空间，通常记为RM*九o(2)Fnx:次数小于等于n的全体实数多项式函数、FnM=Zi=oaixan-0必 w R集合(含0多项式)在通常的函数加法和函数数乘的意义下对实数域R构成线性空间通常记为4 划。(3)Nul；：域性方程4%=0的解集合记作N%,则在通常向量加法和数乘意义下N加4是实数域上的线性空间。(4)ColA：设4=，an G Rmxn,则4的列的线性组合，即其生成空间，记为、，、ColA=span(alf-,ab-,an)r在通常向量加法和数乘意义下CoU是实数域上的线性空间。2.1线性代数第二章深度学习的数学基础 2.L2矩阵分析设尸为数域，由F中任意数量/元素沿行列两个方向有序排列的m行n列的阵列/表格称为矩阵。若第i行第j列的元素为四/,则矩阵可以记为(a0)mxn,常记作an aln4=(aij)mxn=：:-aml amn-2.1线性代数第二章深度学习的数学基础 2.L2矩阵分析设A=(atj)mxn和B=(%乂71是两个加x八矩阵,则有下面成立。(1)若 4=B,则有啊=btj,i=1,=L,八。(2)若B=aA,贝II有灰/=aaijf i=1,mJ=L。(3)右C=(Cij)mxn=+B,则有为=&j+如=LmJ=L(3)右C=(Cij)mxn=AB f 则有Qj=Zfc=i aikkj f i=L1mJ=L/。(4)若B=At,则有瓦j=ajifi=1,皿j=1,。全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用第二章深度学习的数学基础2.1 线性代数2.2 概率与统计2.3 多元微积分2.2概率统计第二章深度学习的数学基础 2.2概率与条件概率概率公理化定义设从事件/实验的样本空间。到闭区间0,1上的有界映射是P：C T 0,1,若事件/实验/C Q,并且满足以下三条件，则称PQ4)G 0,1是事件/实验4的概率，(1)pe 0,1 z即概率取值一定在闭区间0,1中,称为有界性公理，本公理也说明了PG4)20,故有称为非负性公理(2)P(Q)=1,即必然事件概率为1,样本空间中总有某些样本是要发生的，样本空间中全部样本都不发生是不可能的,称为规范性公理(3)设互不相容事件4u。(即若i丰，则4 n 4=。)的和事件/实验的概率等各个事件/实验的概率和，即尸(U连a。=1PG4 Q,称为可列可加性公理。2.2概率统计第二章深度学习的数学基础 2.2概率与条件概率概率的最基本性质(1)不可能事件的概率为0,即P(。)=0。(2)有限可加性：n个(n是有限的)两两互不相容事件若ku Q(即若i。/则4 n勺=。)的和事件(即U泮14左)的概率等于各个事件概率G4 Q#=12的和 Sk=lPQ4 Q,即：P(Uk=lk)=%PG4 Q。(3)单调性：若事件A是事件B的子集，则事件A发生的概率不大于事件B发生的概率。即，若/U B U Q,则有 W P。(4)互补性：若事件A c Q是事件A c。的对立事件，即 AUA=Q,贝(有P(A)+PQ4)=lo2.2概率统计第二章深度学习的数学基础 2.2概率与条件概率条件概率的定义在样本空间。中，事件B发生的概率是尸（B）,在事件B发生的条件下事件A也发生的概率称为条件概率，记作P（川B）=符；同理，在事件A发生的条件下事件B发生的条件概率为。（引/）=需。2.2概率统计第二章深度学习的数学基础 2.2.2贝叶斯理论全概率公式贝叶斯理论在推断时的最大特点是该方法把推断目标的数据信息、主观经验、先验知识等各类事先已知信息抽象更新了先验概率，根据得到的后验概率对未知信息进行推断。假设样本空间。的完备事件是。Ln，X是样本空间Q 内某任意事件，根据概率公理体系，易得：(n、P(x=x)=P i=l)几 n=之尸（=之尸（工懈）尸（团i=l i=l2.2概率统计第二章深度学习的数学基础 2.2.2贝叶斯理论贝叶斯公式的基本形式根据条件概率的定义，可以求解出任意一个的完备事件%,郎,。九在事件X=%发生后的条件概率如下d V _ C _ 尸(xej _ P(x=*Jp(a)_ p(x=x附尸(q)_ 尸(X附尸 rui A 一刃一 p(x=x)一一一一 p(x=W)p力卜陷)尸 1=1 1=1P(4)表示在不知道事件X=%发生的情况下事件为的发生概率，代表着人们事先(此处主要是指在事件X=%发生之前对的认识，故称为先验概率旦是，当人们获得了新信息后(此处主要是指已知了事件X=%的发生)会综合分析这些新信息(此处是指事件X=式的信息)，从而会对事件为的发生产生了新认识，即在事件X=%发生后的条件下事件为发生的条件概率P(%|x=x),故称为后验概率。2.2概率统计第二章深度学习的数学基础 2.2.2贝叶斯理论贝叶斯估计的基本形式假设待估计的未知参数8（因为估计对象往往是未知参数，故这里用未知参数。代替估计对象）的先验分布是兀（。），在获得样本（因为结果事件往往是抽样样本的结果，故这里用样本/抽样来作为结果事件）后,即在X=%的条件下的条件分布记为万（81%），则有丫、=M）/（幽V I/qX）_ j/（印）乃（。）09&m（x）=j hx,OdO=j f x07i0d0 0 02.2概率统计第二章深度学习的数学基础 2.2.2贝叶斯理论贝叶斯估计的基本形式贝叶斯理论认为，关于。的一切统计和推断都是必须基于参数。的后验分布兀(。|%)，兀(。|%)是贝叶斯推断的最主要依据和出发点。用后验分布兀(。|外的均值作为未知参数。的估计称为后验期望估计，其计算公式如下所示：j 6hx,e)de jV I/J v)现 x)f(x0)7r(0)d0其中久卧别是联合分布和边缘分布，需兀(%)是用密度函数表示的贝叶斯公式，或者叫作贝叶斯公式的密度函数形式。2.2概率统计第二章深度学习的数学基础 2.2.2信息论基础信息必须满足以下四条公理：(1)若信源符号四,%的概率是p(a)p(%)，且p)P(Qj),贝(臼)I(Qj)o(2)若信源符号四的概率是pSD,且p(a。=0,即心是不可能事件，则/(四)t oo,不可能事件包含无穷大的信息量。(3)若信源符号片的概率是p(aD,且pa)=1,即人是确定事件，贝USD=0,没有随机性的确定事实不含任何信息量。(4)若信源符号四,可是统计独立的，例如，来自两个相互独立的信源，这两个消息总的信息量即联合信息量记为/(七,%),则/(七吗)=/(%)+/(a7)o2.2概率统计第二章深度学习的数学基础 2.2.2信息论基础信息崎.者曾源X可以随机地发出厂个不同的符号，记为a/=12，并且每一个符号因产生的概率是p（aQ,显然每个符号见有自信息量）=Iog2（p（%）o若在该信源的概率空间P3）=1Z中统计诉有符号=12的平均信息量，并作为信源X的信息测度，称为信源X的信息精,记作（X）,即：H（X）=-，（4）log2（M4）i=l2.2概率统计第二章深度学习的数学基础 2.2.2信息论基础联合会：若符号四,门的联合概率是,则定义联合精如下：r s(x y)=-也)sgp(q e)日12.2概率统计第二章深度学习的数学基础 2.2.2信息论基础条件嫡：若符号与可的联合概率是P,aj）,则定义联合嫡如下：若见,%分别是发送和接受的符号，则H（XF）表示发送了符号右并且一定能接受到符号出的后验平均不确定性，故也称为共嫡。类似地，根据条件概率可以定义条件崎如下：I H（x|y）这pW）h（x|5）J=1s r=-2仇）2（。也）logp（皿）./=1 iT=-ZZp（。他）logp（4 也）J=1全国高校标准教材云计算姊妹篇，剖析大数据核心技术和实战应用第二章深度学习的数学基础2.1 线性代数2.2 概率与统计2.3 多元微积分2.3多元微积分第二章深度学习的数学基础 2.3导数和偏导数导数：为了刻画所有物理量的瞬时变化率，数学中把它们作了归纳和抽象,并引入了导数的概念，用导数来定义一切物理量的变化率。设任意物理量用y=/G)表示，其上任意点记为(刈/(%0)，再在该点邻域附近取一点(/(%)做割线若记=x-xOfy=f(x+A x)-f(x。),显然,物理量 y=/(%)在氏0,%之间的平均变化率为2=4+丁。),正是割线的斜率。当点P沿曲线移动,无限接近点治时,直线与曲线只有一个交点，割线变成了切线，相应地平均变化率也变成了瞬时变化率，其数值等于切线的斜率，这就是该点的导数。2.3多元微积分第二章深度学习的数学基础 2.3导数和偏导数2.3多元微积分第二章深度学习的数学基础 2.3导数和偏导数导数：设函数/(%)在点%0的邻域内有定义,这样，当自变量从工。变化到%0+时函数值的变化为A y=f(x+%)-/(%0);若自变量的变化量趋于无穷小时，比率?的极限存在，如下%式所示，则该极限称为函数/(%)在点右的导数，通常记为(。0)或黑1%4。，并称函数在点可导何微；若极限不存在则称在点不可导。lim 半=limAxf0 Axf0Ay=/(x0+Ax)-/(x0)Ax2.3多元微积分第二章深度学习的数学基础 2.3.1导数和偏导数常见函数的导数序号f(x)fW/（%）fM1C0510ga%1 xna421xa 6 nx J3axaxlnx7sin%cosx4ex ex 8 cos%sin%2.3多元微积分第二章深度学习的数学基础 2.3导数和偏导数偏导数：设函数z=/（%函在点（%o/yo）的邻域内有定义,这样，当自变量%从%0变化到%0+加寸而y固定在历时，函数值的变化为 y-f（x+A x,y0）-/（%o，y（）/若自变量的变化量趋于无穷小时，比率竽的极限存在，如下式所示，则该极限称为函数/（%,y）在点（&，yo）的导数，通常记为fQo,yo）或案l（xo.yo），并称函数z=/（%,y）在点（无o，y0河导何微；若极限不a在则称z=/（%,、）在点（%0,小）不可导。I Jz I _ l：m A iz _ 1-%o+A X,%）-dx（%o，%）-M A xfo X2.3多元微积分第二章深度学习的数学基础 2.3.2梯度和海森矩阵梯度：根筐上面偏导数的定义，当对某个变量求偏导数时函数中所有其它变量要被当作常数。即把函数当作只含该变量的一元函数，然后根据一元函数的求导法则进行求导即可。这样二元函数的偏导数定义可以推广到三元函数和多元函数，它们的佩号数求解都是类似的。记九元实函数f：Rn T R为f(x),其中X=，n)是九维自变量。如果/(X)在每一个分量.=1,2,n一阶可导即偏导数段,i=12,n都存在，则称/(X)在点X处一阶可导，并且把篇导数组成的向量v/(x)=称为/(X)在点X处的一阶导数，也即梯度，常记为(X)o2.3多元微积分第二章深度学习的数学基础 2.3.2梯度和海森矩阵海型巨阵：记几元实函数/：/?九T R为f(x),其中X=(%1九)是 71维自变量。如果/(X)在每一个分量看,i=12，九二阶可导即二阶偏导数畀=12,几J=12回都存在，则称 d乙/(X)在点X处二阶可导,并且把偏导数组成的矩阵称为f(X)点X处的二阶导数，也即海森(Hesse)矩阵，常记为V2f(X)。x)-“X)J 32 f(X)朋&2 dxdxn X)巧曲I v2/fx)=M M O M x)-“x)e2 f(x)西网讯&2 患2.3多元微积分第二章深度学习的数学基础 233最速下降法假设最速下降法求解函数/(X)时第次迭代到了点4,则选择第k次迭代的搜索方向右为最速下降方向，即搜索方向是负梯度方向-(X),也就是令或=-VfW o然后从/出发沿方向八搜索函数的最小值，也就是在射线人+入标(其中a o是射线的参数变量，表示与点右的距离)上找一点使得该点的函数值/(X)最小。假设该最小点距当前点人的距离是心，则可以表示为：f(Xk+入&)=minAo/(xfc+A dk),其中儿也称为搜索的步长。求步长久通常被当作一个线搜索问题，也就是一元函数的优化问题。一旦求出了步长，就确定了沿方向我能找到的最小函数值人+及越,下一次迭代就以该点为起点，即 xk+l=+入/k2.3多元微积分第二章深度学习的数学基础 2.3.3最速下降法最速下降算法的流程图2.3多元微积分第二章深度学习的数学基础 233最速下降法最速下降算法的步骤Step 1.初始化算法的参数。Step 2.计算目标函数/(X)在右的梯度(X)。通常，不同函数的梯度是不一样的，有时也可以用梯度的近似值代替梯度的精确值。Step 3.判断算法迭代是否满足终止条件，若满足则转步6,否则转步4。迭代终止条件在不同条件下也有所不同。Step 4.令搜索方向或=-0(X),选择某种一维线搜索方法计算算法步长久oStep 5.令x/c+i=%/c+4四，转步2重复上述计算过程。Step 6.判断梯度在人是否为0。实际问题中只需要近似接近0即可。若满足，则可以认为当前点是目标函数的最小值。这样就可以结束迭代，停止算法。2.3多元微积分第二章深度学习的数学基础 2.3.4随机梯度下降算法随机梯度下降算法如前所述，经典梯度下降算法虽然具有广泛地适用性，但是求解机器学习领域中的训练问题效率非常低，有必要进一步改进。根据概率统计学中的大数定理，当样本量很大或趋于无穷时大量样本的均值与任意一个样本母体近似相等。注意到我们需要求解的正好是梯度关于N个样本的均值，这样如果把每一个样本当作随机的，则在大样本条件下，任意一个样本的梯度与N个样本梯度的均值近似相等。这样，用一个随机样本的梯度来代替个样本梯度的均值不仅是可行的，而且减少了计算量提高了计算效率。因为样本是已知的自然也是确定的，为了让已知样本具有随机性，通常采用无放回抽样策略，即从样本集中随机选择一个样本用它的梯度来代替所有样本梯度的均值。这样就增加了随机性，确定的梯度下降法就变成了随机梯度下降算法。2.3多元微积分第二章深度学习的数学基础 2.3.4随机梯度下降算法随机梯度下降算法的的流程图初始化2.3多元微积分第二章深度学习的数学基础 2.3.4随机梯度下降算法随机梯度下降算法的的步骤Step 1.初始化算法的参数。Step 2.判断迭代是否满足结束条件，若满足则转步7;若不满足则转步3。Step 3.产生随机数r 6 12加,即选择来了函数方(w)。Step 4.计算函数分(w)在的梯度。分(工。Step 5.令捶索方向=Vfr(xk),选择某种一维线搜索方法计算迭代步长久OStep 6.令%/c+i=%/c+,步2重复上述计算过程。Step 7.判断梯度在人是否为0。实际问题中只需要近似接近。即可，即是否满足。若满足，则可以认为当前点是目标函数的极小值。这样就可以结束迭代，停止算法。习题:1.请验证V=0和V=Rn是向量空间。2.请证明V=A=(1,x2,x37.,Xj xn),Xj GR)是向量空间。3.证明：定义域在D上的所有实函数在通常的函数加法和数乘运算下对实数域形成向量空间。4.请验证实数域中m x n阶矩阵的集合关于矩阵加法形成线性空间。5.根据经验，某型机械设备能用10年的概率是0.85,正常工作能超过15年事件的概率是0.6。现今有一该型设备已经用了 10年，请问其能再工作5年的概率是多少?6.从一副新扑克牌中随意抽取一张，若已知某次抽取的牌是红心，求这张牌是红心4的概率是多少？7.假设一信源只发送26个英文字母，并且每个字母都是等概率地发送，则求每个发送符号包含的信息量和信源的信息精。8.大数据、云计算、人工智能之间有什么关系？9.现有一黑箱，其中有红球10个，绿球20,蓝球40个。每一次取出一个球，若取出是红球，则通过电报发送字母R；若取出是绿球，则用电报发送字母G;若取出的球是蓝球，则用电报发送字母B;请计算发送R、G、B的信息量和该电文的精。感谢聆听

展开阅读全文

《深度学习》课件 第2章 深度学习的数学基础.pdf

《深度学习》课件第2章深度学习的数学基础.pdf