资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2018-10-8,.,#,1,.,做预测不只依赖于,input,,,还依赖于之前的一部分信息,会把它存在,memory,变更的只是输入或者,memory,自然语言处理任务中,输入和输出之间不独立,有些任务用人工神经网络、,CNN,解决不了,2,.,RNN,的结构,为了体现,RNN,的循环性,可以将多层,fold,起来,,每个部分看做一个,cell,,处理过程一模一样,,3,.,我,是,中国,人,背景:要完成一个任务,(Language model),:一句话知道出现的若干个词情况下,出现下一个词会出现什么。,(有一个序列,在这个序列前,n,个,element,知道情况下去推断下一个,element,),是,中国,人,序列在当前,step,的输入,4,.,矩阵,St,维度 容量有限,,文本分类,在当前任何部分都可以做总结,输出结果,但是不一定准确。任务是需要看完整个文本给出一个结果。,5,.,两个,memory,做拼接,不一样的,W,和,V,让它捕捉更多信息,6,.,Deep,:五年级的知识变难了,一周内掌握不了 多思考一下,T-1 T T+1 T+2,数列,三角函数,解析几何,排列组合,做完三轮复习的知识解这道题,同一章前一轮复习 同一轮复习前一章,7,.,BPTT(BackPropagationThroughTime),基于时间的反向传播(调参),8,.,Softmax,的分类器 预测,4W,个词中的哪一个,每一个时间点都有一个输出 每个输出都可以去计算,loss,完成整个句子预测:沿着时间轴把每个位置的,loss,加在一起,梯度下降,使,loss,值最小 要求我们去求,lossfunction,对于,W,的偏导,交叉熵损失,cross entropy loss,求偏导的过程在这一层完成不了,必须用,BPTT,,不能用,BP,BPTT,:沿着时间轴往前追溯,我们的目标是计算误差关于参数,U,、,V,和,W,的梯度,然后使用梯度下降法学习出好的参数。,9,.,Softmax,的分类器 预测,4W,个词中的哪一个,交叉熵损失,cross entropy loss,t,时刻上正确的词,预测出来的词,10,.,11,.,RNN,与图像描述,AlexNet,来抽取特征,做一次前向运算,抽取,4096,*,1,的特征,4096,*,1,的特征向量,文本输入 记忆 图片信息,只在第一步做,后面的每次更新都不再看图片了,12,.,最后一次循环输出,end token,13,.,14,.,RNN,可以被训练来,通过前面的单词来预测接下来的单词。,实际上,相关信息和需要该信息的位置之间的距离可能非常的远。,不幸的是,随着距离的增大,,RNN,对于如何将这样的信息连接起来无能为力。,15,.,16,.,非线性处理模块,逐点运算,信息传播方向,信息拼接,信息复制,17,.,T-1,时刻的记忆到现在的记忆 在传送带上往前传 发生信息的交互 可以取东西 也可以放东西上去,Cell State,18,.,做记忆的变更:要把这部分记忆存下去,19,.,LSTM,的几个关键“门”与操作,上一个时刻的输出,现在的输入,以多大概率去丢掉信息,20,.,LSTM,的几个关键“门”与操作,(,产生一个概率值,以多少值去更新信息,),用,it,对,Ct,做过滤,哪一部分知识能够补充到我之前的知识体系中,Ct:,六年级这一年学到了什么,21,.,LSTM,的几个关键“门”与操作,通过率 旧的记忆,筛选器 新的知识,22,.,LSTM,的几个关键“门”与操作,小学全六年知识,从前六年的知识中筛出来解决当前题目的知识,P(0,1),解决完了给出答案,23,.,LSTM,的变种,启发式的,没有严谨的数学推导,窥视孔连接,24,.,LSTM,的变种,忘记了,0.3,的信息 补充,0.7,的信息,只遗忘那些有新元素来填充的元素,25,.,LSTM,的变种,:,GRU,只有两个门,分别为更新门和重置门,即图中的,zt,和,rt,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越少。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。,h,t,:,忘记传递下来的,h,t-1,中的某些维度信息,并加入当前节点输入的某些维度信息,更新记忆,h,主要包含了当前输入的,x,t,数据。把,h,添加到当前的隐藏状态,相当于“记忆了当前时刻的状态”,类似于,LSTM,的选择记忆阶段。,26,.,LSTM,的变种,:,SRU,去掉了前后时刻,输出,ht,计算的依赖,可以将多个时刻计算并行。,SRU,实现相比于简单的,LSTM,实现可快,5,倍。,SRU,评估,Sentence-level Lipreading,31,.,encoder,是,Image,decoder,是验证码序列。这里把,decoder,部分的输入用,encoder(image),的最后一层复制,N,份作为,decoder,部分的每个,cell,的输入。,LSTM,识别验证码,32,.,
展开阅读全文