深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(下)
本文联合编译:Blake、高斐
雷锋网 (搜索“雷锋网”公众号关注) 注:Yoshua Bengio教授是机器学习大神之一,尤其是在深度学习这个领域,他也是人工智能领域中经典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio连同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。目前他是仅存的几个仍然全身心投入在学术界的深度学习教授之一(蒙特利尔大学),本文是他在2009年的经典前瞻演讲——“人工智能学习深度架构”有关内容的第二部分。
深信度网络(DBN)
-
DBN = 在顶部两层与RBM接头的反曲信度网
-
取样:
1. 从RMB顶层取样
2. 当存在k+1层时,从k层取样
-
当存在k+1层时,k层=RBM条件下,相同的参数:栈式RBMs——DBN
由RBM(受限玻尔兹曼机)向DBN(深信度网络)的转换
-
RMB由P(v|h)与P(h|v)确定P(v,h)
-
间接定义P(v)与P(h)
-
使P(v|h)远离RBM一层,用RBM第二层生成的分布值代替P(h)
深信度网络(DBN)
-
简易近似推理
1. 从相互联系的RBM中近似取得P(h|h)
2. 由于RBM与DBN中的P(h)不同,因而取近似值
-
训练:
1. 可变的界限证实了RBMs贪婪逐层训练
2. 如何同时训练所有的层?
深层玻尔兹曼机 ((Salakhutdinov et al, AISTATS 2009, Lee et al, ICML 2009)
-
正相位:可变近似值(平均域)
-
逆相位:持续链
-
能够从栈式RBMs层开始初始化
-
将误差从1.2%降低至.95%,以提高MNIST的性能
估测对数似然值
-
RBMs:要求估测配分函数值
1. 重构误差值,以提供一个廉价的代理服务器。
2. 当对数Z小于25二分输入值是,对数Z是可分析追踪的,或隐藏的。
3. 退火重要性采样(AIS)的最低界限值
-
深信度网络:
AIS的扩展(Salakhutdinov & Murray, ICML 2008, NIPS 2008)
-
开放性问题:找到有效的途径来监督这一进程
深层卷积结构
该结构引自Le Cun的团队(NYU)和Ng(斯坦福大学):最佳MNIST数据,Caltech-101物体,人脸图像
卷积深信度网络(Convolutional DBNs)
再次回到贪婪逐层预训练
栈式受限玻尔兹曼机(RBM)——深信度网络(DBN) ——监督式深层 神经网络
为什么由DBNs(深信度网络)获得的分类器能够如此有效地运行?
-
普遍原则
-
这些原则对于其他单层算法是否有用?
-
其工作原理是什么?
栈式自动编码器
贪婪逐层无监督式预训练也适用于自动编码器
自动编码器与对比散度(CD)
RBM对数似然梯度可以被写作收敛性扩展:CD-K等于2 K terms,重建误差值近似等于1term
贪婪逐层监督式训练
与无监督式预训练相比,贪婪逐层监督式训练的效果更糟糕,但是训练效果优于一个深层神经网络的普通训练效果。
监督式微调是重要的
-
RBMs或MNIST自动编码器的贪婪逐层无监督式预训练相位
-
有无监管式更新或监管式更新的监督式相位,有隐层微调或无隐层微调的监督式相位。
-
能够同时训练所有的RBMs(受限玻尔兹曼机)层,可获得相同的结果。
稀疏式自动编码器(Ranzato et al, 2007; Ranzato et al 2008)
-
对中间代码的稀疏性惩罚
-
与稀疏式编码相同,但是拥有高效的时间运行编码器。
-
稀疏性惩罚推高分布在所有位置的自由能量。
-
在物体分类方面,取得了很好的成绩(卷积网络)
1.MNIST 误差为.5% 突破记录
2.Caltech-101 正确率高达65% 最佳成绩 (Jarrett et al, ICCV 2009)
-
在同一个卷积DBN中获得相似的结果 (Lee et al, ICML’2009)
降噪自动编码器 (Vincent et al, 2008)
-
干扰输入信息(例如,将25%的输入信息设置为零)
-
重组受干扰的输入信息
-
将未受干扰的代码作为输入信息,输入到下一层
-
学习朝向更高概率区域发展的向量域
-
实现生成模型可变下限最小化
-
与伪似然值相似
栈式降噪自动编码器
-
没有配分函数,能够衡量训练标准
-
编码与解码:任意参数化
-
与栈式RBMs同样能够进行无监督式预训练,或者由于RBMs
-
生成模型为半参数型
降噪自动编码器:标准
降噪自动编码器:结果
无监督式预训练效果为何如此好?
-
正则化假说:
无监督式成分使得模型接近P(x)
P(x)的表征也适用于P(y|x)
-
优化假说:
接近P(y|x)局部更优最小值的无监督式初始值
能够达到局部最小值下限,否则随机初始值无法达到局部最小值
在函数空间内学习轨线
-
在函数空间内,每一个点代表一个模型。
-
颜色相当于epoch
-
顶端:轨线w/o预训练
-
每一条轨线在不同的局部最小值处收敛
-
W/o预训练过程中,各区域之间没有重叠
无监督式学习正则化矩阵
-
额外正则化(减少#隐藏单元)将损害更多的预训练模型
-
预训练模型拥有更少的方差wrt训练样本
-
正则化矩阵等于与无监督式预训练相协调的区域外无限惩罚
更好地优化在线误差
-
在无监督式预训练过程中,训练和在线误差相对来讲更小
-
当样本趋向无穷大,训练误差 = 在线误差 = 泛化误差
-
没有无监督式预训练:不能利用从训练数据中捕捉目标函数复杂性的能力
预训练较低层起到更为重要的作用
证实了:重要的不仅仅是初始权重值的边际分布。
信用分配问题
-
即便有正确的梯度,较低层(距离预测层比较远,接近输入层)是最难训练的。
-
较低层最受益于无监督式预训练。
1. 局部无监督式信号等于提取/剥离因子
2. 暂时稳定性
3. 多模态之间共享信息
-
信用分配/错误信息不会很容易流通吗?
-
信用分配问题与随着时间的发展信用分配难度增大相关吗?
层-局部学习是重要的
-
对无监督式深度玻尔兹曼机的每一层进行初始化将会带来很大裨益。
-
将无监督式神经网络的每一层初始化为RBM将会带来很大裨益。
-
层-局部学习有助于所有训练层远离目标层。
-
不仅仅会产生无监督式先验效果。
-
联合训练一个深层结构的所有层是有难度的。
-
运用一种层-局部学习算法(RBM,自动编码器等)进行初始化是一种有效手段。
半监督式嵌入
-
运用用于表达邻近概念(或非邻近概念)的一对或三个实例
-
拉近被认为是相似概念对的中间表征之间的关系,删除随机选择的相似概念对的表征
-
(Weston, Ratle & Collobert, ICML’2008):通过把非监督式嵌入标准与监督式梯度相结合,提高半监督式学习的效率
缓慢变化的特征
-
视频中连续的图像 = 相似
-
随机选择的图像对 = 不相似
-
缓慢变化的特征可能指代有趣的抽象特征
学习深层网络的动态变化特征
微调之前——微调之后
学习深层网络的动态变化特征
-
当权重越来越大,将陷于吸引域(“象限”不变)。
-
初始化更新产生重大影响(“关键期”)。
-
在具有良好泛化特征的吸引域中,初始化无监督式预训练。
实例的排序与选择
-
课程学习(一种延拓型学习方法)(Bengio et al, ICML’2009; Krueger & Dayan 2009)
-
从简单的实例开始
-
在深层结构中,实现更快速地收敛,获得局部最小值。
-
实例的排序与选择是与具有优化效果的正则化矩阵相同吗?
-
具有影响力的动态特征学习将产生重大影响。
延拓法
作为一种延拓法的课程学习方法
-
训练分布的序列
-
简单实例达到初始化巅峰
-
逐渐分配给更多具有难度实例更多权重,直到实现目标分布
重要信息(take-home messages)
-
在学习复杂函数方面的突破:具有分布式表征的深层结构。
-
多层潜变量:在统计结果分享过程中,多层潜变量可能呈指数增长。
-
主要挑战:训练深层结构。
-
RBMs允许快速推理,栈式RMBs/栈式自动编码器允许快速近似推理。
-
对分类器进行无监督式预训练这一操作正如优化一个陌生的正则化矩阵的在线误差。
-
推理近似值和动态特征学习与模型本身具有重要作用。
一些开放性问题:
-
为什么训练深层结构具有难度?
-
为什么学习动态特征具有重要性?
-
应当如何降低联合训练所有层的难度?
-
如何更高效地从RBMs和深层生成模型中取样?
-
是否需要对深层网络无监督式学习的质量实施监管?
-
是否有其他方式可以用来引导训练中间表征?
-
如何捕捉场景结构和序列结构?
总结 :本文中主要提到了有关深信念网络、DBN、无监督学习、降噪等相关内容,以及为什么将它们应用到人工智能领域中。作为 Yoshua Bengio在2009年的演讲,它是相当具有前瞻性的,希望在深度学习能给你以启发。
PS : 本文由雷锋网编译,未经许可拒绝转载!
via Yoshua Bengio