Bengio NIPS 最新论文:用线性分类探测器理解中间层,更好地诊断神经网络模型
1 新智元编译 1
来源:arXiv.org
作者:Guillaume Alain & Yoshua Bengio
译者:李静怡
AI World 2016世界人工智能大会 【倒计时 8 天,点击“阅读原文”抢票!】 ? 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;? 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人工智能;? 探秘讯飞超脑及华为诺亚方舟实验室,最强CTO与7大研究院院长交锋;? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛,新智元三大圆桌阵容史无前例;? 中国“大狗”与"X-Dog"震撼亮相,龙泉寺机器僧“贤二”卖萌。
【新智元导读】 本文介绍 Bengio 和他的学生 Guillaume Alain 的最新论文,这篇论文也被即将于 12 月举行的著名会议 NIPS 接收。 本文中,作者引入了一叫做“线性分类探测器”的概念,用于理解一个神经网络模型中各个中间层的作用。使用这种方法,他们顺利地诊断出模型中的一些问题,增进了对深度神经网络的理解,在设计和诊断深度学习模型时都有帮助。
本文中,作者引入了“线性分类探测器”的概念,从熵(Shannon entropy)――描述随机变量所含信息状态的经典方法――的概念讲起,然后试着将这一概念用于理解神经网络模型中间层的作用,从而测量每一层额外获得了多少信息(答案:从技术上讲几乎没有)。
在这种方法失败后,作者又提出了一种新的框架,这一次,他们提出了不同的问题,那就是如果使用给定层的输入对一个最优线性分类器进行训练,这个最优线性分类器的性能会如何? 结果证明,这一强大的概念对于理解深度神经网络在训练中以及训练后所涉及的动态十分有用。
论文:使用线性分类探测器理解中间层
作者:加拿大蒙特利尔大学 Guillaume Alain & Yoshua Bengio
摘要
神经网络模型以身为黑箱著称。我们提出了一种新的方法,更好地理解中间层的作用和动态。这对于设计神经网络模型有直接的影响,使专家能够证明某些探索法(heuristics),例如 Inception 模型里的 auxiliary head。我们使用线性分类器的方法,称之为“探测器”(probe),一个探测器只能使用给定中间层的隐藏单元作为判别特征(discriminating features)。此外,这些探测器不能影响模型的训练阶段,一般都在训练完成以后才被加上去。探测器允许使用者在训练的多个步骤中对模型的状态进行可视化。我们展示了这种方法如何更好地理解一个已知的模型,并且诊断可能存在的问题。
熵很重要,计算的便利性也很重要
论文要点
一个有问题的 128 层神经网络模型。从第 0 层到第 64 层会跳过一个连接。作者使用探测器检测每一层,看如果它们是线性分类器的话表现会如何。结果发现,模型完全无视第 1 到第 63 层,哪怕训练很长时间也不行。使用探测器,作者从视觉检测中发现了模型的问题。
【在新智元后台回复1010下载论文】
豪华嘉宾阵容,共飨 AI 盛宴
7 大院长齐聚新智元智库院长圆桌论坛
2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”,重量级研究院院长7剑下天山,带来最前沿的AI研究动态、剖析技术发展趋势。
七位人工智能界“高手”现场过招,思想的激烈碰撞会给目前的人工智能发展带来哪些洞见?七位院长对行业的发展会有哪些前瞻揭秘?10月18日下午,2016 世界人工智能大会技术论坛,答案将逐层揭晓。
新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。
2016世界人工智能大会技术论坛议程
扫描二维码购票:
购票链接:http://www.huodongxing.com/go/aiworld2016
也可点击‘阅读原文’直接购票
票务联系 132·4023·6748