学界 | MIT论文SoundNet：从未标记的视频中学习声音表征（附开源代码）

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

选自MIT

机器之心编译

参与：李亚洲

MIT 之前发过一篇从未标记视频中学习声音表征的论文（SoundNet），近期他们开源了 SoundNet 的实现代码。相关论文可点击「阅读原文」下载。

SoundNet 代码地址： https://github.com/cvondrick/soundnet

　　学界 | MIT论文SoundNet：从未标记的视频中学习声音表征（附开源代码）

摘要：通过有效利用大量从野外收集的未标记声音数据，我们学习了丰富的自然声音表征。使用两百万未标记的视频，我们利用时间和声音的自然同步来学习声学表征。未标记视频的优势是在经济有限情况下也能获得大规模的、包含有用信号的数据。我们提出一种 student-teacher 训练流程，使用未标记视频作为桥梁，能将来自好的视觉识别模型的有识别力的视觉知识迁移到声音形态。在声学场景/识别分类基准上，我们的声音表征对前沿表现有了极大的改进。可视化数据表明一些高层次语义可在该声音网络中自动生成，即使它是在没有 ground truth 标记的情况下训练的。

　　学界 | MIT论文SoundNet：从未标记的视频中学习声音表征（附开源代码）

　　 ?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn