学界 | MIT论文SoundNet:从未标记的视频中学习声音表征(附开源代码)

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

选自MIT

机器之心编译

参与:李亚洲

MIT 之前发过一篇从未标记视频中学习声音表征的论文(SoundNet),近期他们开源了 SoundNet 的实现代码。相关论文可点击「阅读原文」下载。

SoundNet 代码地址: https://github.com/cvondrick/soundnet

   学界 | MIT论文SoundNet:从未标记的视频中学习声音表征(附开源代码)

摘要:通过有效利用大量从野外收集的未标记声音数据,我们学习了丰富 的自然声音表征。使用两百万未标记的视频,我们利用时间和声音的自然同步来学习声学表征。未标记视频的优势是在经济有限情况下也能获得大规模的、包含有用信号的数据。我们提出一种 student-teacher 训练流程,使用未标记视频作为桥梁,能将来自好的视觉识别模型的有识别力的视觉知识迁移到声音形态。在声学场景/识别分类基准上,我们的声音表征对前沿表现有了极大的改进。可视化数据表明一些高层次语义可在该声音网络中自动生成,即使它是在没有 ground truth 标记的情况下训练的。

   学界 | MIT论文SoundNet:从未标记的视频中学习声音表征(附开源代码)

©本文由机器之心编译, 转载请联系本公众号获得授权

   ?------------------------------------------------

加入机器之心(全职记者/实习生):hr@almosthuman.cn

投稿或寻求报道:editor@almosthuman.cn

广告&商务合作:bd@almosthuman.cn

随意打赏

提交建议
微信扫一扫,分享给好友吧。