依图科技声纹识别权威竞赛夺冠，智能语音再下一城

雷锋网 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) AI科技评论编者按：在奥地利召开的机器语音国际顶会 InterSpeech 2019 上，国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge（VoxSRC）公布最新结果，依图科技大幅领先海内外多支强队获得冠军，再次展示了世界级人工智能算法实力。

不仅如此，依图团队使用小数据就取得了优于其他团队使用大数据得到的结果，充分表明中国声纹识别技术已达世界领先水平。

依图科技声纹识别权威竞赛夺冠，智能语音再下一城

依图团队（logicworld）在全球权威声纹识别竞赛 VoxSRC 2019夺冠，等错误率（EER）0.0098，大幅领先第二名。

声纹识别为什么难？

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」，那声纹识别就是判断「是谁说的」，用于解决生物身份的确认和识别。

2012 年以来，深度学习技术逐渐进入声纹识别主流，这种方法纯粹采用数据驱动的方式，通过海量数据样本和深度神经网络模型，让机器自动去发掘声学特征中说话人的信息差异，从而「学会」声学特征中的说话人信息表示。

很显然，使用基于端到端深度学习的方法做声纹识别，拥有大量声纹数据样本，就有了无可置疑的优势。

目前，声纹识别应用还处于探索阶段，但其应用前景十分广阔。最容易想到的，比如会议录音的音频转录，在结合了声纹识别技术后，就能自动标注出谁在什么时候说了什么，轻松完成多人会议纪录，大幅提高工作效率。

随着技术的不断成熟和融合，声纹识别技术将逐渐融入日常生活，根据不同应用场景的特点进行针对性开发，将产生巨大的应用价值。

VoxSRC：声纹识别界的 ImageNet 竞赛

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院（SRI International）和 MIT 的研究者联合发起的全球声纹识别竞赛，可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上，VoxSRC 结果反映了全球声纹识别技术最高水平。

VoxSRC 基于开源数据集 VoxCeleb，由牛津大学团队于 2017 年发布，后来逐渐扩充，现在是声纹识别领域规模最大、标注最完备的开源数据集之一。

VoxCeleb 来自 YouTube 名人采访视频，包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人，在不同场合下超过 100 万段的说话声（utterance），时长加起来总共超过 2000 小时（每段音频的长度从 3 秒到 20 秒不等）。

除了数据量大且来源多样化，VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音，非常考验算法的实战水平。

依图科技声纹识别权威竞赛夺冠，智能语音再下一城

牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一，数据来源多样且都来自无约束场景，非常考验算法的实战水平。

此外，VoxSRC 的测试数据集是「盲的」（blind），即没有任何标注。这些数据无法用来训练或调整系统，确保了比赛结果的公正与准确（不会出现有团队过拟合数据的情况）。

今年的 VoxSRC 吸引了海内外多支队伍参与，有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构，也有平安科技、NEC、君林科技等大企业。

竞赛的任务很明确，就是判断两段音频是出自同一个人，还是来自两个不同的人。算法的输出结果用等错误率（Equal Error Rate，EER）来衡量。

EER 是衡量声纹识别算法系统综合性能的重要指标，EER 值越小，系统的性能就越好（雷锋网）。

什么是EER、FAR、FRR？

评估算法系统性能时常输出ROC 曲线，用于描述FAR（误识率）与FRR（拒识率）之间的关系。

简单说，在声纹识别中，误识率就是“把不应该匹配的声纹当成匹配声纹”的比例，拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景，就会把FAR值设置得低一些，因为判断错一次的代价很大，但这样做的同时会导致FRR值上升，用户体验度下降。

依图科技声纹识别权威竞赛夺冠，智能语音再下一城

等错误率（EER）是系统的误识率（FAR）和拒识率（FRR）相等时的错误率，即ROC曲线与45度角直线相交的点，是衡量声纹识别算法系统综合性能的重要指标。EER数值越小，系统性能越好。

为了评估数据量（训练样本多少）对系统性能的影响，这次 VoxSRC 竞赛给定了两种情况，一是固定数据集，另一个是无约束数据集。

固定数据集任务，参赛队伍使用的训练数据集是固定的，也即 VoxCeleb2，该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。
无约束数据集任务，参赛队伍在训练模型时，可以使用除竞赛测试集以外的其他任何数据，包括未公开发布的数据。

依图团队以 0.0098 的 EER 值获得本届竞赛冠军，也是唯一将 EER 值降低到 0.01 以内的团队。

特别值得一提的是，这个结果比其他团队无约束数据集任务的结果更好（无约束数据集任务的冠军 EER 值为 0.0126）。

中国最好的就是全球最好的

依图已经不是第一次在国际人工智能公开比赛中获得第一。

成立 7 年来，依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展，并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠，是对中国自有 AI 技术能够引领世界的又一个绝佳证明。

今年 5 月，依图发布自研云端 AI 芯片求索（questcore™），旨在提升智能密度，结合世界领先人工智能算法和先进芯片设计理念，同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。

基于求索构建的智能视频分析系统，将原本需要 16 台机柜的方案压缩到 1 台，降低数据中心整体建设成本 50%，运维成本 80%，让 10 万路智能视频解析系统成标配，50 万路成现实，大幅提升基础设施智能水平，为人工智能应用落地和普及奠定了坚实的基础。

8 月 29 日，依图获得科技部正式授牌，承建视觉计算国家新一代人工智能开放创新平台，促进芯片设计与人工智能的融合，同时针对不同业务场景打造一系列定制化芯片，支持智能城市、智慧医疗和智慧金融等行业。

未来，依图将在多算法领域持续投入，多模态技术融合，软硬件协同开发，将世界优胜人工智能算法与行业场景深度结合，推动人工智能应用落地。（雷锋网）

。

随意打赏

人脸识别技术的应用人工智能人脸识别云从科技人脸识别中国人工智能公司云知声科大讯飞人脸识别技术智能语音客服智能语音技术依图人脸识别云从科技