AI应用实例（三）：音频审核

人人都是产品经理 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

编辑导语：在互联网时代，各种各样的内容类产品层出不穷，那么相关监管部门对内容的审核环节就显得十分重要，各方面都需要审核到位，本篇文章讲述了AI技术在音频审核方面的应用，一起来看一下。

AI应用实例（三）：音频审核

音频审核作为内容安全产品的一个模块，在内容审核中既需要支持视频中的音频审核，还需要能支持单独的音频审核，本节将跟大家一起讨论关于音频审核的产品设计与应用。

一、背景

随着各种各样的内容类产品发展，当内容管理不到位时，就容易触犯到国家对内容监管的的政策。

如何避免违规内容的传播可以说是各大内容厂商最关注的环节之一。

因此，对内容的管理，都需要进行审核到位，但是如果纯靠人工审核，估计像头条号这样的资讯平台，一天得有上万人审核了。

目前各家对内容都会接入内容审核平台，基于人工智能技术实现内容审核，其中根据素材维度可以分为视频审核、文本审核、图片审核和音频审核。

从审核内容角度看又包括色情、涉政、图文违规、暴恐、违禁、广告等。

本文将选择音频审核的维度展开讨论。

二、关键技术

关于音频审核中的关键技术，我们可以从两个方面进行理解，分别是“有语义”和“无语义”。

1. 有语义类型

有语义类型是指待审核的内容中有明确的语义信息。

这里文本审核一般可以先经过ASR识别后，转成文本信息进行审核，所以会涉及到以下技术。

语音识别 ：通过ASR技术将音频转换为文本信息；
语种识别 ：针对部分小语种或者方言进行判别，识别后，再经过语音识别转换为文字信息；
NLP技术 ：针对语音识别后的文字信息进行处理，识别违规内容；具体的可以包括广告词文本识别、违禁词识别、辱骂词汇识别等。

2. 无语音类型

无语义类型识别是指音频内容中不含语义信息，所以无法通过ASR+NLP进行识别处理。

主要包括娇喘、呻吟、ASMR 等没有明确语言含义的音频内容。

直接提供提取音频的声纹特征进行分类识别，判断是否违规。

3. 特殊的类型

这里主要是指违禁歌曲识别，一般这样的违规内容虽然包含了语义信息，但是可能直接从内容信息上是无法判断的。

所以需要结合声纹识别+音频检索的技术进行来识别，首先构建违禁歌曲库，然后再根据音频声纹特征进行识别并检索。

如果出现在曲库中则判断违规，否则放过。

三、产品设计

1. 应用场景

（1）场景： 常见的需要应用到音频审核的场景有语音聊天室、视频直播间、语音广场、FM电台、音频文学等都需要采用音频审核保证内容的安全性。

（2）审核内容

涉黄审核 ：色情、低俗、污秽、娇喘等识别；
广告审核 ：手机号等商业推广内容识别；
涉政审核 ：涉政人物、反动分裂、恐怖主义等违规音频；
违禁审核 ：毒品，赌博，违禁品等违禁内容。

注：其实音频只是一个载体，以上审核的内容实际上视频审核也会涉及。

（3）场景发散

这里多发散下思维，由于目前各个内容审核厂商已经基本是同质化竞争了，所以产品的后续要想继续保持竞争力。

一方面是技术能力的迭代加强，另一方面也是需要进一步拓展场景。

比如是否支持AR内容的审核，又或者跟当前元宇宙结合，是否开始研究将来元宇宙内的信息审核呢。

2. 业务流程

这里从宏观点的角度陈述产品的业务流程，具体的细节可以交流，不在文章中赘述，业务流程中主要包括三块。

源数据+预处理 ：通过接入待审核的内容，再进一步做预处理，包括分段等操作；
模型处理 ：审核的核心，通过输入预处理后的数据，进行AI分析，输出机器审核结果，包括确认违规、疑似违规和未违规；
人工复审 ：对疑似违规内容进行复审，同时也对违规和未违规的内容抽样审核，尽量确认判断的准确性，同时在这一步也可以将人工复审出来的badcase做数据回流用于算法升级迭代。

AI应用实例（三）：音频审核

注：在实际业务场景中，一般会考虑是先审核再内容发布还是先发布再内容审核。

这里就需要根据业务进行判断，因为这同时涉及到内容时间（希望抢占热点）和风险的制约。

一般可以考虑将违规风险很低的内容做先发后审（但是要提供及时下架的能力，避免出现扩散风险），比如PGC内容。

3. 产品功能设计

本节的产品功能设计主要从能力平台角度出发进行讲解，至于业务结果输出后涉及到的业务系统这边不做分析。

一个比较完备的音频审核产品可以从以下几个角度进行设计。

（1） 功能接口 ：提供好用的API和SDK能力，包括数据请求分析、数据结果查询、规则定义接口（比如添加违规词等）等接口。

在设计时，需要设定好字段的支持力度，比如对于请求时要支持URL，同时是否需要支持音频审核模板（模板这里是指一段音频全部审核，还是根据模板中选定的审核维度进行审核，比如只审核涉黄）。

（2） 可视化界面 ：建议同步提供可视化界面便于接入的用户进行数据查看，可视化界面不仅可以提高用户体验，也可以辅助用户进行产品使用。

一般可视化界面可以包括以下几点。

音频分析 ：除了接口外，用户可以在可视化界面上传音频文件进行分析，分析后可以查看分析结果
规则设定 ：支持用户自定义设定违规的内容，比如设定违规广告词、涉政敏感词等；
数据统计 ：可以包括两个部分，一部分是统计数据分析的量级，以及分析成功失败的次数等；另一方面以违规类型进行统计违规次数，比如某段时间内广告违规发生了多少，涉黄内容发生了多少等；

注：除了上述三点，还可以支持用户管理，比如用户可以在系统中创建用户账号，支持不同业务系统使用等。

4. 评估指标

评估指标需要考核两个方面。

违规识别准确率 ：统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量；
违规识别召回率 ：统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。

音频审核的发展对音频市场扩大可以起到很好的辅助作用，对内容发布的监管可以实现降本增效。

但是在实际使用过程中，我们还需要思考业务应用场景，针对场景进一步迭代优化技术，比如车载场景的音频内容是否可以很好审核呢。

目前还存在很大的难度，因为车载场景的音频容易受到很多噪声的影响，所以不利于识别。

因此，总的来说，对于产品，需要能够结合业务做到场景可控，让AI真正发挥作用。

本文由@Eric_d 原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议。

给作者打赏，鼓励TA抓紧创作！