“优衣库试衣间”是怎么逃过视频审核的？

百度百家 • 9年前扫码分享

“优衣库试衣间”视频之后，北京三里屯的优衣库俨然已经成了朋友圈朝拜的景点之一。这又印证了那个万古不变的真理： 黄赌毒的病毒传播属性总是惊人。

不过，不是说好网监手伸的又长又广吗？不是说好视频审核很严格吗？这样的视频是如何在一夜间不断被删又不断流出？

某视频网站的工作人员告诉雷锋网记者，目前他们每天处理的短视频上传量在150万左右，而审核人员不超过50个，视频审核的工作一大部分由机器负责。

图像识别和声音识别都还好说，机器是如何审核视频的？

入门级：MD5

先来看看国家不喜欢什么样的视频。

在下发的《网络视频审查管理规定》中，一共对十类视频不予审查通过，大而言之是反对宪法基本原则的、危害国家统一、泄露国家秘密等。

不过某视频网站告诉雷锋网记者，更接地气一些的形容是三类： 色情、暴恐和极端宗教主义 。除了规定所有用户自发上传的视频需要进行严格审查之外，网监还会对互联网上已经发布的视频进行二次审核。“参与审核的人数多到让你震惊”，某位业内人士这样告诉雷锋网记者。

在中国，每个公民都有一个唯一的身份证号（ID），通过这个ID可以全方位的定位一个人的年龄、性别、出生地等，同比MD5就是视频的ID。网监有一个巨大的危险MD5库，库内藏着各种不能流于世的视频。视频网站都需要接入这个库，并在实际审核中增加自己的库存。

在早期，过滤视频的第一步就是横扫整个库，把MD5吻合的视频直接剔除，并将它提交给公安违禁库。

不过，某短视频网站的工作人员M告诉雷锋网记者，匹配MD5正在逐步弃用，原因在于MD5非常容易被篡改，在视频中加入文字或者修改任意一帧就能实现。

于是，出现了更高级别的审核办法。

性能级：机器审核

通过MD5之后的视频，第二步会经历机器审核的过滤。市面上已经有成熟的第三方公司提供API接口，辅助视频网站进行机器审核。

图普科技的CEO李明强告诉雷锋网，机器审核视频是基于深度学习图像识别云，实际也是将视频截图，由机器审核每一张截图的安全性。不过具体是3秒截一张还是5秒截一张，松紧度由视频网站自己控制。

李明强介绍，机器审核视频原理是先建模，然后导入海量的违禁视频，让多个机器同时进行深度样本学习，再标注无法通过的图像种类，进而把这些样本揉碎、旋转、添加“噪音”，提高机器识别能力。这其中拼的不止是技术，还有样本图库的大小。据了解，在图普科技的样本库中，有超过1亿的色情样本和千万级别的极端宗教主义样本特征。

对于不能通过的视频，机器审核视频会给出两类结果：确定不能通过的，这类的准确率几乎能达到99.5%以上；仅作参考的，准确率在95%到97%，这可能意味着该视频需要再次进行人工审核。

据雷锋网了解，从整个行业来说， 机器基本能筛过99%的视频，只有1%需要再次动用人工。 如果是150万的视频，那人工只需要审核1.5万个。