智能“鉴黄”新姿势开启,“鉴黄师们”不服可来战

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

随着移动 互联网 读图时代的到来,大量游走在政策边缘的色情、暴力、血腥等擦边球的低俗内容,每天都以数以亿计的数量在各大网站、移动 社交 类App和UGC类App等平台上涌现,对用户的互联网的内容消费体验造成了干扰,其中色情的图片内容表现最甚。但由于过去对色情内容的监管手段主要依靠的还是人工的排查和过滤,所以高效准确地鉴别和剔除这些淫秽色情信息,成为了一项十分艰巨的任务。

在这里,不得不提的一个神秘职业就是社交圈上广为流传的所谓的“鉴黄师”。据了解,依靠人工排查,鉴黄师们每日人均的审核极限大约在2w张图片量级,除了图片,还需要深入到各种隐蔽的网链背后去寻找并识别那些可能涉黄的信息。这份“看上去很美” 的工作,其实是非常枯燥和繁琐的。此外,单纯依靠人工排查的手段,面对互联网上山呼海啸般的涉黄信息,在效率上无疑是捉襟见肘的。随着近些年人工智能技术的飞速发展,依赖海量数据与机器学习的智能鉴黄手段凭借着高效率高精度等优势,正在逐步取代人工审核,成为打击色情信息的中坚力量。

据小花边了解,目前国内至少已有三家企业平台推出了智能鉴黄服务,分别为阿里绿网、图普 科技 、腾讯优图(又名万象优图)三家,那么究竟智能鉴黄技术哪家强?三家在鉴黄效果上又有何不同?带着一点小娇羞,同时又怀揣着一点小激动,小花边低调地进行了一番智能“鉴黄”体验!

由于图普和腾讯优图很贴心地提供了线上测试网页,支持上传图片实时返回鉴别结果,小花边用某搜索引擎随机找了几张测试图片,直观体验了下鉴黄效果。结果如下:

PS:在以下鉴黄体验中,所有可能的涉黄信息都会经过系统打分。“打个比方,如果系统打分说这个图片99%涉黄,那就几乎可以确定是,机器自己会处理。另外一些次一点分值的图片,就需要人工鉴别。”

腾讯优图返回结果

图普科技返回结果

赤裸裸的图片显然容易判别,但是一些并不露点,却充满性暗示的图片,应该怎么判断?对图片的智能识别能力将成为一个大考验。为此,笔者特意选择了三张羞羞的图片(别问我是从哪里弄来的)、一张颇受争议的wanimal摄影集的图片(第四张)和四张正常的图片(后四张)来进行识别。

从打分结果上看,似乎腾讯优图的识别精度更高。图片识别结果以标签(色情、性感、正常) + 概率的形式返回,与人工在涉黄可能性上的判断上近乎一致,效果棒棒哒。

然而仅仅几张的测试图片,并不能说明哪家的算法效果,笔者虽然不是专业人士,但也清楚大数据上的评价会更符合统计规律、更贴合实际应用场景。为了更科学公正的比对这三家的技术实力,笔者采取了如下的评测方案:

首先,从网上的某搜索引擎收集了25005张正常图片(主要为一些风景照和生活场景照片)。另再从近期热点“艳照门”视频中截取了92张色情图作为色情的评测集。

样本采集完备后,需要制定评测指标。这里需要和读者普及下两个机器学习领域的重要指标:

正确接受率(true acceptance rate)和错误接受率(false acceptance rate)其中正确接受率表示的是N色情图片中能识别出M张是色情图片的比例,M/N数值越大,则说明算法对色情图片的发现能力越好(比如给定的92张色情图片,如能全部定义为色情,则正确接受率就为100%)。而错误接受率是指在X张正常图片中,把Y张错判为色情图的比例,Y/X数值越大,则出错的概率越高。一般来说,要公平比对不同算法能力,只需比较在同等的错误接受率条件下各自的正确接受率高低就可以了。

OK,万事俱备,就不再卖关子了,直接公布测试结果吧!

先看图普,通过将数据上传官方的测试网页得到了以下结果:25005张非色情图片中有9张被判成了色情;92张色情图片中有27张被判成了色情;因此,其错误接受率为 9/25005=0.036% ,正确接受率为27/92=29.348%。大概有2/3的色情图被系统漏掉了。

然后是腾讯优图和阿里绿网,注册为开发者后,根据官方提供的sdk,批量地获得了每张图片的色情概率;为了和图普的结果看齐,从小到大遍历色情概率阈值,获得了各自同样错误接受率条件下的正确接受率,具体见下表:

结果已经一目了然,在这一轮的比对测试中,腾讯优图完爆了另外两家的效果,此处小花边必须给腾讯的工程师点个赞。不过整体看起来,智能鉴黄技术水平的上升空间还比较大,与肉眼鉴别还有一定的差距,希望在不久的将来可以取代人工,彻底解放苦逼的“鉴黄师”一职。而当这项技术有一天得到了大规模的应用和普及,也不难脑补到数以万计的宅男哭晕在厕所的画面。

文:孙海亮

微信公众号:花边科技

随意打赏

提交建议
微信扫一扫,分享给好友吧。