谷歌新街景图像识别算法可以破译99%验证码
这是谷歌面临的一个有趣难题:该公司新开发的一套算法更善于识别“街景”图像中的门牌号码,有助于用户获得更为准确的位置信息。但与此同时,这套算法由于过于先进,可以识别99%的验证码(CAPTCHA)。
谷歌今天 透露 ,谷歌用以识别门牌号码的新算法,可以在90%的时间里准确识别和读取街景图像中的高难度数字。根据谷歌街景团队与reCAPTCHA团队联合发布的一份 文件 ,在自然照片中识别这种数据是相当困难的一件事。毕竟,街道照明千差万别,同时还存在活动和聚焦模糊的问题。但与此同时,对谷歌地图项目来说,从这些图像中获取这种数据又是必不可少的。
常用做法是将定位、分割和识别等几个步骤区分开进行,但谷歌的新算法则将这些步骤统一起来,同时还采用一种“ 深度卷积神经网络 ”(deep convolutional neural network)——一种对图像识别特别有效的神经网络。利用谷歌当前公开的“街景门牌号码”(Street View House Numbers),新算法的准确率高达96%。如果是按每个数位(per-digit)计算,准确率甚至能达到97.84%。正常的街景图像识别起来难度更大一些,正因为如此,此类数据的准确率“只有”90%。
谷歌表示,迄今为止,这套系统已经帮助它抓取了全球近1亿个门牌号码。
为测试新算法,谷歌还拿出自有的reCAPTCHA验证码。结果发现,对于难度最大的reCAPTCHA验证码,新算法的准确率都达到99.8%。鉴于人们对验证码的普遍认识是,它们的难度太大,只有计算机才能解决,因此这是一个相当惊人的数据,准确率可能也好于大多数人(至少我知道自己在识别验证码时,准确率绝不会接近99.8%)。
这显然给reCAPTCHA带来了问题,因为对这种问题背后的科学不太感兴趣的开发者,可以利用这种机制来滥发博客评论。但谷歌 表示 ,其验证码系统对破译这种歪曲文字的依赖程度远远低于以前任何时候。相反,reCAPTCHA现在着眼于范围更广的线索。输入验证码只是一个线索,谷歌现在将它看作是“一种互动媒介,用以引出定义人类和机器人特征的各种各样的线索。”(译:皓岳)