谷歌推出“超人”神经网络,不服来挑战(附网址)
随机从网络上挑一张照片,仅凭图片本身确定它是在哪儿拍摄的,这是件比较困难的事。如果图片上显示的是一座有名的建筑或地标,如艾菲尔铁塔或尼亚加拉大瀑布,当然就比较简单。但当图片缺乏具体位置线索,比如是在室内拍摄,显示的是宠物、食物或其他东西时,难度就相当大了。
人类在这方面做得比较好,利用了各种知识来帮助自己。比如出现的标志类型和语言、植被类型、建筑风格、交通方向等等。人类一生都在积累这些地理位置线索。
因此,不难想到,机器也可以加入该任务。事实上,他们已经加入。
谷歌计算机视觉专家托比亚斯•韦安德(Tobias Weyand)和其几个伙伴制造了一个机器,只需通过内置的像素就能确定几乎任何图片的位置。这个新机器明显要优于人类。甚至可以使用一些聪明的伎俩来确定室内图片和宠物、食物等没有位置线索的特殊图片的地理位置。
他们的方法很简单,至少在机器学习领域是这样的。开始,韦安德和其伙伴们将世界分成由 26000 多个大小各异的方块组成的网格,这主要由拍摄地的图片数量决定。大城市的网络结构肯定要比偏远地区精细的多。不过,谷歌团队忽略了海洋和极地地区,因为那里很少被拍摄。
接下来,研究小组从网上创建了一个已定位过的图片数据库,并使用位置数据来确定每个拍摄图片的网格方块。这是一组庞大的数据,包含1.26亿张图片,还有它们的 Exif (可交换图像文件) 位置数据。
为了教会强大的神经网络仅靠图片本身就能确定网格位置,韦安德及其伙伴们使用了 9100万张图片。他们的想法是将一张图片输入到这个神经网络,然后输出一个特别的网格位置或一组可能的备选情况。
然后,它们用数据集中余下的3400万张图片验证了神经网络。最后,又以各种不同的方法测试了其称之为 PlaNet 的网络。
结果是非常有趣的。为了衡量机器的精确性,他们输入了230 万张来自网络相册的地理标记图片,看它是否能准确的定位这些图片的位置。PlaNet对街区级图片的准确定位率为 3.6%,市区级为 10.1%。此外,对于28.4% 的图片,它能识别出是在哪国拍摄的,48.0 % 的图片能判断出来自哪个大洲。
这已经是相当不错的了。为了证实其究竟有多好,韦安德将 PlatNet 与10个见多识广的人进行了一次对决。为了此次测试,他们使用了一个在线游戏。该游戏为选手呈现一张随机从谷歌街景上选择的图片,然后让他们在世界地图上确定位该图片的位置。
任何人都可以通过 www.geoguessr.com 玩这个游戏。试一试,很有趣。
毋庸置疑,PlaNet 完胜人类。“总体而言,PlaNet 赢了50 轮中的28 轮,平均定位误差为1131.7 km。而人类的平均定位误差为2320.75 km。”韦安德和其伙伴们说。”这次小规模实验表明, PlatNet 在街景地图定位方面具有超人的表现。”
这就引发了一个有趣的问题:在不借助人类依赖的植被、建筑风格等线索的情况下, PlaNet 是如何取得如此好的表现的?韦安德说:“我们认为PlaNet具备人类没有的优势,因为它所看到的地方比任何人到过的地方都要多,并获得了不同地方的细微的线索,这些哪怕是见多识广的人也无法辨识。”
他们进行了进一步的实验,用该机器来定位没有位置线索的图片,如那些在室内或对特定物品进行的拍摄。当所需定位图片和图辑中其它图片一样,都是在同一个地方被拍摄的(这是可能的)。该机器只需通过查找图辑中其它图片的拍摄位置,然后假定某张具体的图片也是在同一位置被拍摄的。
这项令人印象深刻的工作再次展示了神经网络的实力。或许更令人印象深刻的是,该模型使用了相对较少的存储器,而不像其他方法使用上千兆字节。“我们的模型仅使用377 MB,刚好适合智能手机的内存”韦安德和其伙伴们说。
超人神经网络赋予智能手机的力量,让人非常好奇。现在,它离我们肯定不会远了!
更多精彩内容请关注官方微信公众号:MIT-TR