将文学问题变成数学问题,Google的”看图说话“是这样实现的

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

将一种语言翻译成另一种,一直是一个艰巨的任务, Google 已经通过开发机器翻译算法使这种情况发生了改变,用Google翻译改变了跨文化交流的本质。 而今, Google 正在用同样的机器学习技术来将图片“翻译”为文字,研究成果是一个可以自动给图片生成说明文字的系统Neural Image Caption,所得的文字能够准确地描述出图片的内容。研究成果将有助于搜索引擎,以及帮助视障人士上网。

语言翻译的常规方法是一个迭代过程,从翻译单个单词开始,然后将词和短语进行重新排序,从而改进翻译。但近年来,Google已经研究出来了应如何利用其庞大的搜索数据库,用一种全新的方式来翻译文本。

该方法本质上是 计算字词出现于其他字词周围或者附近的频率,然后将这些词定义在抽象的矢量空间中 。如此一来,每个字词都由一个矢量代替,句子就由矢量的组合代替。

Google继续做出一个重要的假设。在任何语言中,特定的字词之间的关系不变。例如,矢量“国王–男人+女人=女王”成立于任何语言之中。

这就使得语言翻译变为了一个矢量空间数学问题。 Google翻译通过将句子转化为矢量,再用矢量来生成另一门语言中意义相同的句子,从而实现语言的翻译。

现在,Google的Oriol Vinyals和他的小伙伴们正在用类似的方法将图片转化为文字。他们采用的技术,是用神经网络来研究有着十万张图片和配套图片说明的数据库,然后学着如何将图片的内容进行分类。

但他们的算法产生的是代表字词关系的矢量,而不是一组描述图片的字词。 这种矢量可以嵌入到Google现有的翻译算法当中,从而用英语或者其他语言产出图片说明。事实上,Google的机器学习方法已经学会了将图片“翻译”成文字。

为了测试这种方法的有效性,他们让从 亚马逊 Mechanical Turk招募而来的人评估了以这种方式自动生成的图片说明,以其他方式生成的说明,以及人工写的图片说明。

结果表明,新系统运转良好,使用PASCAL图片数据库测试,它的表现明显优于其他自动生成的方法,取得了59分,而目前最先进的其他技术只有25分,人工写成的69分。

这个结果已经不错了,并且随着训练数据库规模的增加,表现也会越来越好。 显然,这又回到了另一个问题,人类优于机器的日子,是不是屈指可数了?

via mit

随意打赏

提交建议
微信扫一扫,分享给好友吧。