谷歌引入尖端NLP技术搜索引擎查询效果提高10%

砍柴网 • 5年前扫码分享

10月26日消息，据外媒报道，谷歌目前正在对其核心搜索算法进行调整，称这可能会帮助搜索查询效果提高10%。谷歌引入了其研究人员开发的尖端自然语言处理(NLP)技术，并在过去10个月中将其应用于搜索产品中。

本质上，谷歌声称其可通过更好地理解句子中单词之间的关系来提高搜索结果。谷歌研究员兼搜索业务副总裁潘杜·纳亚克(Pandu Nayak)表示，老版谷歌搜索算法将句子分解成“一连串的单词”，并分析重要单词的意思，从而给出简单的本地搜索结果。而新的算法能够理解上下文语境，进而给出更精确准确的结果。

谷歌调整后的搜索算法基于语言表达模型BERT，即“Bidirectional Encoder Representations from Transformers”的缩写，它将句子作为整体来看待，更注重句子的整体意义。谷歌高级研究员兼研究高级副总裁杰夫·迪恩(Jeff Dean)表示，随着时间的推移，这种培训在让NLP模型“理解”上下文方面变得非常有效。

谷歌表示，它在过去几天始终在推动算法改进，这应该会影响到美国约10%的英语搜索查询结果，其他语种的改进将在稍后讨论。

对搜索的所有改进都会经过一系列测试，以确保它们确实改善了查询结果。其中一项测试涉及使用谷歌的核心人类评审员，他们通过对搜索结果的质量进行评级来培训公司的算法。此外，谷歌还会进行实时A/B测试。

当然，并不是每个查询都会受到BERT的影响，这只是谷歌用来对搜索结果进行排名的诸多不同工具中最新的一个。这些工具到底是如何兼容工作的，这仍然是个谜。谷歌有意将其中某些过程保秘，以防止垃圾邮件发送者对其系统进行欺骗。

除此之外，保密的另一个重要原因是：当计算机使用机器学习技术做出决定时，很难知道它做出这些选择的原因。机器学习的所谓“黑匣子”是个棘手问题，因为如果结果在某种程度上是错误的，那么很难诊断原因。

谷歌表示，该公司已经努力确保在搜索算法中加入BERT后不会增加偏差，这是机器学习中的一个常见问题，机器学习的训练模型本身也是存在偏差的。由于BERT是在巨大英语句子语料库上训练的，这些句子本身也是有偏见的，所以这是个需要密切关注的问题。

该公司还表示，预计其新算法在引导流量方面不会出现重大变化，至少对于大型出版商而言是这样。每当谷歌发出改变其搜索算法的信号时，整个网络都会加以密切关注，毕竟谷歌搜索排名的变化有时候决定了公司的生死存亡。

每个依靠网络流量赚钱的人绝对应该注意到这一点。当谈到其搜索结果的质量时，纳亚克说：“这是我们在过去五年中经历的最积极的变化，也可能是公司成立以来最大的变化之一。”

【来源：网易科技】