Solidot | Google工程师将语言翻译变成向量空间数学问题
现有的基于统计翻译的在线工具如巴比鱼和Google翻译,翻译的结果勉强可用,但离完美还相去甚远。现在,Google工程师在预印本网站上发表论文,介绍了一种不依赖于统计翻译的新技术。他们的方法是将语言翻译变成向量空间数学问题,利用数据挖掘技术建模一种语言的结构,然后与另一种语言的结构进行对比。新的方法是基于一个概念,即每一种语言都有一套相似的理念,因而使用单词的方式也存在相似性。例如,大多数语言中都有描述相同动物的单词,如狗、猫和牛,这些单词很可能以相同的方式在句子中使用,如“猫是一种比狗小的动物”。语言中单词之间的关系集合被称为“语言空间”,可类比为一个点到另一个点的向量集合,能以数学的方式进行处理,例如王减去男性加上女性等于女王(‘king’–‘man’+‘woman’=‘queen’)。在向量空间中,许多语言都有共通之处,可以利用向量空间线性变换将一种语言翻译成另一种语言。Google工程师表示,新的方法非常有效。