微软开源其搜索服务的一个关键算法
微软开源其搜索服务的一个关键算法
2019年05月16日 11时58分微软开源了其 Bing 搜索服务快速返回搜索结果的一个库,源代码采用 MIT 许可证托管在 GitHub 上。软件巨人希望开发者能将其公开的算法应用到其它搜索大量数据集的服务,为用户构建类似的体验。名为空间划分树和图(Space Partition Tree and Graph,SPTAG)的算法是这个开源库的核心,利用该算法微软能在数毫秒内搜索数十亿条信息。矢量搜索本身并不新鲜,但微软的独特之处是将该概念应用到深度学习模型。他们首先用预训练的模型将数据编码到矢量,每个矢量代表一个字或像素。使用 SPTAG 库它会生成一个向量索引。当查询进入,深度学习模型将文字或图像翻译为向量,然后库在其索引中寻找最相关的向量。