深度 | 构建人工智能学术搜索引擎,Semantic Scholar和微软向谷歌发起挑战
选自Nature
作者:Nicola Jones
机器之心编译
参与:李泽南、曹瑞
人工智能搜索引擎「Semantic Scholar」由艾伦人工智能机构的首席执行官 Oren Etzioni 牵头研发。
以人工智能为基础的免费学术搜索引擎 Semantic Scholar 刚刚宣布,它已经覆盖了 1000 万计算机和神经科学论文。这一搜索引擎旨在利用更先进的技术来构建一套智能学术搜索引擎,并超越谷歌学术。自去年 11 月发布以来,Semantic Scholar 的出现壮大了人工智能搜索引擎的阵营,而在这些检索工具中,最引人注目的则是重新上线的微软学术。
位于西雅图的非盈利性机构艾伦人工智能研究所(AI2)的 Semantic Scholar 搜索刚刚在神经科学年会上发布了新版本,并受到了科学家们的欢迎。「它会改变游戏规则,」斯坦福大学的神经生物学家 Andrew Huberman 说道。「现在学术界的信息庞杂,有了这个搜索引擎,学者们的工作将会获得指引。」
这一搜索引擎于 2015 年 11 月发布,其开发者宣称它对论文的搜索排名基于对内容和上下文复杂的认知方式。目前最流行的学术搜索谷歌学术可以链接 2 亿篇文档,而且覆盖付费内容。
但是,谷歌的工具依赖于文章关键字,而且内容和影响力对搜索结果的影响有限;不过,Semantic Scholar 则与此不同,它的搜索结果显示的是内容与搜索词存在相关性的文章,排名则有关引用增加的速度――这篇文章到底有多热门。
Semantic Scholar 刚刚上线时只能检索到 300 万篇计算机科学领域的论文。在 AI2 兄弟机构的协助下,搜索引擎中的内容逐渐增多。艾伦脑科学研究所已将数百万神经科学和医学论文加入其中,并添加了新的 filters。这些 filters 允许用户在细分领域进行搜索,如有关大脑特定部分、大脑中特定细胞、研究哪个模型生物体以及使用什么方法的论文。
「明年,AI2 的目标是索引所有 PubMed 中的内容(PubMed 包含来自 MEDLINE、生命科学类期刊和在线图书中超过 2600 万的生物医学文献),并将覆盖面扩大到所有的医学细分领域。」Oren Etzioni 说道。
目前,这个搜索引擎仍然需要进行内容的扩充,马德里 Expert System 软件公司的 Jose ManuelGómez-Pérez 说道:「我目前使用最多的仍然是 Google Scholar,但 Semantic Scholar 引擎还有很多潜力。」
微软的复兴
微软学术图景显示了科学出版物记录、出版物引用关系以及作者之间的关系。
Semantic Scholar 并不是唯一一个基于人工智能的搜索引擎。电脑巨商微软在今年 5 月份也公开发布了自己的人工智能学术搜索工具――微软学术(Microsoft Academic),取代了它的「前辈」微软学术搜索(Microsoft Academic Search),后者的服务在 2012 年被公司停止。
微软这次的野心并不止于学术搜索。目前,所有研究者都可以通过 API 和开放学术社区(Open Academic Society)接触到微软学术搜索的算法和数据。
开放学术社区是微软研究院和艾伦人工智能研究所以及其他机构的合作构建的平台。微软 MSR Outreach Innovation 的常务董事 Wang Kuansan 说道,「越多人研究这个问题,情况就会越来越好。」他认为 Semantic Scholar 已经逐步深入到了自然语言处理上,也就是说能够理解论文和查询中完整语句的含义。但是微软的工具,是由公司的网页搜索引擎必应的语义搜索功能所驱动的,所以涵盖的范围更广,能覆盖 1.6 亿篇学术论文。
和 Semantic Scholar 相似的是,微软学术也提供了实用的(可能不够广泛的)filters,可以根据作者、期刊和研究领域进行信息过滤。同时,它还采用了一种排行榜的形式,将每一个分支学科中最有影响力的科学家做了排序。这些人一般是那些在某个领域有极其「重要」影响的出版人,而这些排名都是由一个递归算法(免费可用)基于这些论文在其他一些重要的论文中的引用与否来判断的。根据微软学术的显示,在过去的半年当中最顶尖的神经科学家是美国明尼苏达州罗彻斯特梅奥诊所(Mayo Clinic)的 Clifford Jack。
其他的一些学者也表示对微软的研究印象深刻。Anne-Wil Harzing 正在英国密德萨斯大学研究科学计量学,在分析过这一新产品之后,她表示:「这个搜索引擎正在将谷歌学术搜索大覆盖面的优点和斯高帕斯数据库 (Scopus) 和科学引文索引数据库(Web of Science)等数据库能产生有结构性的文献订阅数据的优点相结合。」
「不可否认,微软学术已经在不断发展壮大了。」微软研究院表示,他们正在研究一种能够允许用户登录的个性化版本,这样微软就能够根据他们的关注领域推荐给他们合适的新论文,或者是提醒他们自己的论文被引用,这个版本预计在明年初完成。
其他公司和学术研究机构也都在发展人工智能驱动的软件,希望能够更加深入研究到在线内容查找。比如说,位于德国萨尔布吕肯(Saarbrücken)的马克斯·普朗克计算机科学研究(Max Planck Institute for Informatics)正在研究一种叫做 DeepLife 的引擎,专门针对健康和生命科学领域。Etzioni 表示,「这些都是研究原型,不是可持续的长期研究计划。」
「艾伦人工智能研究所的长期目标是创造一个能够回答所有科学问题的系统,它将能够提出新的实验设计,甚至能够帮我们做出合理的猜想。」Etzioni 说道,「在 20 年之后,人工智能就可以拥有阅读科学文本的能力――更重要的是,拥有理解的能力。」
©本文为机器之心编译文章, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn