微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

雷锋网 (公众号:雷锋网) AI 科技评论消息,清华大学副教授、Arnetminer 创始人唐杰博士在微博上更新了清华和微软在 KDD 上公布的最新成果——Open Academic Graph。

「我们和微软在 KDD 上发布了一个非常大的学术数据,包含有微软 1.6 亿论文和 AMiner 里面抽取出来 1.55 亿论文,同时还给出了这两个数据之间的链接关系(可以用于做数据集成研究),欢迎大家下载,这也是清华和微软等单位联合成立的开发学术社区 Open Academic Society 。」

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

据雷锋网 AI 科技评论了解,该数据集仅供科研用,包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表的 6463 万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面,即链接关系、MAG 论文集及 AMiner 论文集。

官网介绍: https://www.openacademic.ai/news/

此外,在 aminer 的官网上也同步了 3 个 AMiner 论文集和 9 个 MAG 论文集的打包下载渠道:

https://aminer.org/open-academic-graph

在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:

{
  "mid": "xxxx",
  "aid": "yyyy"
}

其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。

对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:

示例如下:

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

在使用的时候,研究者可以通过以下两步进行操作:

  • 1. 采用 Microsoft Graph Search API 查询每个 AMiner 的论文标题,并且筛选出对应的链接论文。

  • 2. 如果两篇论文满足以下条件,则会被链接起来:

    1)标题相似;2)作者数目相同;3)有类似的作者名字及 4)相同的出版年份。

在测试过程中,研究者以 24012(TODO)链接论文对在数据集上进行测试,能够正确匹配的论文对有 23859 份,准确度达到 99.36%。

在 Open Academic Society 官网上,研究者又提供了一份准确率的最新数据:他们将 4100 个研究对进行准确性测试,发现有 4029 个成功匹配,准确率达到了 98.27%。

该数据集能够在 cloud API 上免费获得。如唐杰博士所言,这个数据集将成为 Open Academic Society 学术社区的重要组成部分。Open Academic Society 旨在建立一个共享、开源且不断扩展的知识图表体系,并构建以教育为核心的实体关系。以微软研究院旗下的 Microsoft Academic 和清华大学的 AMinergraph 领衔,知识图表的不断发展也得益于社区成员的持续贡献。

雷锋网 AI 科技评论了解到,Open Academic Society 目前的成员包括 22 位老师/研究机构,也有不少华人,包括亚利桑那州立大学刘欢教授、澳大利亚国立大学 Lexing Xie博士、中科院程学旗博士、清华大学唐杰博士、UCLA 的 Yizhou Sun 博士、伊利诺伊大学厄巴纳-香槟分校 的 Chengxiang Zhai 等老师。

为了形成更大的计算机社区,Open Academic Society 将组织 workshops、挑战赛及数据分享活动。截至目前已经在 KDD 2017、WWW 2017、WSDM 2017 等会议上开展 workshops 及分享活动,并在 KDD CUP 2016、DataScienceGame 2016 和 Open Academic Data Competition 2017 上举办挑战赛,详细清单可查看: https://www.openacademic.ai/events/

随意打赏

微软office微软 数据集微软数据中心微软输入法微软浏览器微软官方微软手机微软账户微软中国微软官网
提交建议
微信扫一扫,分享给好友吧。