AAAI 2018预讲会在哈工大成功举办,25篇顶会文章讲了什么(下)
雷锋网 AI 科技评论按:1 月 6日,由中国中文信息学会青年工作委员会(简称「青工委」)主办,哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)承办的『AAAI2018 预讲会』在哈尔滨工业大学成功举办。本次会议由华为和云孚科技提供赞助,雷锋网作为独家合作媒体,提供了在线直播,并对本次预讲会做全程报道。
来张讲者合照镇楼! 其中有教授、博士、研究生、本科生,覆盖了学术研究的各个年龄层。
照片由哈工大李家琦提供
本次 AAAI 2018 预讲会邀请了来自全国各地 15 所高校和研究单位的老师和同学分享他们在 AAAI 2018 中接收的 25篇论文,内容覆盖有聊天机器人、语义依存图、文本摘要、机器翻译、信息抽取、表示学习等多个领域的最新研究成果。会议吸引了 200多名老师和学生来此参会并进行交流。
我们在《 AAAI 2018预讲会在哈工大成功举办,25篇顶会文章讲了什么(上) 》中已经详细介绍了其中的12篇文章,分别为:
Session 1
[1] Adversarial Learning for Chinese NER from Crowd Annotations
作者:杨耀晟,张梅山,陈文亮,张伟,王昊奋,张民
单位:苏州大学人类语言技术研究所
[2] Adaptive Co-attention Network for Named Entity Recognition in Tweets
作者:张奇,傅金兰,刘晓雨,黄萱菁
单位:复旦大学
[3] Large Scaled Relation Extraction with Reinforcement Learning
作者:曾祥荣,何世柱,刘康,赵军
单位:中科院自动化所
[4] Event Detection via Gated Multilingual Attention Mechanism
作者:刘健,陈玉博,刘康,赵军
单位:中国科学院自动化研究所
[5] Neural Networks Incorporating Dictionaries for Chinese Word Segmentation
作者:张奇,刘晓雨,傅金兰
单位:复旦大学
[6] Learning Multimodal Word Representation via Dynamic Fusion Methods
作者:王少楠, 张家俊, 宗成庆
单位:自动化所
Session 2
[7] Inferring Emotion from Conversational Voice Data: A Semi-supervisedMulti-path Generative Neural Network Approach
作者:周素平,贾珈,王琦,董宇飞,尹宇峰,雷克华
单位:清华大学
[8] Long Text Generation via Adversarial Training with Leaked Information
作者:郭家贤,卢思迪,蔡涵,张伟楠,汪军,俞勇
单位:上海交通大学
[9] Style Transfer in Text: Exploration and Evaluation
作者:付振新,谭晓烨,彭楠赟,赵东岩,严睿
单位:北京大学计算机科学技术研究所
[10] Meta Multi-Task Learning for Sequence Modeling
作者:陈俊坤,邱锡鹏,刘鹏飞,黄萱菁
单位:复旦大学
[11] RUBER: An Unsupervised Method for Automatic Evaluation of Open-DomainDialog Systems
作者:陶重阳,牟力立,赵东岩,严睿
单位:北京大学计算机科学技术研究所
[12] Exploring Implicit Feedback for Open Domain Conversation Generation
作者:张伟男,李凌志,曹东岩,刘挺
单位:哈尔滨工业大学
我们接下来将详细介绍另外13场报告的内容。分别为:
Session 3
[13] Neural Character Dependency Parsing for Chinese
作者:李浩楠,张智松,琚毓琪,赵海
单位:上海交通大学
[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing
作者:王宇轩,车万翔,郭江,刘挺
单位:哈尔滨工业大学
[15] Asynchronous Bidirectional Decoding for Neural Machine Translation
作者:张祥文,苏劲松,秦悦,刘洋,纪荣嵘,王鸿吉
单位:厦门大学
[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules
作者:郭舒,王泉,王丽宏,王斌,郭莉
单位:中国科学院信息工程研究所
[17] Embedding of Hierarchically Typed Knowledge Bases
作者:张日崇,孔繁爽,王晨玥,茆永轶
单位:北京航空航天大学
[18] Faithful to the Original: Fact Aware Neural Abstractive Summarization
作者:曹自强,韦福如,李文婕,李素建
单位:香港理工大学
[19] Twitter Summarization based on Social Network and Sparse Reconstruction
作者:贺瑞芳,段兴义
单位:天津大学
Session 4
[20] Improving Review Representations with User Attention and ProductAttention for Sentiment Classification
作者:吴震 ,戴新宇,尹存燕,黄书剑,陈家骏
单位:南京大学
[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of WordEmbeddings with Sememe Attention
作者:曾祥楷,杨成,涂存超,刘知远,孙茂松
单位:清华大学
[22] Learning Structured Representation for Text Classification withReinforcement Learning
作者:张天扬,黄民烈,赵立
单位:清华大学
[23] Assertion-based QA with Question-Aware Open Information Extraction
作者:闫昭,唐都钰,段楠,刘树杰,王文迪,姜大昕,周明,李舟军
单位:微软亚洲研究院
[24] End-to-End Quantum-like Language Models with Application to QuestionAnswering
作者:张鹏,牛嘉斌,苏展,王本友,马力群,宋大为
单位:天津大学
[25] EMD Metric Learning
作者:张子昭,张宇博,赵曦滨,高跃
单位:清华大学
Session 3(7场报告)
主持人:杨亮副教授,大连理工大学
[13] Neural Character Dependency Parsing for Chinese
作者:李浩楠,张智松,琚毓琪,赵海
单位:上海交通大学
经过一个半小时的午间休息和讨论后,Session 3 由来自上海交通大学的 赵海教授 开启。
2009 年,赵海教授针对中文分词过程中会受到词义模糊影响的问题,提出了字符级依存分析的方案。这种方案有两个好处:1)使用字符级树避免了中文分词不存在通用标准的问题;2)单词内部的深层次结构为更深层次的处理提供了额外的信息,能够更好地理解整个句子。
在此基础上,这篇文章利用神经模型来探索字符依存分析,提出了一个开放的字符级依存树库 SCDT(首次提供了丰富的字符级 POS 标签和依存类别标签)以及首个字符级别的神经中文依存分析器。
实验显示字符级 POS 标签和依存标签对解析性能起着重要的作用。另外在主分析指标方面,神经字符依存分析要比无神经网络的分析器更有效。
(感谢赵海教授指正)
[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing
作者:王宇轩,车万翔,郭江,刘挺
单位:哈尔滨工业大学
随后由来自哈工大 SCIR 的 王宇轩博士 分享了他们在语义依存图上的研究工作。
语义依存图是近年来提出的对树结构句法或语义表示的扩展,它与树结构的主要区别是允许一些词拥有多个父节点,从而使其成为有向无环图 (directed acyclic graph,DAG)。因此要获得句子的语义依存图,就需要对这种 DAG 进行分析。目前大多数工作集中于研究浅层依存树结构,少有人研究如何对 DAG 进行分析。
这篇文章提出一种基于转移的分析器,使用 list-based arc-eager 算法的变体对依存图进行分析。
[15] Asynchronous Bidirectional Decoding for Neural Machine Translation
作者:张祥文,苏劲松,秦悦,刘洋,纪荣嵘,王鸿吉
单位:厦门大学
来自厦门大学的 张祥文 介绍了他们在机器翻译中一项有趣的工作。
传统的机器翻译中都是按照单向顺序编码。这种方法的一个缺点就是,一旦中间出现翻译错误,随后的内容就会出现很大的差错。本文作者提出了一种双向编码的新思路。
15-1,双向编码
实验结果相较之前的方法有显著提升。但是这种效果的提升是以消耗计算量为代价的。Poster 环节中,张祥文也表示他们也曾考虑过跳序编码的方法。
[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules
作者:郭舒,王泉,王丽宏,王斌,郭莉
单位:中国科学院信息工程研究所
随后由来自中科院信息工程研究所的 王泉副研究员 报告了他们在知识图谱表示学习方面的研究。
学习知识图谱在低维向量空间中的分布式表示是当前研究的热点。最近,将分布式知识表示与传统符号逻辑相结合引起了越来越多的关注。但是,以往的大多数尝试采用一次性注入逻辑规则的方式,忽略了分布式知识表示学习和逻辑推理之间的交互性。此外,以往的方法只专注于处理硬规则,即那些总是成立、不能被违反的规则。这类规则通常需要耗费大量的人力来编写或验证。
本文作者提出了一种新的知识图谱分布式表示学习方法——规则引导嵌入(rule-guided embedding,简记为 RUGE),借助软规则的迭代引导完成知识图谱表示学习。所谓软规则,就是那些不总是成立、带置信度的规则。这类规则可以经由算法从知识图谱中自动抽取。
16-1,框架概述
具体来说,RUGE 同时利用标注三元组、未标注三元组、自动抽取出的软规则这三种资源以迭代的方式进行知识图谱表示学习。每一轮迭代在软标签预测和表示修正这两个步骤间交替进行。前者利用当前学到的表示和软规则为未标注三元组预测软标签;后者进一步利用标注三元组(硬标签)和未标注三元组(软标签)对当前表示进行修正。通过这个迭代过程,RUGE 可以成功建模分布式知识表示学习和逻辑推理二者间的交互性,逻辑规则中蕴含的丰富知识也能被更好地传递到所学习的分布式表示中。
(感谢王泉副研究员指正!)
[17] Embedding of Hierarchically Typed Knowledge Bases(孔繁爽,北航)
作者:张日崇,孔繁爽,王晨玥,茆永轶
单位:北京航空航天大学
孔繁爽 是来自北京航空航天大学的硕士生。她在报告中介绍了他们在 embedding 过程中考虑实体类型的研究工作。
Embedding 已经成为基于知识库和各种嵌入模型的预测、推理、数据挖掘和信息检索的重要手段。但是大多数模型都是「无类型的」,也即将知识库仅仅视为一个实例集合,而不考虑实体的类型。
17-1 ,embedding过程中考虑实体类型
在这篇文章中,作者研究了实体类型信息在知识库 embedding 中的应用。他们提出了一个框架,将一个通用的「无类型」嵌入模型添加到一个「有类型」嵌入模型中。这个框架将实体类型解释为对所有实体集合的一个约束,并使这些类型约束在嵌入空间中同构地引入一组子集。然后引入额外的 cost 函数来模拟这些约束与实体和关系的嵌入之间的适应性。
(感谢孔繁爽指正!)
[18] Faithful to the Original: Fact-Aware Neural Abstractive Summarization
作者:曹自强,韦福如,李文婕,李素建
单位:香港理工大学
来自香港理工大学的 曹自强博士 在随后的报告中提出,生成摘要不仅要保持信息充分,更重要的是信息的忠实性。
与抽取摘要不同,生成式摘要在融合原文本的过程中往往会创造出虚假的事实。曹自强在报告中介绍,目前有近 30% 的最先进的神经系统都会受到这种问题的困扰。以前生成式摘要主要着眼于信息性的提高,但作者认为忠实性(也即「信」)是生成摘要的前提,非常重要。
18-1,模型框架
为了避免在生成摘要中产生虚假事实,作者使用了开放的信息抽取和依存分析技术从源文本中提取实际的事实描述,然后提出 dual-attention sequence-to-sequence 框架来强制以原文本和提取的事实描述为条件的生成。实验表明,他们的方法可以减少 80% 的虚假事实。
(感谢曹自强博士指正!)
[19] Twitter Summarization based on Social Network and Sparse Reconstruction
作者:贺瑞芳,段兴义
单位:天津大学
来自天津大学的 贺瑞芳副教授 介绍了她们基于社交网络和稀疏重构的 Twitter 摘要研究工作。
随着 Twitter 等微博服务的快速增长,数百万用户产生了大量短小而嘈杂的信息,使得人们很难快速掌握自己感兴趣话题的概要信息。作者通过 Twitter summarization 来尝试这个问题的解决,即从大量 Twitter 文本中提取摘要信息。
传统摘要方法一般只考虑文本信息,现有推特摘要方法考虑了社会媒体的用户级静态特性,但却忽视了推文之间的社交关系。受社会学理论的启发(在社会网络中有表达一致性和表达传染性),作者提出了一种新的称之为 Twitter Summarization based on Social Network and Sparse Reconstruction(SNSR)的微博摘要方法,这种方法能够用于社交媒体情景中大规模、短小和嘈杂的文本上,采用稀疏重构进行推理。
作者在文章中将推文之间的关系建模为社会正则,将其整合到组稀疏优化的微博摘要框架之中,并设计了多样性正则来消除社交网络带来的强冗余信息。
由于缺乏公共语料库,作者构建了 12 个不同话题的标准 Twitter 摘要数据集。在这个数据集上的实验结果表明,这个框架在处理社交媒体中大规模、短小及嘈杂消息的有效性。
(感谢贺瑞芳副教授指正!)
Session 4(6场报告)
主持人:丁效副教授,哈尔滨工业大学
[20] Improving Review Representations with User Attention and Product Attention for Sentiment Classification
作者:吴震 ,戴新宇,尹存燕,黄书剑,陈家骏
单位:南京大学
来自南京大学的 吴震 在 Session 4 环节介绍了他们在文档级别情感分类方面的研究工作。
在网络平台上有大量由用户写的文档类型的评价,其中有些是表达用户情感的,有些则是对产品本身的评价。如何根据这些评价信息推断出用户的情感表达是一个非常有意思的工作。
在这方面,唐都钰等人(2015)在 CNN 网络的基础上添加了用户和产品的偏置矩阵和表示矩阵来表示这些信息;陈慧敏等人(2016)在层次网络中融入用户和产品的这些信息。这两个研究都获得了很好的提升。
20-1,UPNN
20-2,USC+UPA
作者注意到,评论文本中有些词表现出很强的用户喜好,而有些词则倾向于评价产品特点。其中观点(理性评价)与产品更相关,而情绪(感性评价)则与用户喜好关系更紧密。在此基础上,作者提出了一个对称的网络模型:
20-3
在这个网络中,左边用来抽取用户喜好的感性评价,右边用来抽取产品评价的理性评价。此外为了综合两种视角,作者补充了一个组合策略。整体来看,损失函数表示为
其中三个参数可以调整以观看不同的效果。其实验表明,这种模型要比目前 state-of-art 的一些模型有更好的效果。
[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention
作者:曾祥楷,杨成,涂存超,刘知远,孙茂松
单位:清华大学
来自清华大学孙茂松组的 杨成博士 报告了他们在中文语言查询和字数统计(LIWC)词义扩展的研究工作。
LIWC 是一个字数统计软件工具,已被用于许多领域的定量文本分析之中。由于其成功和普及,核心词典已被翻译成中文和许多其他语言。然而,其中的词典只包含数千个单词,与汉语常用单词的数量相比是远远不足的。目前的方法通常需要手动扩展词典,但是这往往需要太多时间,并且需要语言专家来扩展词典。
为了解决这个问题,作者提出了自动扩展 LIWC 词典的方法。具体而言,作者认为这个问题是一个层次分类的问题,并利用 seq2seq 模型来给词典中的单词分类。另外,作者还使用关注机制的义元信息来捕捉一个词的确切含义,以便可以扩展一个更精确、更全面的词典。
(感谢杨成博士指正!)
[22] Learning Structured Representation for Text Classification via Reinforcement Learning
作者:张天扬,黄民烈,赵立
单位:清华大学
随后 杨成博士 代表 黄民烈副教授 介绍了他们在学习文本分类的结构表示方面的研究内容。
表征学习是自然语言处理中的一个基本问题。这篇文章研究如何学习文本分类的结构化表示。
与大多数既不使用结构也不依赖于预定义结构的现有表示模型不同,作者提出了一种强化学习(RL)方法,通过自动地优化结构来学习句子表示。
作者在文章中提出两种结构表示模型:Information Distilled LSTM (ID-LSTM) 和 Hierarchically Structured LSTM (HS-LSTM)。其中 ID-LSTM 只选择重要的任务相关的单词,HS-LSTM 则去发现句子中的短语结构。两种表示模型中的结构发现被表述为一个顺序决策问题,结构发现的当前决策影响随后的决策,这可以通过策略梯度 RL 来解决。
结果表明,这种方法可以通过识别重要的词或任务相关的结构而无需明确的结构注释来学习任务友好的表示,从而获得有竞争力的表现。
[23] Assertion-based QA with Question-Aware Open Information Extraction
作者:闫昭,唐都钰,段楠,刘树杰,王文迪,姜大昕,周明,李舟军
单位:微软亚洲研究院
接下来由哈工大的 冯骁骋博士 代替微软亚洲研究院的 唐都钰博士 ,介绍了他们在自动问答方面的研究工作。
在这项工作中,作者提出了一个基于断言的问答任务(Assertion-based QA),这是一个开放的领域问题问答任务。在搜索引擎中,用户提出问题后,引擎会反馈回一个相关的段落作为响应。但是这并不利于用户快速得到想要的信息。为了简化引擎反馈信息,作者提出将问题和段落作为输入,输出包含主、谓、宾三元组表示的断言的 ABQA 问题。
为了解决这个问题,作者构建了一个名为 WebAssertions 的数据集,其中包括 55960 个(question,passage)和 358427 个(question,passage,assertion)。
随后为了从段落中提取出断言,作者开发了提取式和生成式两种方法。实验结果表明,这两种方法都能够较好地直接从段落中给出问题的具体答案,并包含部分支撑信息。(文中断言泛指三元组)
(感谢冯晓骋博士指正!)
[24] End-to-End quantum language models with Application to Question Answering
作者:张鹏,牛嘉斌,苏展,王本友,马力群,宋大为
单位:天津大学
来自天津大学的 苏展 做了一场极为有意思的报告,他们的工作是通过借鉴量子统计物理中的方法来表示语言模型,并用于语问答任务。
语言建模(LM)是自然语言处理领域的基础研究课题。最近(Sordoni,Nie 和 Bengio 2013)利用量子统计物理中的数学形式,提出了量子语言模型(Quantum Language Model,QLM)。具体来说就是,QLM 借鉴了量子力学中密度矩阵的概念,将 single term 和 term dependency 的概率不确定性 encoding 到密度矩阵中,且与传统 n-gram 模型相比,量子语言模型在表示 n 阶 dependency 时不会增加参数规模。
这种方法在理论上是非常重要的,因为它是首次用量子理论的公式来推广 LM。但是其也有一些限制:1)QLM 中每个词的表示是一个 one-hot 向量,它只能编码 local 事件,而不能考虑全局语义信息;2)QLM 通过密度矩阵表示文本(例如 query, document),它通过迭代求解而非解析求解,因此在端到端的设计中很难更新和优化密度矩阵;3)QLM 中密度矩阵的表示、训练和匹配,这三个步骤无法共同优化,限制了 QLM 的适用性。
针对这些问题,这篇文章首次将词向量作为单个词的状态向量,单个词表示一个纯态系统,整个句子就可以对应于由密度矩阵表示的混合态系统。这样就可以在没有迭代估计的情况下导出密度矩阵,密度矩阵表示也可以被集成到神经网络结构中并通过反向传播算法自动更新。
24-1,单句表示,Question 和 Answer 分别用密度矩阵表示
基于这种思想,作者提出了一种端到端的模型(即基于神经网络的类量子语言模型(NNQLM)),并设计了两种不同的体系结构。
24-2,框架一 由于密度矩阵是一个半正定的矩阵,其联合表示的迹内积可以反映密度矩阵相似度,为了将其应用于 End-to-End 模型,将联合表示矩阵的对角线元素和迹作为全连接层的输入。
迹内积 (Trace Inner Product) 可表示两个量子系统的相似度。在问答任务中,Question (Q) 和 Answer (A) 所对应的两个密度矩阵的乘积可作为 Q 和 A 的联合表示,其联合表示的迹(即迹内积)可计算 Q 和 A 的相似度,每个对角线元素表示各个潜在语义子空间的相似度。
24-3,框架二 对密度矩阵的联合表示进行卷积操作,实验结果表明卷积可以更加充分地挖掘联合表示中潜在语义子空间的相似性信息
作者将这个模型用在经典的 QA 任务中,即答案选择(从预选的候选答案中找出正确的答案)。实验结果表明,NNQLM 在 WIKI 数据集上显著提升了 QLM 的效果,并在 TREC-QA 数据集接近了 state-of-art 的结果。
目前,量子力学和神经网络的交叉领域已经衍生出量子机器学习和量子人工智能等新兴研究方向,已有相关重要论文发表在 Science 等高水平期刊。该论文以语言模型为切入点,对量子力学和神经网络这一交叉领域进行研究,并在自然语言处理领域的问答任务中实现了端到端训练的类量子语言模型,扩展了量子语言模型的理论和应用。
(感谢苏展指正!)
[25] EMD Metric Learning(张子昭,清华)
作者:张子昭,张宇博,赵曦滨,高跃
单位:清华大学
最后来自清华的本科生 张子昭 做了本次预讲会的最后一个报告,报告内容为对 EMD 度量的一个优化工作。
Earth Mover's Distance (EMD) 是 2000 年 IJCV 期刊文章《The Earth Mover's Distance as a Metric for Image Retrieval》提出的一种多维分布相似度量方法,被广泛应用于计算机视觉等任务当中。所谓 EMD,是传统运输问题的最优解问题,简单来说就是给定两个 signature(P 和 Q),把一个变成另一个所需要的最小工作量。EMD 越小,实体之间就越相似。
25-1,EMD。其中 f_ei 是 P_i(Q_i)的中心的特征,w_i 是 P_i(Q_i)的相应的权重。d_ij 是从 P_i 到 Q_j 运送一个供给单位的成本,f_ij 是相应的流量
EMD 求解公式为
目前大多数设计 EMD 的工作都集中在 EMD 的加速和应用上,很少有工作对 EMD 进行优化。为了解决这样的问题,这篇文章提出了一个 EMD 度量学习的算法。
从上面的公式可以看出 ground distance matrix D 对 EMD 有很大影响。所以要想优化 EMD,那么就去优化 D。从另一方面 D 又由相应的度量 A 来决定,因此可以通过优化 Ground Distance Metric A 来优化 EMD。
25-3,EMD 度量学习框架
其方法是从训练数据中选择出一个子集,对这些数据进行采样,得到一些三元组来减少整个方法的计算量;随后构建一个目标函数,通过交替优化模型,最后得到一个稳定的度量 A。
在实验部分,作者将这种方法应用于多视角对象分类和文档分类当中。实验结果表明,与传统的 EMD 方法和最新的方法相比,他们提出的 EMD 度量学习方法具有更好的性能。此外,这种 EMD 度量学习方法也可以应用于其他领域。
(感谢张子昭指正!)
!!!NOTE!!!
预讲会已经结束,顶会将要开始。届时雷锋网
(公众号:雷锋网)
AI 科技评论也将到现场进行一线报道。如果你也有论文被 AAAI 录用 ,欢迎在后台留下你的联系方式,我们将与您联系,并进行更多交流!
。