AAAI 2018预讲会在哈工大成功举办,25篇顶会文章讲了什么(上)
雷锋网 AI 科技评论按:1 月 6 日,由中国中文信息学会青年工作委员会(简称「青工委」)主办,哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)承办的『AAAI 2018 预讲会』在哈尔滨工业大学成功举办。本次会议由华为和云孚科技提供赞助,雷锋网 (公众号:雷锋网) 作为独家合作媒体,提供了在线直播,并对本次预讲会做全程报道。
AAAI 2018 是人工智能领域的顶级国际会议,每年举办一次。今年 AAAI 会议将于 2 月 2 日至 2 月 7 日在美国新奥尔良举行。鉴于国内学者在各大国际顶会中发表的文章越来越多,青工委希望能在顶会之前将国内学者汇聚一堂,共同探讨最新研究进展,所以从 2013 年开始就举办了许多次顶会预讲会。
本次 AAAI 2018 预讲会邀请了来自全国各地 15 所高校和研究单位的老师和同学分享他们在 AAAI 2018 中接收的 25 篇论文,内容覆盖有聊天机器人、语义依存图、文本摘要、机器翻译、信息抽取、表示学习等多个领域的最新研究成果。会议吸引了 200 多名老师和学生来此参会并进行交流。
预讲会伊始,首先由中国中文信息学会青年工作委员会主任刘洋副教授、副主任车万翔副教授分别代表主办方和承办方致欢迎辞。云孚科技 CEO 张文斌先生代表赞助方致辞。开幕式由东道主哈尔滨工业大学社会计算与信息检索研究中心刘铭副教授主持。
青工委主任刘洋副教授致欢迎辞,哈工大李家琦博士提供
青工委副主任车万翔副教授致欢迎辞,哈工大李家琦博士提供
会议议程整体分为四个 Panel,每个 Panel 包含 6-7 个报告,每个报告限时 10 分钟;在每个 Panel 之间有 80-90 分钟的休息和 poster 环节。会议现场节奏可谓有松有紧,节奏感极为鲜明。讲者们除了在报告中深入讲解他们的研究工作外,在 poster 环节还有大量的时间与现场的参会者进行互动和讨论,与会人员可谓获益颇多。
现场活动,哈工大李家琦博士提供
下面 AI 科技评论根据现场报告为你详细解读 25 篇 AAAI 2018 接收论文。
(由于内容较多,我们将分为上、下两篇介绍)
论文速览列表:
上 篇
Panel 1
[1] Adversarial Learning for Chinese NER from Crowd Annotations
作者:杨耀晟,张梅山,陈文亮,张伟,王昊奋,张民
单位:苏州大学人类语言技术研究所
[2] Adaptive Co-attention Network for Named Entity Recognition in Tweets
作者:张奇,傅金兰,刘晓雨,黄萱菁
单位:复旦大学
[3] Large Scaled Relation Extraction with Reinforcement Learning
作者:曾祥荣,何世柱,刘康,赵军
单位:中科院自动化所
[4] Event Detection via Gated Multilingual Attention Mechanism
作者:刘健,陈玉博,刘康,赵军
单位:中国科学院自动化研究所
[5] Neural Networks Incorporating Dictionaries for Chinese Word Segmentation
作者:张奇,刘晓雨,傅金兰
单位:复旦大学
[6] Learning Multimodal Word Representation via Dynamic Fusion Methods
作者:王少楠, 张家俊, 宗成庆
单位:自动化所
Panel 2
[7] Inferring Emotion from Conversational Voice Data: A Semi-supervisedMulti-path Generative Neural Network Approach
作者:周素平,贾珈,王琦,董宇飞,尹宇峰,雷克华
单位:清华大学
[8] Long Text Generation via Adversarial Training with Leaked Information
作者:郭家贤,卢思迪,蔡涵,张伟楠,汪军,俞勇
单位:上海交通大学
[9] Style Transfer in Text: Exploration and Evaluation
作者:付振新,谭晓烨,彭楠赟,赵东岩,严睿
单位:北京大学计算机科学技术研究所
[10] Meta Multi-Task Learning for Sequence Modeling
作者:陈俊坤,邱锡鹏,刘鹏飞,黄萱菁
单位:复旦大学
[11] RUBER: An Unsupervised Method for Automatic Evaluation of Open-DomainDialog Systems
作者:陶重阳,牟力立,赵东岩,严睿
单位:北京大学计算机科学技术研究所
[12] Exploring Implicit Feedback for Open Domain Conversation Generation
作者:张伟男,李凌志,曹东岩,刘挺
单位:哈尔滨工业大学
下 篇
《 AAAI 2018预讲会在哈工大成功举办,25篇顶会文章讲了什么(下) 》
Panel 3
[13] Neural Character Dependency Parsing for Chinese
作者:李浩楠,张智松,琚毓琪,赵海
单位:上海交通大学
[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing
作者:王宇轩,车万翔,郭江,刘挺
单位:哈尔滨工业大学
[15] Asynchronous Bidirectional Decoding for Neural Machine Translation
作者:张祥文,苏劲松,秦悦,刘洋,纪荣嵘,王鸿吉
单位:厦门大学
[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules
作者:郭舒,王泉,王丽宏,王斌,郭莉
单位:中国科学院信息工程研究所
[17] Embedding of Hierarchically Typed Knowledge Bases
作者:张日崇,孔繁爽,王晨玥,茆永轶
单位:北京航空航天大学
[18] Faithful to the Original: Fact Aware Neural Abstractive Summarization
作者:曹自强,韦福如,李文婕,李素建
单位:香港理工大学
[19] Twitter Summarization based on Social Network and Sparse Reconstruction
作者:贺瑞芳,段兴义
单位:天津大学
Panel 4
[20] Improving Review Representations with User Attention and ProductAttention for Sentiment Classification
作者:吴震 ,戴新宇,尹存燕,黄书剑,陈家骏
单位:南京大学
[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of WordEmbeddings with Sememe Attention
作者:曾祥楷,杨成,涂存超,刘知远,孙茂松
单位:清华大学
[22] Learning Structured Representation for Text Classification withReinforcement Learning
作者:张天扬,黄民烈,赵立
单位:清华大学
[23] Assertion-based QA with Question-Aware Open Information Extraction
作者:闫昭,唐都钰,段楠,刘树杰,王文迪,姜大昕,周明,李舟军
单位:微软亚洲研究院
[24] End-to-End Quantum-like Language Models with Application to QuestionAnswering
作者:张鹏,牛嘉斌,苏展,王本友,马力群,宋大为
单位:天津大学
[25] EMD Metric Learning
作者:张子昭,张宇博,赵曦滨,高跃
单位:清华大学
Panel 1(6场报告)
主持人:刘铭副教授,哈尔滨工业大学
[1] Adversarial Learning for Chinese NER from Crowd Annotations
作者:杨耀晟,张梅山,陈文亮,张伟,王昊奋,张民
单位:苏州大学人类语言技术研究所
首先是由来自黑龙江大学的 张梅山副教授 做了首场报告。
在训练命名实体识别系统时,往往需要大量的人工标注语料。为了保证质量,通常需要雇佣专家来进行标注,但这样会造成代价成本高且规模难于扩大。另一种方式是采用众包标注方法,雇佣普通人员来快速低成本完成标注任务,但这样获取的数据含有很多噪音。
张梅山在报告中提出了一种利用众包标注数据学习对抗网络模型的方法,来构建中文实体识别系统。受对抗网络学习的启发,他们在模型中使用了两个双向 LSTM 模块,来分别学习标注员的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块的学习过程中,以不同标注员作为分类目标进行对抗学习。从而达到优化公有模块的学习质量,使之收敛于真实数据 (专家标注数据)。算法框架如下:
1-1,ALCrowd 框架
最终构建的中文实体识别系统 (Crowd-NER) 在真实数据上的性能比传统 CRF 模型高 7.2%(F1):
1-2,实验结果
[2] Adaptive Co-attention Network for Named Entity Recognition in Tweets
作者:张奇,傅金兰,刘晓雨,黄萱菁
单位:复旦大学
随后由来自复旦大学的 傅金兰 介绍了他们在命名实体识别任务中的工作。
在 tweet 命名实体识别中,传统的方法往往只使用了文本内容。但是许多推文还包含图像等内容。这种视觉信息在实体识别任务中是极有价值的。例如下面的例子,
2-1,缺乏图像信息
2-2,结合图像信息
在只使用文本信息时可能会把「Rocky」识别为人名;但是结合 tweet 图片,我们知道「Rocky」其实是一条狗。
为了充分利用文本和视觉信息,傅金兰等人在论文中提出了一种处理 tweet 中包含多种信息的方法。具体来说,他们利用了条件随机场和 Adaptive Co-attention Network 扩展了一个双向 LSTM 网络。
2-3,集合视觉和文本信息的双向 LSTM 网络
为了评估这种方法,他们构建了包含多模态推文的大规模标记数据集。实验结果表明,这种方法在大多数情况下可以比以前的方法获得更好的效果。
(感谢傅金兰指正!)
[3] Large Scaled Relation Extraction with Reinforcement Learning
作者:曾祥荣,何世柱,刘康,赵军
单位:中科院自动化所
随后来自中科院自动化所的 陈玉博助理研究员 代表同组的 何世柱助理研究员 做了关于使用增强学习进行大规模关系抽取的报告。
从文本中进行关系抽取在 NLP 领域是一个重要的任务。目前主要有两种方法:句子级的关系抽取和基于知识库的 bag 级关系抽取。
3-1,关系抽取任务的例子。该任务致力于提取实体对之间的关系。
3-2,将知识图谱中的关系事实与自由文本对齐,自动生成大型缩放数据集。然而句子没有直接标注,其中一些(图中的第三句)不能代表实体对的关系。
前者需要有人工标注,难以大规模应用;后者虽然能够大规模进行关系抽取,但是它只有 bag 的 label,而没有具体句子的 label。作者使用增强学习的方法,将包中的句子看成增强学习的 state,将关系看成 action,将关系抽取分类器看成 agent,从而构建了一个能够依据大规模自动回标的包数据训练出一个高质量的句子级的关系抽取的分类器。
3-3,强化学习的过程。关系提取器是强化学习 agent,r 是生成的奖励。
基于这种方法构建的两个模型在公开发布的数据集上进行实验,结果证明所提方法与基线模型相比有 13.36% 的显著提升。
(感谢陈玉博助理研究员指正!)
[4] Event Detection via Gated Multilingual Attention Mechanism
作者:刘健,陈玉博,刘康,赵军
单位:中国科学院自动化研究所
随后 陈玉博助理研究员 又做了关于通过门控多语言注意机制进行事件检测的报告。
在 NLP 应用(例如信息提取系统)中,如何从文本中识别出事件非常重要。但目前这项任务的大多数现存方法只关于单一语言的特定语言线索,却忽略了其他语言提供的大量信息。这些方法会受困于单语歧义性以及数据稀缺的影响。
4-1,在 ACE 2005 的统计中 70% 的事件事例少于 100 个
4-2,多语信息可以有助于消除单语歧义性
本文提出了一种新颖的多语言方法(称之为门控多语言注意(GMLATT)框架)来同时处理前面两种问题。具体来说,作者通过上下文关注机制,利用多语言数据的一致性信息缓解了数据稀缺的问题;同时他们提出了跨语言的门控注意,利用多语言数据传递的补充信息来解决单语歧义问题。
4-3,GMLATT 框架
他们在实验部分选择了 ACE 2005 基准进行了广泛的实验。结果表明这种方法显著优于当前最先进的方法。
(感谢陈玉博助理研究员指正!)
[5] Neural Networks Incorporating Dictionaries for Chinese Word Segmentation
作者:张奇,刘晓雨,傅金兰
单位:复旦大学
第五个报告由来自复旦大学的 刘晓雨 介绍了他们在中文分词中深度神经网络方面的工作。
近年来深度神经网络在中文分词领域取得了很大的成功,但目前这种类型的方法大部分是端到端的训练系统,它们可以有效地处理和学习大规模标记的数据集,但在处理低频词汇和领域专有名词时的表现并不是很好。
低频词汇 | 领域专有名词 |
另一方面,统计方法在中文分词领域的成功表明,人类的知识在上面两种情况下能够提供极有价值的信息。所以作者提出词典(人类知识)结合神经网络的方法,利用人类知识来提升神经网络在分词任务中的表现。
5-1,广义 Bi-LSTM –CRF 模型
具体来说,作者提出了两种扩展 Bi-LSTM-CRF 模型的方法来引入词典信息,如下:
5-2,Model-I 框架。ex 和 t 表示字符嵌入和特征向量;两个并行的 Bi-LSTM 被用来提取上下文信息和潜在的字边界信息
5-3,Model-II 框架。使用 HyperLSTM 为 MainLSTM 动态地生成权重。HyperLSTM 将特征向量 t 作为输入,而 MainLSTM 将嵌入向量作为输入
实验结果表明,这种方法在在大多数领域文本的分词中表现比 state-of-art 方法更好,在多领域的文本分词中相对 state-of-art 方法有显著提升。此外,当要把训练好的模型应用到特定领域的分词任务时,我们只需要添加额外的领域词典即可,模型的参数保持不变,不需要再重新训练。
(感谢刘晓雨指正!)
[6] Learning Multimodal Word Representation via Dynamic Fusion Methods
作者:王少楠, 张家俊, 宗成庆
单位:自动化所
Panel 1 的最后一个报告由来自中科院自动化所的 王少楠 所做,她介绍了他们组在基于动态融合方法的多模态词汇表示模型上的研究工作。
6-1,dog+图+音+情感
在学习语义词汇表示任务中,多模态模型要比单纯的基于文本的模型表现要好,例如下图从融合文本、图像、声音、情感的信息中学习词汇表示明显要优于单纯的从文本中学习词汇表示。
6-2,多模态模型
之前的多模态词汇表示模型会将各种模态信息平等对待。但很明显,来自不同模态(例如图像和文本)的信息对不同类型的词汇有不同的贡献,理应有不同的权重。比如对于抽象词如「快乐」,文本模态对词义的贡献要大于感知觉模态的贡献;而对于具象词如「桌子」,文本和感知觉模态都会极大地影响词汇的含义。
基于这种考虑,作者建立了可以根据不同类型的词汇对不同模态的信息加以区分的多模态词汇表示模型,模型中有三种动态融合机制,可以分别针对模态、词类和词汇对不同模态赋予不同的权重。其中,作者间接利用相关或相似词对作为弱监督信号来自动学习不同模态的权重。
6-3,其中四个数字对应方法的四个步骤;Lw1 和 Lw2 是一个单词关联对的表示;Pw1 和 Pw2 是从文本到视觉映射 f 的输出的预测视觉表示;一个单词的多模式表示是其语言向量与其预测向量的加权连接,其中权重是可学习的参数。
实验的结果表明,这种动态融合方法可以极大地提高词汇表示的质量。定性的结果分析表示,该模型可以针对不同类型的词汇赋予不同的权重。这一结果也符合认知科学的研究结论,即抽象词更依赖文本模态,而具象词的词义学习依赖文本和感知觉模态。这个研究表明,利用计算模型对数据的规律进行挖掘可以帮助认知科学的相关研究。
(感谢王少楠的指正!)
Panel 2(6场报告)
主持人:靳婷副教授,海南大学
[7] Inferring Emotion from Conversational Voice Data: A Semi-supervised Multi-path Generative Neural Network Approach
作者:周素平,贾珈,王琦,董宇飞,尹宇峰,雷克华
单位:清华大学
经过一个多小时的茶歇和 poster 后,来自清华大学的 周素平 开启了第二个环节的首场报告。报告中她介绍了他们组在语音对话应用程序(VDA)中推断情感方面提出的半监督多路径生成神经网络方法的工作。
为了在语音对话应用(VDAs)中给出更人性化的回应,从用户查询中推断用户的情绪状态是一个重要的任务。在 VDAs 问题中有两大挑战:1)多模态信息所带来的特征向量维数很大;2)大量的用户和巨大的未标记数据(有限的标记数据)。
针对这些问题,在这篇论文中作者提出了一种半监督的多路径生成神经网络,框架流程如下:
图 7-1,框架流程图
为了避免高维输入,他们将原始特征分别输入到局部分类器中进行训练,然后再将每个局部分类器的高级特征作为全局分类器的输入。这两种分类器通过一个单一的目标函数同时进行训练,以达到更有效、更有区别的情感推理。
为了进一步解决标记数据稀缺的问题,作者在上面的多路径深度神经网络上扩展了一个基于半监督变分自动编码器(semi-VAE)的生成模型,这个模型能够同时训练标记和未标记的数据。
基于从搜狗 Voice Assistant1(SVAD13)和基准数据集 IEMOCAP 收集到的 24,000 个真实世界的数据集进行的实验表明,该方法明显优于现有的最新结果;更为关键的是,该方法可以直接应用在真实数据中。
[8] Long Text Generation via Adversarial Training with Leaked Information
作者:郭家贤,卢思迪,蔡涵,张伟楠,汪军,俞勇
单位:上海交通大学
随后,来自上海交通大学的 郭家贤 分享了他们在长文本生成方面的研究工作。
在长文本生成中,现有的模型(GAN 方法)的标量引导信号只有在文本完整生成后才可以使用,并且在生成过程中缺少关于文本结构的中间信息,这些因素会限制长文本生成的效果。
8-1,LeakGAN 框架
本文提出了一种名为 LeakGAN 的框架,也即在生成的过程中 Discriminator 会将提取到的高级特征「泄露」给 Generator,以进一步指导下一步的生成。在 Generator 中,通过一个额外的 Manager 模块将这些信息整合到所有生成步骤中,并将当前生成的字的提取特征输出为一个潜在的向量,用来指导 Worker 模块进行下一代词的生成。
8-2,文本生成模型
这个模型来源于一种想法,即人在说一句较长的话时,不是一下子把所有的词都想完整了后再说,而是在说的过程中不断根据前面内容生成接下来要说的话。
其实验证明,LeakGAN 在长文本生成中非常有效,并且在短文本生成场景中也提高了性能。
[9] Style Transfer in Text: Exploration and Evaluation
作者:付振新,谭晓烨,彭楠赟,赵东岩,严睿
单位:北京大学计算机科学技术研究所
接下来,来自北京大学计算科学与技术研究所的本科生 付振新 做了一项文本风格转换方面探索性的报告。
在风格转换方面,文本风格转换的研究要落后与其他领域(如计算机视觉),其主要原因是由于缺乏并行数据和可靠的评估指标。
针对缺乏平行数据的挑战,作者提出两种模型来实现无平行语料数据集的风格转换方法。模型背后关键的思想为使用对抗网络来分别学习内容表示和风格表示。
9-1,两个模型:多解码器(左)和风格向量(右)。Content c 代表编码器的输出。多层感知器(MLP)和 Softmax 构成分类器。
针对缺乏可靠的评估指标的问题,作者提出了「转换强度」和「内容保持(content preservation)」两项评估指标。
他们选择了两种风格转换任务来进行试验,分别为:论文-新闻标题的风格转换和正负面评论的风格转换。
9-2,论文-新闻标题风格转换(左)和正负面评论风格转换(右)
结果显示,且通过对自动编码器的对比等,发现所提模型既能迁移风格,又能保留内容。
(感谢付振新指正!)
[10] Meta Multi-Task Learning for Sequence Modeling
作者:陈俊坤,邱锡鹏,刘鹏飞,黄萱菁
单位:复旦大学
随后来自复旦大学的 陈俊坤 做了关于序列建模的元多任务学习的报告。
语义组合函数(Semantic composition functions)在文本序列的神经表示学习中起着举足轻重的作用。在这个任务中已经有许多模型,尽管它们取得了很大成功,但是也都存在 underfitting 的问题:它们在序列中的所有位置上使用相同的共享组合函数,因此会由于无法捕捉到合成的丰富性而缺乏表达能力;另外,不同任务的组合函数也是独立的,每次都需要从头开始学习。
在这篇文章中,作者提出了一个跨多个任务组合函数的共享方案。具体来说,作者使用一个共享的元网络来捕获语义组合的元知识,并生成任务特定的语义组合模型的参数。
作者对两个任务(文本分类和序列标签)进行了实验。实验结果表明,这个模型学到的共享元知识可以被看做是现成的知识,也很容易迁移到新的任务上。
(感谢陈俊坤指正!)
陈俊坤:
原先的多任务学习可视为学习出更好的表示特征,即 feature-level 的共享模式,如果一个 layer 的作用可以视为$layer =\sigma(W*x)$的话,那么之前的多任务学习旨在得到更好的 x,而我们的模型则保持 x 与单任务时相同,利用一个共享的小网络控制 W,我们称为 function-level 的共享模式。
[11] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems
作者:陶重阳,牟力立,赵东岩,严睿
单位:北京大学计算机科学技术研究所
来自北大计算科学与技术研究所的 助理教授严睿 做了关于开放域对话系统无监督自动评估的报告。
开放域对话系统目前还不存在标准的自动评估指标。研究者通常会使用人工标注进行模型评估,但这种方法费时费力。在这篇文章中,作者提出了一种 referenced 度量和 unreferenced 度量混合评估的 RUBER,它通过同时考虑一个 ground truth 答复和一个查询(先前用户发出的话语)来评估一个答案。这种指标是可以学习的,它的训练并不需要人类满意的标签。所以 RUBER 比较灵活,可以扩展到不同的数据集和语言上。
在对检索和生成对话系统的实验表明,RUBER 与人类标注有很高的相关性。
[12] Exploring Implicit Feedback for Open Domain Conversation Generation
作者:张伟男,李凌志,曹东岩,刘挺
单位:哈尔滨工业大学
Panel 2 的最后一个报告由来自哈工大 SCIR 的 张伟男副教授 分享了 SCIR 在开放域对话生成隐式反馈探索方面的工作。
在人机对话过程中,人们通常会表现出某种立场、情绪以及尴尬等状态,我们称之为用户在人机对话过程中的隐式反馈。
相比于任务型人机对话在对话结束后通过问卷的形式显式地获取用户的反馈,隐式反馈更加自然且不需要用户作出对话之外的反馈操作。在开放域人机对话中,用户的隐式反馈普遍存在。
这篇文章探寻了人机对话过程中的用户隐式反馈对于开放域对话生成的作用,在强化学习的框架下,将隐式反馈建模到对话奖励函数中,获得比 baseline 更好的对话生成效果。
(感谢张伟男副教授指正!)
来张讲者合照镇楼!
其中有教授、博士、研究生、本科生,覆盖了学术研究的各个年龄层。
(照片由哈工大李家琦博士提供)
!!!NOTE!!!
预讲会已经结束,顶会将要开始。届时雷锋网 AI 科技评论也将到现场进行一线报道。如果你也有论文被 AAAI 录用 ,欢迎在后台留下你的联系方式,我们将与您联系,并进行更多交流!
。