清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

雷锋网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网AI科技评论按 ：随着强化学习在机器人和游戏 AI 等领域的成功，该方法也引起了越来越多的关注。在近期雷锋网 (公众号：雷锋网) GAIR大讲堂上，来自清华大学计算机系的博士生冯珺，为大家介绍了如何利用强化学习技术，更好地解决自然语言处理中的两个经典任务：关系抽取和文本分类。本文根据视频直播分享整理而成，内容若有疏漏，以原视频嘉宾所讲为准。

视频回放地址：http://www.mooc.ai/open/course/318

在关系抽取任务中，尝试利用强化学习，解决远程监督方法自动生成的训练数据中的噪音问题。在文本分类任务中，利用强化学习得到更好的句子的结构化表示，并利用该表示得到了更好的文本分类效果。本次分享的两个工作均发表于 AAAI2018。

冯珺，清华大学计算机系博士五年级，师从朱小燕和黄民烈教授，主要研究方向为知识图谱，强化学习。目前已在 AAAI，COLING，WSDM 等国际会议上发表多篇文章。

分享内容：

大家好，我是来自清华大学的冯珺，分享的主题是当强化学习遇见自然语言处理，分享内容主要是以下三方面：

强化学习基本概念简要介绍

基于强化学习的关系抽取方法，解决远程监督方法自动生成的训练数据中的噪音问题

基于强化学习的句子结构化表示学习方法

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

强化学习的基本概念

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

状态，是agent从环境中得到的动作；agent，是基于它得到的当前状态后做出相应的动作。reward ，是环境给agent 的一个反馈，收到这个reward就知道做的这个动作是好还是不好。agent 的目标就是选动作，将全部reward最大化。

agent会和环境做很多的交互，环境每次做的动作可能会有一个长期的影响，而不仅仅是影响当前的reward。reward 也有可能延迟。在这里简单介绍一下policy的概念。policy是决定一个agent的动作的一个函数。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

如果读者对上述概念还不清楚可以观看视频中的迷宫例子：http://www.mooc.ai/open/course/318

我们组做的两个工作是关系抽取和文本分类。

首先是第一个工作：利用增强学习从噪声数据中进行关系抽取（Reinforcement Learning for Relation Classification from Noisy Data）

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

任务背景

关系分类任务需要做的是，判断实体之间是什么关系，句子中包含的实体对儿是已知的。关系分类任务是强监督学习，需要人工对每一句话都做标注，因此之前的数据集比较小。

之前也有人提出Distant Supervision 方法，希望能利用已有资源对句子自动打上标签，使得得到更大的数据集。但这种方法是基于已有知识图谱中的实体关系来对一句话的实体关系进行预测，它的标注未必正确。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

这篇文章就是用强化学习来解决这个问题。之前也有一些方法是基于multi-instance learning 的方法来做的。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

这样做的局现性是不能很好处理句级预测。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

基于以上不足，我们设定了新模型。包括两个部分: Instance Selector 和 Relation Calssifier。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

这个模型有两个挑战，第一是不知道每句话的标注是否正确‘；第二个挑战是怎么将两个部分合到一块，让它们互相影响。

Instance Selector 和 Relation Calssifier 的结构图

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

在Instance Selector中的“状态”就表示为，当前的句子是哪一句，之前选了哪些句子，以及当前句子包含的实体对儿。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

Relation Classifier 是直接用了一个CNN的结构得到句子的表示。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

模型训练步骤

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

实验部分关于数据集和baseline来源

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

总结

我们提到一个新的模型，在有噪声的情况下也能句子级别的关系分类，而不仅仅是bags级别的关系预测。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

第二个任务

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

任务背景

如果做一个句子分类，首先要给句子做一个表示，经过sentence representation得到句子表示，把“表示”输入分类器中，最终就会得到这个句子属于哪一类。

传统的sentence representation 有以下几个经典模型：

bag-of-words

CNN

RNN

加入注意力机制的方法

以上几种方法有一个共同的不足之处，完全没有考虑句子的结构信息。所有就有第五种 tree-structured LSTM。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

不过这种方法也有一定的不足，虽然用到了结构信息，但是用到的是需要预处理才能得到的语法树结构。并且在不同的任务中可能都是同样的结构，因为语法都是一样的。

所以我们希望能够学到和任务相关的结构，并且基于学到的结构给句子做表示，从而希望能得到更好的分类结构。但面临的挑战是我们并不知道什么样的结构对于这个任务是好的，我们并没有一个结构标注能够指导我们去学这个结构。但我们可以根据新的结构做出的分类结果好不好从而判断这个结构好不好。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

这个任务同样可以建模为强化学习问题，用强化学习的思想来解。同样的，在这个任务中的reward也是有延迟的，因为需要把整个结构都学到后，才能得到句子的表示，才能用句子的表示做分类，中间的过程是不知道这个结构是好的还是不好的。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

实验部分的数据集来源

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

实验的分类结果；最后两行是我们的方法。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

总结

在这个工作中，我们学习了跟任务相关的句子结构，基于句子机构得到了不同的句子表示，并且得到个更好的文本分类方法。我们提出两种不同的表示方法，ID-LSTM和HS-LSTM。这两个表示也得到了很好的分类结果，得到了非常有意思的和任务相关的表示。

雷锋网提供视频直播回放，如果对文中有不清楚的地方，可点击观看视频：http://www.mooc.ai/open/course/318。

。

清华大学冯珺：当强化学习遇见自然语言处理有哪些奇妙的化学反应？

随意打赏

2024 年中国人工智能之自然语言处理（NLP）技术洞察

砍柴网 • 5分钟前

1、行业定义及发展历程自然语言处理（NLP）技术是人工智能的一个分支领域，专注于计算机与人类自然语言间的交互研究，旨在使计算机具备理解、生成与处理人类语言（涵盖文本与语音形式）的能力。NLP 作为一种集计算机科学、人工智能和语言学于一体的交叉技术，具有多样化、跨学科性、复杂性、交互性和不断变化性的特点。自然语言处理（N
GPT 爆发背后：自然语言处理的 20 年动荡

砍柴网 • 1年前

又一次，GPT-4 敛住所有老牌科企的光彩。在 ChatGPT 被誉为范式转变之作的第 3 个月，谷歌推出 PaLM-E 视觉语言模型 ( VLM ) 。功能上，除去让 AI 获得理解文字、图片的能力外，额外增添了输出指令生成机器人行动计划的控制回路。谷歌显然急了。在 OpenAI 和微软的左右夹击下，他直接甩出大招
出门问问3篇论文获自然语言处理和人工智能国际会议录用发表

砍柴网 • 2年前

7月15-17日，2022年第三届自然语言处理与人工智能国际会议（NLPAI 2022）于成都四川大学举办。继出门问问语音情感合成论文入选全球语音领域顶级会议 INTERSPEECH 2022后，出门问问语音团队的3篇论文再次被NLPAI录用发表。NLPAI会议旨在为世界各地的研究学者，工程师和科学家提供一个自然语言处
在商业场景下，自然语言处理如何联动决策智能共同发展？

雷锋网 • 3年前

在刘杰看来，如何将企业价值拆解为人的价值，再抽象为“沟通”技术，分为四步：理解、共情、表达、策略。落地到具体的产品中，即四种技能：更理解人、懂得共情、更人性化的表达、懂得说话策略。在前不久容联云举办的「 AI有心决策有智」的AI商业大会上，AI科技评论对话到容联云AI科学院院长刘杰
国双自然语言处理技术持续得到行业认可，第六次受邀亮相NLPCC 学术大会

砍柴网 • 3年前

10月13-17日,国内自然语言处理领域的顶级会议之一——2021年国际自然语言处理与中文计算会议(NLPCC 2021)在山东省青岛市举行。作为本次学术大会的受邀嘉宾,国双携最新的技术成果参会并展示成果,与参会的产学研各界人士进行了深度交流与探讨。CCF国际自然语言处理与中文计算会议(NLPCC)是CCF自然语言处理
达观数据携手CCF举办第五届“达观杯”自然语言处理文本分类竞赛开赛报名中！

产品壹佰 • 3年前

作为国内领先的智能文本处理企业，达观数据主办发起“达观杯”人工智能算法竞赛，每年一届，至今已成功举办四届。2021年，在CCF（中国计算机学会）自然语言处理专业委员会的特别支持下，第五届“达观杯”于7月正式拉开帷幕。本届“达观杯”为自然语言处理算法竞赛，围绕“基于大规模预训练模型的风险事件标签识别”的主题展开，积极推动
贪心科技 “自然语言处理”技术沙龙，线下活动圆满结束

砍柴网 • 3年前

6月26日，贪心科技在北京举办了以“自然语言处理”为主题的线下技术沙龙，本次分享的方向为：智能对话在直播电商中的落地与应用。活动邀请了中国科学技术大学硕士、对话系统领域专家王老师，作为主讲嘉宾，和在场人员一起交流探讨，共同分享关于“自然语言处理”这个主题下的真知灼见。王老师，中国科
产品经理如何入门自然语言处理（NLP）？

产品壹佰 • 3年前

自然语言处理，顾名思义即自然语言处理的技术，通常用缩写NLP指代。各类产品经理日常的工作中，会遇到大量自然语言处理的应用场景。以智能推荐为例，在待推荐物文本分类、主题分类等场景中都会用到。本篇以产品经理的视角，谈谈如何入门自然语言处理。统计模型很多大牛对人工智能的抨击在于，认为人工智能只是统计学，并不是
百度与鹏城实验室成立“自然语言处理联合实验室”

砍柴网 • 3年前

4月16日，百度与鹏城“自然语言处理联合实验室”签约暨揭牌仪式在鹏城实验室举行。中国工程院院士、鹏城实验室主任高文出席仪式并致辞，鹏城实验室人工智能研究中心主任李革教授和百度集团首席技术官王海峰代表双方介绍了联合实验室前期筹备情况并签署协议。随后，双方领导共同为联合实验室揭牌。联合实验室的成立表明百度与鹏城实验室将联
深兰科技获AAAI2021自然语言处理领域冠军让AI更懂复杂语言

砍柴网 • 3年前

2月2-9日，AAAI 2021于线上隆重召开。AAAI(美国人工智能协会)作为人工智能领域的主要学术组织之一，其主办的年会被列为国际人工智能领域的 A 类顶级会议。深兰科技 DeepBlueAI团队首次参加AAAI挑战赛，便在NLP(自然语言处理)领域的“首字母缩写词消歧”赛道中与阿里巴巴

评论