ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

作者:Yun Han

目前而言,许多文本分析方法的核心都是一个Concept:一组表征特定对象、现象或主题的语义相关的关键词。另外,Word Embedding的不断发展允许用户通过一小部分的关键词来构建一个Concept。然而,由于自然语言的多义性,直接使用这种技术可能导致错误。为了降低这个问题,这篇文章[1]提出了一个名为ConceptVector的可视分析系统,来指导用户构建这些Concepts,然后使用它们来分析文档。这篇文章使用现实生活中的数据集来进行案例分析,展示了ConceptVector的细粒度分析。为了支持这个“种子关键词”的概念,他们引用了双极概念模型,并且支持不相关的单词。

文本可视分析中涵盖了很多领域的方法:1. 词关系与层次结构;2. Word Embedding;3.基于单词层次的文本可视分析。

基于这三个方法,目前有一个比较成熟的系统Empath,使用了最新的词嵌入模型来构建一个语义词典。这篇文章使用其构建了194个Concept来分析特朗普和希拉里的推文,其中发现了很多错误分析。如:

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

图1 推文分析结果

在上述结果中,我们发现在分析特朗普的推文时,“Plant” Concept中包含的主要关键词是“Brush”;然而,在进一步分析推文后,我们发现特朗普实际上提及的是“Jeff Brush”。

经过上面的分析,我们发现通常而言,构建一个合适的词典是很困难的,而且需要很多的专家参与其中。另一方面,词语的多义性可能导致用户分析错误。因此,把人加入到词典的构建和优化过程中是十分重要的。基于这个目标,他们的设计如下:

  1. 支持词典构建中的多样化的用户需求;
  2. 支持迭代的词典优化和基于词典的文档分析;
  3. 标记文档集中的贡献词语。

为了满足上述实现目标,系统的整体框架如下:

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

图2 ConceptVector系统结构

对于整个ConceptVector系统,主要由词典构建和文档分析两个主要模块组成。在每一个阶段都会有人参与其中来对系统模型进行修正和完善。

最终,ConceptVector系统的主界面如下:

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

图3 ConceptVector主界面

图2中左边是concept构建部分,系统提供了两种类型的concept:单极和双极Concept。其中双极concept包含3个集合:Positive Set,Negative Set 和 Irrelevant Set , 单极concept中不包含Negative Set。用户在视图中的(1)选择concept类型并在(2)中输入关键词后,系统会根据词向量向用户提供系统为其推荐的关键词,并通过K-Means方法聚类最终将结果使用t-SNE投射到二维平面上。通过这个推荐系统,用户可以为自己构建的concept添加相应的关键词或关键词组。

图2右面是基于concept的文档集分析视图。在用户选取了相应的concept后,系统根据其中的关键词计算每一篇文档的得分并排序。特别地,系统会在原始文档中高亮这些对于得分有贡献的词语,方面用户进行进一步地调整。

对于系统文档集的得分计算部分,他们采用了新颖的相似度计算方式–核函数(KDE)。那是因为如果简单地计算词向量之间的余弦距离等并不能适应这个设计。本系统需要计算关键词属于三个不同集合的概率,将一个concept表示为{Lp, Ln, Li},分别表示Positive Set,Negative Set 和 Irrelevant Set。于是,当选取一个文档集中的某个词q,q ∈L 的概率表示如下:

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

其中,对于核函数,他们选取的是高斯核函数

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

随后,可以根据关键词q对于三个集合的概率来计算关键词q和concept的相关性如下:

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据 最后简单地取文档中所有词语与concept的相似得分的平均值即可。

为了说明ConceptVector系统的有效性和高效性,他们对该系统从准确度,时间开销两个方面进行评估。评估结果如下:


图4 系统评估结果(a)

通过评估结果,我们发现ConceptVector从准确度和时间消耗都比两个baseline表现的更好。为了对系统进行进一步地分析,他们还评估了相关性得分与关键词以及计算模型之间的关系如下:

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析-36大数据

图5 系统评估结果(b)

同样地,他们发现随着用户提供的关键词数量的增加,可以提供更多的信息,这样用户构建的concept与文档集的相似得分也会越高。

综上所述,ConceptVector给用户提供了一个很便利地Concept生成工具,并且在准确度和时间性能上有一个很好的平衡。然而,对于一词多义的问题还是没有在该文章中得到解决,需要后续进一步地开展相关的工作。

End.

转载请注明来自36大数据(36dsj.com): 36大数据 » ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析

随意打赏

concept可视数据
提交建议
微信扫一扫,分享给好友吧。