黄锦辉：自然语言处理方法Social Media

亿欧网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

2017年5月21日，由中国人工智能学会、中文信息学会主办，亿欧承办的2017全球人工智能技术大会在北京国家会议中心拉开帷幕，5月22日上午是自然语言理解分论坛，分论坛主要围绕深度学习在自然语言处理领域、自然语言处理方法、人机对话系统以及智能交互等方面展开演讲。

演讲嘉宾主要有微软亚洲研究院常务副院长、首席研究员、ACL候任总裁周明，香港中文大学创新科技中心主任、香港中文大学工程学院副院长、香港广州创新科技协会会长黄锦辉，云知声AI Labs资深技术专家刘升平，小i机器人研究院常务副院长陈成才。

黄锦辉演讲实录：

大家好！我的普遍话不是母语，但是我在北京也跑了好多年。我今天给大家分享的就是过去五、六年的一些想法，这里有一些是从事实业的，可能觉得这个会有一点虚，可能还没有到落地的时候，希望大家可以给我们一些指正。

我们一直做Social Media。我分三部分来讲，

一、 Introduction ， 这是2017年的一些数据，我们做了一个简单的统计。我们2011年的时候，所谓Microblog platforms，就是在WeChat，twitter，etc上。

看一下这个例子，比如李晨跟范冰冰这个例子，有很多不同的信息都出来了，可能没有注意到有很多东西都是没用的，只是跟着讲而已。

Microblog Repost Tree是两块，Structure和Messages。

这是举一个例子。从发起人开始，每一个信息如果合起来，就可以当成Document，每一片是Sentence。

二、NLP is applicable to microblogging。

NLP for Summarization。 Discourse 是我们会利用的东西。这是有关Sematic。比如有一个社交圈，已经有100人，运行了一个月，两个月，有一个新人进来这个圈，旧的100人突然发了一句“ABC”，对于现有的100个人当然知道是什么意思，但是新进来的人并不一定知道了，如果Summarization存在，就可以解决这个问题。

2013年Chang做过这个方法，认为效果不太好，主要的理由就是太短，噪音太多。

现在怎么做？先是聚类，Event-based，但是没有结构上的关系，只是把同类型的放在一起。

比如一个明星发一个东西出来，因为他是明星，有很多人跟随他，但是他所讲的东西有没有用呢？

我们怎么处理这个事情呢？Some microbloggers（ie leaders）are more influential than others（ie followers）。有一些人提到那些问题，加上新的资料上去，有一串人继续跟着你，我们利用leader follow。既然把leader follow分出来，我提出问题，我回答，我命令你，这些东西其实也不是什么新的东西。

三、我们另外看一个问题， Rumor Detection 。 Rumor是个比较麻烦的事情，出来的时候会有很大影响。现在一般来看，只是看每一个词，或者每一个片语，或者是看整个信息的容量资料来判断。在整个过程之中，那些人用的词是会改的。有一个例子给大家看一下，这是Question mark的用途，另外一个是First-person pronoun。根据时间的变动，有新的技术可以帮助你去分析。

Time Series of Microblog Event.

这是Our Contributions.

Time Series Formation.

提问A：您有没有做过话题之间的关联关系这种工作？

黄锦辉：有，我们一开始做的就是两个信息之间的关系…

提问B：微博评论把时间分割了，只保留波峰，波谷去掉了，我觉得这个事情没有说服力，波峰波谷的评论肯定也是有用的，出现波峰波谷会有一定的原因。

黄锦辉：我们碰到的问题，最直接，最自然可以做的…

重磅福利！【 2017中国互联网+新商业峰会】， 6月15-16日两天3000人次，携程创始人梁建章，嘉御基金创始人、前阿里巴巴CEO卫哲，分众传媒创始人江南春等嘉宾已确认出席，期待你的参与， 限量钜惠票 等你拿！

黄锦辉：自然语言处理方法Social Media