讲堂|谢幸:用户画像、性格分析与聊天机器人
你离成为 人工智能 专家,还有多远的距离?
近日,四位来自微软亚洲研究院的AI大咖在中国科技大学进行了一场以“开启智能计算的研究之门”为主题的前沿分享。这四位嘉宾分别是:
● 首席研究员 刘铁岩 ——人工智能的挑战与机遇
● 首席研究员 童欣 ——数据驱动方法在图形学中的应用
● 首席研究员 曾文军 ——当机器学习遇到大视频数据
● 资深研究员 谢幸 ——用户画像、性格分析与聊天机器人
在接下来的一周里,我们会陆续在本账号中发布这四位研究员的演讲视频及精彩内容,希望这些关于前沿技术的思索能够开启属于你的智能计算研究之门,敬请期待吧!
昨天我们发布了刘铁岩博士的演讲——人工智能的挑战与机遇。
第二位与大家分享的是谢幸博士的演讲——用户画像、性格分析与聊天机器人,全文如下(文字内容略有精简)。
我今天讲的题目叫用户画像、性格分析与聊天机器人,看起来这三个词汇好像互不相关,但其实它们有很强的联系。而这三个词也总结了我们微软亚洲研究院社会计算组最近几年所做的一些研究工作。
首先,之前讲了很多大数据,大数据里面有一类很重要,那就是 用户产生的大数据 ,什么叫用户产生的大数据呢,就是我们每天的行为都会被用数字的方式记录下来。比如手机的各种APP,手机上定闹钟等等,这些都会记录下手机上的一些行为。再比如坐出租车、坐公交车,也都有一些记录,这些轨迹可以用在后续的一些改善服务,或者用在一些数据挖掘里面。
再比如用社交网络,在社交网络上,给商家、餐馆或者商店写的评论,打的分,或者给电影、书籍写的评论,这些都会被记录下来,可以用来分析一个人的兴趣爱好,从而做一些推荐。
大家可以想象,当用户数据越来越多的时候,实际上我们可以非常全面地去了解一个人。过去几年我们一直在做用户画像, 用户画像可以有很多维度 ,比如个人属性,年龄性别等。还有性格,性格有很多种分法,实际上我们也是在想怎么通过用户的数据去看用户是什么样的人。当然,有很多人是研究用户兴趣,兴趣直接就可以用来做推荐,做广告。还有,比如用户当前的状态,用户的社交关系,用户未来的计划,我们可以做一些预测。
用户画像可以做很多维度,而每个维度又可以做很多事情。当然,要做这样一个用户数据的研究,首先需要有用户数据,到底从哪里去获取用户数据,大概四年前,我们在中文的社交网络上搜集了一个比较大规模的用户数据集,叫LifeSpec,很多跟我们合作的学校的老师们都已经用这个数据集和我们做过一些联合的研究。
LifeSpec包括比如照片、评论、用户自己填写的个人属性,或者签到过的地点等。但这里强调的是我们试图把同一个用户在不同网站上的数据连接到一起,如果可以联系到一起,那么就可以非常完整地去了解这个人。我们搜集了大概140万个用户的数据集,要求一个用户至少有一个跨网络的数据。
通过这样一个数据集可以做很多以前做不了的事情。比如做一些跨网站的用户画像,看豆瓣上的信息,是不是能猜到用户在微博上的行为,或者通过地点来推测个人属性等。这个以前做是比较困难的,因为这样的数据并不存在,但现在就可以做这样的事情。这个数据大概有5000多万条,有社交关系的有300多万条,还有将近4000万条位置数据。
这个表展示了在不同城市的数据,因为用户填写了很多城市,有了这个数据集,就可以做很多研究。比如做位置预测,位置预测本身并不是一个新的问题。而我们关注的是分析用户,如果是游客或者是本地人,他们有什么样的区别,通过这个数据我们发现了不同,甚至还可以用这些不同来猜测一个用户是不是真正的本地人。因为在中国人口的迁徙是非常多的,这样一个迁徙所带来的人的行为变化,很多时候反应了一些社会问题,所以之前有很多媒体十分关注我们的这个研究,而这还可以做很多下一步的研究。
如果有这么多用户的位置数据,我们是不是能够通过用户的位置数据来给用户画像呢?实际上这个工作在之前做的比较少,因为这样的数据并不多,所以没法来评测算法好不好。而我们这个数据集就可以用来做这件事情,我们可以去看这些位置的签到和用户的属性之间到底有什么样的联系。
比如有两个人,第一个在中关村上班,他住在机场附近的别墅,经常出没于美国。第二个人经常在街边的小餐馆吃饭,又经常去图书馆,周末可能还去KTV,那么第二个人可能更像是一个学生。这样的区别,我们实际上是可以通过数据来发现的。也就是说我们希望通过用户去过的地点,来把用户的属性猜测出来,比如年龄,性别,甚至教育程度。
这里其实我们就关注三点,第一,我们可以知道用户的 移动规律 ,移动规律就是用户每天早上去哪,晚上去哪,周末去哪,平时去哪等,这样的时间规律对于区分用户很有用。
第二个,是 地点的规律性 ,每个人都有一些常去的地点,大部分人的常去地点是家,另外一个是工作单位。当然,还有经常去的商场、餐馆,通过常去的地点以及时间也可以来对用户进行分类。
我们又加上一些额外的知识—— 位置知识 ,就是去过的这些地点,如果只把它当作一个地图上的点来看,信息量太少了,但把这个地图本身的知识加进去,比如前面讲的,住在机场附近,或者工作的地点在中关村等等,这个信息量很大,我们可以用这些信息来帮助做判断。最后把这三方面的信息结合起来,就可以更准确地判断用户的各种属性。
我们之前做了很多用户画像的工作,比如,通过用户的数据,我们能不能进一步知道用户的性格。要了解性格首先要有一些用户,我们能够知道他的性格,又有他的数据,而这件事情在过去很难获取,因为很少有这样规模的数据。
为了做这件事情,首先我们去看到底什么叫性格。性格的分类科学存在于心理学,我们了解到2000多年前,古希腊有一个医学家开始研究性格,他认为人体是由四种体液构成,包括血液,黏液,黑胆汁和黄胆汁,而这四种液体的分布决定了人的性格。他基本上把性格分为两个维度,一个维度是外向、内向,另外一个维度是情绪化和不太容易情绪化。
到了100多年前,近代的心理学家们从语言出发来研究人的性格。他们发现如果要研究性格,首先这个性格一定要能用语言来描述,这个叫做 词汇学假说 。比如说一个人是否非常健谈,是否非常冷静,冷静或者健谈这样的词汇实际上就是一个很概括的性格的一种分类。
通过查看词典,心理学家找到了4500个可以描述人性格的词,并在此基础上进一步缩减、归类,总结成五个维度,叫 大五人格 。
大五人格的五个维度,每个维度可以再细分成六个小的维度。要了解一个人,一般来说会先邀请这个人来做问卷调查,之后通过答案去计算他的大五人格是什么。但问卷调查的方式很多时候很主观,有的用户他也不知道自己是不是比较健谈,有的比较外向的人,会谦虚说自己比较内向,所以其实很不准确。
怎么样能做到准确呢?实际上,用观测的方法,比如别人的评价,或者基于很多数据的评价,因为观测和自己的理解是不太一样的。
前面我们讲,我们已经有很多用户数据了,通过这些用户数据其实就可以来观测一个人,通过这些观测再来算出人的性格实际上是可行的。
最近几年有一些这样的工作,2013年微软和剑桥大学合作的一个工作,当时就通过Facebook上的数据集来计算Facebook上点赞这个信息和用户性格之间的关系。
我们进一步做了研究,发现用户的数据有很多来源,不光是点赞,还有文本的信息、图像,尤其是用户自己上传的头像,还有喜欢用的表情符号、对话聊天的规律,以及用户自己填写的个人属性,因为这些数据在我们LifeSpec数据集里面都有,我们就可以把它联合在一起来做这件事情,而不只用某一个角度的特征。
所以针对每一种类型的数据,我们都用了一些最新的方法来做计算特征,最后用集成学习的方式来得到最后的结果。
举几个例子,针对文本当然可以做很多事情,前面讲了有大五人格,我们可以看这些文本跟每个维度的关系。
外向性高的人喜欢在微博里写青春、自我、突然,而外向性低的人会写面对、特别、失败、做好。我们可以发现他们用的词的确很不一样。
再来看用户的头像,我们发现头像和性格之间也有一定的联系,比如外向性高的人头像会有卡通,或者表情很夸张。外向性低的人,会用下面这些头像,但这只是一些典型的例子,并不是说所有人都用这个头像。这里面其实也可以用到很多人脸识别或者物体识别的技术。
第三部分就是聊天机器人。我们做聊天机器人是在想用户画像还有性格分析这样的结果到底有什么用途。我们发现现在聊天机器人都有一个特点,它很多时候是用群体的数据来训练的,最多能做到像一类人,但是不能像一个具体的人。
怎么才能够让它像一个具体的人呢?这里面首先的难点是某一个人的数据很难获取。我们需要这个人的聊天数据,如果我们能获取某一个人的数据,那么实际上我们就可能训练出跟他很类似的一个聊天机器人。
在《黑镜》的第二集里就讲到一个未来的人工智能公司用聊天数据和社交网络数据训练出了一个跟死去的人一样的机器人。2016年,一位俄罗斯的创业者用他已故朋友的8000条短信训练了一个聊天机器人。
但是如果数据不够多,那么是不是能通过具有某种特点的一群人的数据集来训练出具有一类人特点的机器人,比如儿童,学生或者诗人等,让人感觉到这个机器人具有某一种性格或者特点。这个工作是我们最近在研究的。另一方面,我们也在关注到底做这样的聊天机器人有什么用途,其中一个应用就是心理治疗,为什么关注这个,实际上也是受启发于50年前的项目。
1964年,有一个很有名的项目叫Eliza,很多人讲人工智能的时候都会提到这个项目,Eliza就是一个很早期的聊天机器人,在当时它的效果非常好,以至于很多人都认为是真人在背后操纵。
Eliza实际上做的就是心理咨询师,也就是说这个聊天机器人可以跟人聊天,试图帮助缓解心理问题,它当时采取的一个心理治疗的方法叫罗杰斯流派的方法,比较强调倾听,所以这个机器人很多时候是在听你说什么,而不是在回答问题,它一直在引导人说话。这件事情相对来说比回答问题要容易,但是效果非常好。
基于这个项目,我们受到了启发,想结合最新的技术来做这件事情。首先我们也是试图去引导对话,让用户更多来说自己的事情,这其实是很多心理咨询里面很重要的一点。
当然,在这个基础上,我们进一步去研究,包括通过聊天的数据,也通过用户本身,如果能获取其他的数据,研究用户的心理特质和精神的一些问题,来看看将这些数据结合到一起更准确地做出判断。
再进一步,我们想除了倾听,是不是还可以通过聊天的方式帮助用户缓解问题。比如采取最新的认知行为疗法以及正念疗法等心理学的技术,把它集成在聊天里,这也是我们最新的一些尝试。
总结一下,今天讲的是我们社会计算组里面最近主要做的几个方向,我们从用户画像到性格分析,也做了很多情感的分析,也试图把结果用在聊天里面,看看能不能让聊天机器人具有自己的性格和特点;再来,我们希望聊天机器人也能用在一些心理咨询的场合。当然这里面涉及到很多跟其他领域学者的合作,包括心理学,社会学以及认知科学。我们 社会计算组是一个跨学科的领域 。希望未来可以和更多学科交流,获得更多研究上的灵感和创新。
谢谢大家!
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。 微软小冰 进驻微软研究院微信啦!快去主页和她聊聊天吧。 </