如何迅速了解一个微博好友?微信公众账号“一找小七”运用数据挖掘与分析技术,帮你了解微博好友的爱好、八卦、密友以及诸多“第一次”
当你在微博上被一个新朋友关注,或者关注一个新朋友时,是否会下意识点开他的资料栏了解这究竟是一个什么样的人?但往往简单的履历资料无法还原微博头像背后真实、生动的人物,这便是微信公众账号“一找小七”找到的有趣切入点。
在微信公众账号“一找小七”内输入@微博好友名称,就可以查询到好友的兴趣爱好关键词,比如我查到自己的关键词是“创业”、“互联网”、“媒体”等等。浅层了解完好友爱好的关键词之后,“一找小七”接下来则要扒一扒好友的八卦了,好比我搜到最让人喷饭的一句八卦是——“长相真的很环保”。不过,笑一笑之后,你也得贡献一句好友的八卦来为小七的数据库填充内容。另外小七还有“密友”以及“第一次”、“随机乐”等功能。
虽然从前端效果来看,“一找小七”的功能简单有趣,但它背后其实依靠着复杂的语义分析和数据挖掘技术。这个由中山大学软件工程学院的师生们共同开发的微信公众账号,通过抓取新浪微博上开放的用户数据,建立了一套基于人的语义模型,企图在分析某个用户的微博、关注的微博以及朋友圈子的爱好来从更深层次上分析这个人所说的话的真实含义。
负责技术指导的徐亚波老师告诉我,之所以选择新浪微博是因为微博上有海量的关于人的数据,他们目前已收集1亿真实用户的信息,更便于丰富数据库、完善模型。而语义模型则是他们原来在学术研究的过程中已开发完成的,难度并不在于建立模型的技术,而是在如此大数据量的技术上,把原来学术化的技术做工业化的实现。因为原来学术模型过分理想化,但实际数据噪音很多,微博用户习惯的口语化表达、错别字、缩写、火星文以及各种图标,都为分析增添了难度。以优化口语表达为例,便需要通过大量的样例文本分析找出口语规律,然后建立模型纠正它。
另外,学术模型一般只考虑技术上的可行性,要做成产品可能会在用户体验上有所缺陷。比如小七分析用户的兴趣爱好是通过分析用户的微博内容来提取关键字,但一个人关注的内容往往并非他真正的爱好,比如我会关注互联网创业的信息,但我的爱好可能是游戏、电影。
其实基于“人”的分析,最难之处在于人的侧面过多,往往说的和做的事情不符,因此它的模型要比垂直餐厅、电子商务这些领域的模型建立更为困难。所以“一找小七”也是技术上的一次尝试,来验证他们的某些想法。比如小七会采用多个侧面的信息来互相验证不同信息源的可信度,从而识别其真正意图,就像有些人说他爱看书,但如果他关注的微博均与书无关,那么这句话的可信度就很低。另外,小七还会综合个人和其密友的数据一起考虑,来提高语义模型的精度。
大方向上,徐亚波希望把小七逐步演化成一个有趣的搜人平台,进而结合社交,尝试将之变成一个“八卦集中地”。另一个则是在小七数据的基础上形成精准营销的平台,走商业化路线,服务于企业。前者有趣,后者则用于盈利。
注:“一找小七”是T派-微信公众平台创新大赛的区域赛中华南赛区金奖获得者。