大数据背后的星球脉动 | 极客公园
数据与民意
虽然在 facebook ipo 中,社交媒体监测平台 datasift 对 twitter 上相关信息的监测显示,twitter 上与 facebook 相关的情绪倾向与 facebook 随后的股票走向呈现直接的正相关;美国政府早已开始利用 facebook、twitter 等网站的数据,综合传统报纸、电视、广播等媒体的资讯来监测国内和世界各地的舆情变化,效果也相当显著。但就目前而言,仅凭这一渠道的数据,还无法获得真正准确的结论。
- 目前研究人员对于社交网络数据的挖掘方式还处在比较初级的阶段。以伦敦奥运会为例,伦敦之眼项目主要依靠的是对表达情绪的关键词进行匹配的方法,辅以对语调、表情的分析,但在日常口语的表达中,讽刺、反语或是不同的使用场景都会让一个词语的实际意义发生变化,而预先固定的匹配词库也可能对信息的收集带来了限制。研究者表示,通过大量数据的累积,这一类偏差大多可以被抵消,但对语义进行更精细的分析无疑是想要达到更准确结论必须解决的问题。
- 虽然 twitter、facebook、微博的用户已经开始扩展到更广泛的用户群体,但其依然无法普遍代表整个社会群体,特别是老人、低收入、欠发达地区的人群在这些渠道中显著的缺失代表。当然,随着互联网的继续普及,这并不是不能解决的问题。
twitter 在博客中也表示,就像雷达、卫星的出现对传统以温度计、气压计为主要数据来源的气象学来说是一个重要的补充一样,社交网络上的数据在今天也可以为用户调研、舆情观察进行辅助和补充。例如在许多交通不便,无法进行现场民意调查的地方,人们可能可以通过手机上网发表意见,而这是传统调查无法覆盖到的。twitter 过去两年的政治指数数据显示,其与常用的民意调查 gallup 在大多数情况下趋势都保持一致,这说明了社交网络大数据在一般情况下还是可靠的;在当两者趋势不一致时,却也能带来更多有趣的信息。如在本拉登被击毙后,twitter 上奥巴马的满意度指数在上升后,比 gallup 的数据更早的开始回落,更进一步的数据显示,这是因为 twitter 上的相关讨论更多的回归到了国内依然肆虐的经济危机上,这一数据的差异可以为政府评估任务提供重要的参考。