不卖钱,今日头条发这么多数据想干嘛?
2015年7月2日,今日头条在南京举办了一场主题为“算数·手机终端数据”的发布会。两个半小时的时间里,今日头条基本上全场都在讲数据。不出意外的话,这应该是雷锋网记者参加过的PPT最多的一场发布会,没有之一。
用手机的品牌、价位、配置、系统,用户的年龄、性别、地点,与用户在今日头条上的各种行为进行排列组合,必然能衍生出很多组数据。如果想让这些数据对手机厂商产生指导价值,就不得不衡量算法的合理性。
今日头条的算法架构师曹欢欢在发布会上给出了一个计算公式:
w1*候选一的投票率+w2*候选二的投票率+w3*候选三的投票率+…=最高分
发布会结束后,曹欢欢告诉雷锋网记者,“公式中的‘w’可理解为一个用户对某标签的关注系数,而投票率是指同时拥有这个标签的用户群,看到这条新闻后的打开率,得分越高,这条新闻被推荐给用户的概率也就越高。”
在这个简单粗暴的算法公式下,其实隐藏了很多信息。比如在公司没有一个人工编辑的情况下,如何让计算机得出更准确的文章标签?如何让用户在越来越精确的阅读环境中,得到更全面的知识与体验等等。这些问题使得今日头条CEO张一鸣与吴晓波的对话很快上升到了哲学的高度。
实际点讲,合理只是算法的基础,而算法的优劣是一个永无止境的命题。如果从结果上看,用户能否最终得到高效的推荐,算法的权重可能并没有人们想象中那么高。
为此曹欢欢举了个例子:“聪明的算法在你告诉它将大象装冰箱分三步之后,它就知道将猴子、孔雀、张一鸣等放进冰箱也是分三步,笨拙的算法则无法举一反三。”
但他随即表示,即使是笨拙的算法,当你给它足够的“信息量”时,它也能够实现相应的效果。如你所知,也就是所谓的“大数据”。根据今日头条官方的说法,现在头条已经拥有2.7亿用户,日活超过2500万。用户的每一个操作必然产生一组数据,这也就是今日头条的“大数据”来源。
算法够不够好?数据够不够大?两者都很难评判,曹欢欢也没有在发布会上提到这些。不过他表示,满分100的话,到现在这个阶段,张一鸣给产品打出的分数是40分。显然,他们还有很长的路要走。
除了产品本身以外,还有一点值得注意的是,在这个时代,数据是很值钱的。手机圈的人告诉雷锋网记者,基本上一定量级的手机厂商,每年都会付给GFK这样的数据公司一笔不菲的服务费,获取数据。
可直到发布会结束,无论是曹欢欢还是张一鸣都没有表现出用数据套现的想法。随后,今日头条内部人士告诉雷锋网记者,即使颁布了这么多数据,但今日头条暂时不会考虑这种商业模式,“头条的兴趣是推荐引擎,现在做这个纯粹是觉得内容有趣。”嗯,他说的是有趣。