今日头条的产品技术进化论:所有的成功都不是偶然
本文作者杜江,21CTO(21cto.com)创办人,15 年以上编码架构经验,原赶集网创始团队,正和岛 CTO 以及今日头条今日特卖技术负责人。著有《PHP5 与 MySQL5 Web 开发技术详解》、《PHP5 完全攻略》、《PHP 与 MySQL 高性能开发与最佳实践》(即将出版)。极客公园已获得转载授权。
今天为大家介绍今日头条的产品来历以及架构演进史。
正如有一句话:所有的成功,都不是偶然,有时是幸运,有时是心境。希望同为技术行业的各位能有所裨益。
头条的「前世今生」
关于产品起名,姚劲波曾在大会上说过:「起名很重要,运营起来再换就改不回来了」。可见名字的重要。
几个人最开始调查了 App Store 去找各个免费榜单的前十名后归类,之后做了如下总结:
第一类是言简意赅,琅琅上口。比如说唱吧,还有大众点评。陌陌也比较言简意赅,寂寞的人怎么缓解?约炮就用陌陌。
模拟特殊的声音,比如 Twitter,早期的四位创始人商量起啥名字好呢?这个多像一堆人在八卦,像小鸟叽叽喳喳,所以就叫 Twitter。后来引出国内的饭否,叽歪。
还有一类是公司名+用途,比如网易云音乐、网易考拉,百度音乐,百度网盘。这类基本上是公司的某个子公司或频道,名字相当普通,都有一个亲爹罩着。
还有一些情怀型产品的名称,比如知乎、赤兔。还有一种口语叫法,比如去哪儿,有啊,饿了么,哪儿上班等。
那么结论是什么?前十的榜单最真实,琅琅上口的大白话效果最好。用户要这样的东西,那就必须投用户所好。最后名称类型定下来就是好记,不要什么时尚和情怀,让一个只有初中文化的用户都能看懂。
APP 开发完后,先确定一些渠道分发,不同的渠道质量是非常不一样的。头条相对幸运,自己有一些其他的 APP,比如内涵段子,搞笑囧图等做过率先尝试,发现这些 APP 在这两个渠道上花的钱都差不多,留存也差不多。还拿这两个渠道做实验,选 N 个名字,分别投放。界面功能完全一样,就是名字不一样,再看哪个留存高,哪个获取用户的成本低。最后发现以「今日头条」的名字表现最好,铁一般的事实,大家也都不说啥了。
自此这种方法成为头条的一个通用规则,不论是产品还是运营,都用数据说话,也就是 A/B Test。
产品方法论
「过得荆棘是好手」。作为创业者,犹如进行一场障碍赛。先要先找到一条精益的产品之路,这条路也是一条坎坷的泥泞之路。需要内心笃定,然后再有一些先进的方法论,就像有一双跑鞋,跑得比竞品好,那么跑胜的几率就会更大。
今日头条的创始人张一鸣对互联网产品做过这样一个结论:
产品的核心竞争力 = 拉新能力 X 留存能力 X 变现能力。
拉新就是烧钱拉用户,留存决定了烧钱的运营效率,要靠数据思维支撑产品沿着正确的方向改进。变现能力背后的广告系统最受技术驱动,基本上都是靠算法。数据思维可以帮助团队把每一项能力发挥到极致,增加了生存下来的概率。
在这家公司,推动产品演进的不仅是产品经理,有时算法工程师的作用会更大。比如收集数据,要保证数据样本无偏、全面。如果收集了比较偏的数据,可能大方向都南辕北辙。
然后根据数据作决策。有人收集了数据,最后做判断时还是基于个人主观经验。数据思维很关键的是抛弃感情的因素,完全基于对数据的客观解读。
接下来是高效执行。一是团队的执行力,二是工具。有很多理念很好,但是没有工具很难落地,因此工具特别重要。
头条的产品特色
从前的门户时代是集中分发式控制,受制于团队的能力和规模,比如新浪上千的小编,但是要给三千万人做三千万个不一样的内容,这是不可能的。
后来信息分发,内容逐渐从门户转移到了社交网络,这是一个全球性的现象。中国典型的就是微信和微博,每个人得到的内容都是个性化的,分发效率比门户时代要高。微博上每个人关注的大 V 不一样,微信朋友圈也不同,传到这个圈子里的内容肯定不一样,而且更投气味,比小编靠谱。
另外赶上了移动互联网的浪潮,门户转换比较慢,所以社交媒体和社交网络主宰了内容分发。
未来是什么模式呢?系统来做这个事,就像是你的个人助手,他很了解你,而且是可以调教的。一开始智商只有 40,慢慢可以提高到 60。总有一天,它可能代替社交媒体,去做一个资讯获取的助手。
从需求上来讲,移动互联网在 2012 年是一个爆发的分水岭。大家看新闻的方式变了,是用手机、用碎片时间看。传统内容生产无论交互上还是内容制作分发都显得非常落后,后来相继出了 Zarker,Flipboard,Zite,在中国有了今日头条。
虽然这几个产品的有的定位在精英白领阶层,头条深知在中国,什么人的碎片时间最多。
头条的技术路径
今日头条是怎么计算的?
爬虫:抓取新闻
今日头条定位在个性化阅读产品,其来源除了合作媒体、头条公众号之外,很大一部分来自自己写的 Crawler。它主要做如下的事情:
- 第一,从网站抓取信息;
- 第二,将其中的信息进行汇总,审核过滤;
- 第三,汇总的信息经过基于机器学习的分词,分类和排序,标签。
举个栗子,以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程:
做一些抓取服务器集群,设置新闻来源的字典,比如「网易新闻」、「新浪新闻」、「凤凰新闻」、「浙江新闻」等等。
通过这些字典,网络爬虫将会锁定到这些网站的超链接,从中抓取到新闻资讯。不用担心被封,我们有好多机器,好几个机房。
个性化推荐系统
个性化推荐系统,也叫个性化推荐引擎。它是今日头条中的核心功能。
今日头条的用户登录允许用户使用微博、QQ 等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而,便于获取用户的个性化信息,比如用户的兴趣、用户属性。越用越懂用户,从而进行精准的阅读内容推荐。
推荐系统广泛地应用于用户没有明确需求的场景。包括:基于内容的推荐(content-based filtering, 例如根据用户观看过的电影推荐其他与之相似的电影);还有基于协同过滤的推荐(collaborative filtering,例如查看排行榜,或者找到和自己兴趣相似的用户,看看他们最近看什么电影)。
可以用于构建推荐系统的信息:好友、发贴、历史兴趣、注册信息。
推荐系统就是可以关联用户和物品的一种自动化工具。除了这些信息之外,机型、时间、地区等信息均可加入到推荐系统构建中来。
推荐系统已广泛地应用于新闻、电商 SKU、音乐、电影、社交好友推荐等,作为人工智能的一种形式,极大方便了人们的生活。
小结
今日头条在推荐方面的技术固然有一定的领先性。然而,人本身是多元化的,人性总是有点喜新厌旧。如果总是给我推荐类似的内容,可能也会腻。
对于总是社会化新闻、段子视频满屏飞的产品,对阅读要求越来越高的用户来说,个性化阅读产品仍然任重而道远。
图片来自网络