今日头条的产品技术进化论：所有的成功都不是偶然

极客公园 • 8年前扫码分享

本文作者杜江，21CTO（21cto.com）创办人，15 年以上编码架构经验，原赶集网创始团队，正和岛 CTO 以及今日头条今日特卖技术负责人。著有《PHP5 与 MySQL5 Web 开发技术详解》、《PHP5 完全攻略》、《PHP 与 MySQL 高性能开发与最佳实践》（即将出版）。极客公园已获得转载授权。

今天为大家介绍今日头条的产品来历以及架构演进史。

正如有一句话：所有的成功，都不是偶然，有时是幸运，有时是心境。希望同为技术行业的各位能有所裨益。

头条的「前世今生」

关于产品起名，姚劲波曾在大会上说过：「起名很重要，运营起来再换就改不回来了」。可见名字的重要。

几个人最开始调查了 App Store 去找各个免费榜单的前十名后归类，之后做了如下总结：

第一类是言简意赅，琅琅上口。比如说唱吧，还有大众点评。陌陌也比较言简意赅，寂寞的人怎么缓解？约炮就用陌陌。

模拟特殊的声音，比如 Twitter，早期的四位创始人商量起啥名字好呢？这个多像一堆人在八卦，像小鸟叽叽喳喳，所以就叫 Twitter。后来引出国内的饭否，叽歪。

还有一类是公司名+用途，比如网易云音乐、网易考拉，百度音乐，百度网盘。这类基本上是公司的某个子公司或频道，名字相当普通，都有一个亲爹罩着。

还有一些情怀型产品的名称，比如知乎、赤兔。还有一种口语叫法，比如去哪儿，有啊，饿了么，哪儿上班等。

那么结论是什么？前十的榜单最真实，琅琅上口的大白话效果最好。用户要这样的东西，那就必须投用户所好。最后名称类型定下来就是好记，不要什么时尚和情怀，让一个只有初中文化的用户都能看懂。

APP 开发完后，先确定一些渠道分发，不同的渠道质量是非常不一样的。头条相对幸运，自己有一些其他的 APP，比如内涵段子，搞笑囧图等做过率先尝试，发现这些 APP 在这两个渠道上花的钱都差不多，留存也差不多。还拿这两个渠道做实验，选 N 个名字，分别投放。界面功能完全一样，就是名字不一样，再看哪个留存高，哪个获取用户的成本低。最后发现以「今日头条」的名字表现最好，铁一般的事实，大家也都不说啥了。

自此这种方法成为头条的一个通用规则，不论是产品还是运营，都用数据说话，也就是 A/B Test。

产品方法论

「过得荆棘是好手」。作为创业者，犹如进行一场障碍赛。先要先找到一条精益的产品之路，这条路也是一条坎坷的泥泞之路。需要内心笃定，然后再有一些先进的方法论，就像有一双跑鞋，跑得比竞品好，那么跑胜的几率就会更大。

今日头条的产品技术进化论：所有的成功都不是偶然

今日头条的创始人张一鸣对互联网产品做过这样一个结论：

产品的核心竞争力 = 拉新能力 X 留存能力 X 变现能力。

拉新就是烧钱拉用户，留存决定了烧钱的运营效率，要靠数据思维支撑产品沿着正确的方向改进。变现能力背后的广告系统最受技术驱动，基本上都是靠算法。数据思维可以帮助团队把每一项能力发挥到极致，增加了生存下来的概率。

在这家公司，推动产品演进的不仅是产品经理，有时算法工程师的作用会更大。比如收集数据，要保证数据样本无偏、全面。如果收集了比较偏的数据，可能大方向都南辕北辙。

然后根据数据作决策。有人收集了数据，最后做判断时还是基于个人主观经验。数据思维很关键的是抛弃感情的因素，完全基于对数据的客观解读。

接下来是高效执行。一是团队的执行力，二是工具。有很多理念很好，但是没有工具很难落地，因此工具特别重要。

头条的产品特色

从前的门户时代是集中分发式控制，受制于团队的能力和规模，比如新浪上千的小编，但是要给三千万人做三千万个不一样的内容，这是不可能的。

后来信息分发，内容逐渐从门户转移到了社交网络，这是一个全球性的现象。中国典型的就是微信和微博，每个人得到的内容都是个性化的，分发效率比门户时代要高。微博上每个人关注的大 V 不一样，微信朋友圈也不同，传到这个圈子里的内容肯定不一样，而且更投气味，比小编靠谱。

另外赶上了移动互联网的浪潮，门户转换比较慢，所以社交媒体和社交网络主宰了内容分发。

未来是什么模式呢？系统来做这个事，就像是你的个人助手，他很了解你，而且是可以调教的。一开始智商只有 40，慢慢可以提高到 60。总有一天，它可能代替社交媒体，去做一个资讯获取的助手。

从需求上来讲，移动互联网在 2012 年是一个爆发的分水岭。大家看新闻的方式变了，是用手机、用碎片时间看。传统内容生产无论交互上还是内容制作分发都显得非常落后，后来相继出了 Zarker，Flipboard，Zite，在中国有了今日头条。

虽然这几个产品的有的定位在精英白领阶层，头条深知在中国，什么人的碎片时间最多。

头条的技术路径

今日头条是怎么计算的？

爬虫：抓取新闻

今日头条定位在个性化阅读产品，其来源除了合作媒体、头条公众号之外，很大一部分来自自己写的 Crawler。它主要做如下的事情：

第一，从网站抓取信息；
第二，将其中的信息进行汇总，审核过滤；
第三，汇总的信息经过基于机器学习的分词，分类和排序，标签。

举个栗子，以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程：

做一些抓取服务器集群，设置新闻来源的字典，比如「网易新闻」、「新浪新闻」、「凤凰新闻」、「浙江新闻」等等。

通过这些字典，网络爬虫将会锁定到这些网站的超链接，从中抓取到新闻资讯。不用担心被封，我们有好多机器，好几个机房。

今日头条的产品技术进化论：所有的成功都不是偶然

个性化推荐系统

个性化推荐系统，也叫个性化推荐引擎。它是今日头条中的核心功能。

今日头条的用户登录允许用户使用微博、QQ 等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而，便于获取用户的个性化信息，比如用户的兴趣、用户属性。越用越懂用户，从而进行精准的阅读内容推荐。

推荐系统广泛地应用于用户没有明确需求的场景。包括：基于内容的推荐（content-based filtering, 例如根据用户观看过的电影推荐其他与之相似的电影）；还有基于协同过滤的推荐（collaborative filtering，例如查看排行榜，或者找到和自己兴趣相似的用户，看看他们最近看什么电影）。

可以用于构建推荐系统的信息：好友、发贴、历史兴趣、注册信息。

推荐系统就是可以关联用户和物品的一种自动化工具。除了这些信息之外，机型、时间、地区等信息均可加入到推荐系统构建中来。

推荐系统已广泛地应用于新闻、电商 SKU、音乐、电影、社交好友推荐等，作为人工智能的一种形式，极大方便了人们的生活。