快手CEO宿华:视频是新时代的文本,你们得更快认识到这点| WISE·2016时代峰会
快手CEO宿华看上去不太擅长公众演讲,跟2016年WISE大会的上一个演讲者马薇薇相比,他的演讲不够流畅,身上的蓝色衬衫看上去也有点皱。但这位程序员特质明显的CEO最近在媒体上的出现频率正变得越来越高,无论这符不符合他本人的意愿。
可以与之对比的是陌陌CEO唐岩。在很长一段时间里,在大众印象里,陌陌与约炮划上等号,它因此迅速博得关注,成为一款明星产品,也因此在之后的两三年里,唐岩不得不花大价钱和大力气去撕掉固有标签,强调陌陌是基于兴趣和普通人社交。
与陌陌一样,在过去5年里积累3亿用户,却一直低调行事的快手正跨进独角兽的门槛,CEO宿华也不得不变得高调起来。从2011年创立至今,快手走通了从工具到社区再到平台这条险路。除了用户量突破3亿,连续一年位列app store免费版TOP30之外,这家公司从未公布过营收和其它财务数据,但外界普遍认为快手是直播里收入可以排进TOP3的公司。它的用户量庞大,而且付费意愿强烈。每天都有很多人愿意花上几千或者上万块,在快手直播里为手机另一端的陌生人双击上热门。
对快手平台上引发舆论关注的极端现象,比如自残或者假慈善,宿华不置一词。他更想在演讲中解释快手是如何建立起对用户和内容的理解,这基于过去10年里他和团队在这个领域的经验。以及最为重要的,他反复强调了自己坚信不疑的关于未来的预判:视频是新时代的文本。
以下是36氪整理后的演讲全文:
用户越来越不在意工具的功能,越来越在意他所消费的内容,这个趋势在2016年已经越来越明显。但快手做的并不是自己去创造内容,而是建立一个让所有人都可以参与创造内容的机制,这是我们看到这个趋势时做出的比较重大的选择。
6年前,快手是一个内容创作的工具,我们帮助普通用户用手机去拍摄视频,然后把它转化成GIF动图,可以用来表达自己的情感和小乐趣。
3年前,我们在快手工具里面增加了内容分享的功能,用户产生的内容可以在社区里分享给所有网友。
我们当年还做了一系列目前来看非常正确的战略选择,背后的核心逻辑非常简单,当你看准趋势之后,你需要选择一块空旷的土地,哪怕是盐碱地也可以。你可以做土地改造,但是你千万不要做的一件事情是说看别人家的土地很好,去找一个大地主,去他们家里面拔一块儿地,这会非常惨。
从定位上来讲,快手选择做记录和分享生活,我们没有做秀场或者明星,或者特别重的内容。我们选择了比较清淡的、生活化的内容,这是当年比较少有公司在做的。从用户选择上,我们选择了年轻的、热爱分享的普通人,年轻和热爱分享可能是合在一起的,这里面年轻是一种心态,它不是一种年龄的选择。
互联网越来越开放,普通人也越来越愿意分享,过去专门为普通人做的内容分享平台太少了,这是一块空地。
从理念上来讲,我们给用户传递的理念是,在快手里你可以发现真实有趣的世界。因为都是普通人的视角去观察到的,他没有特别酷炫的内容,但是他很普世、真实,也很有趣,在这里你也可以让全世界发现真实有趣的你。这是快手当年做的非常重要的战略选择。
做完战略选择以后,你在执行上面怎么样能够胜出,跟同行不一样,快手最核心的地方是我们的匹配机制,是在内容和人之间的匹配机制,这是我们团队,包括我个人已经扎根了快10年的领域。
匹配机制最核心的要点是理解,过去我们的内容有各种各样的形态,图片、文字、视频、语音,另外一面是人、是用户。当你做了一个平台,里面产生大量内容,可是这些内容给谁看,怎么把内容和人之间建立连接,把他们匹配起来?核心的事情要做两件:第一,理解内容。第二,理解人。
门槛在于数据,你要有人和内容之间交互的数据去做模型。首先是理解内容。如果你是文本化的内容,今天可能有很多创业者,也许有做自然语言处理或者做过搜索引擎、推荐引擎的朋友,你们会知道理解文本的技术在10年前就已经非常成熟了。你可以分词,做词性标注、提取标题、关键词、实体,算重要性、情感,等各种各样文本分析的方法。
最近10年,学术界又发展出来一整套用于分析图像、分析文本、分析语音内容的工具。给你一个图像,你可以分析出场景,他是在学校还是酒吧,里面有没有人或动物,他们高兴吗?不管是对文本还是影像,都可以让计算机建立对内容的理解。
第二个层面是理解用户和理解人的属性。分三个层面,你需要理解一个人长期的静态属性,我们叫用户画像,他的年龄、性别、身高、出生地等。另一方面,还得理解他的兴趣偏好。他喜欢吃什么口味,最近爱打球还是爱跑步,最近是想旅行还是宅在家里,这是他中期会变化,但是不经常变化的兴趣偏好。
第三个层面,你需要理解人的意图。一个人在用你的APP,他当下脑子里面想什么,他在想苹果手机还是三星手机,他是不是在想自己饿不饿?
如果你能够很丰富地在这三个层面建立起对一个用户的理解,你就能在人和内容之间建立很好的匹配关系。但是这个匹配的关系不是靠规则来建立,而是利用在你的软件里面,用户和内容之间相互互动的数据,用现在深度学习的方法做一个模型。这个模型只需要干一件事情,用来预测一个新内容和一个新用户之间匹配的概率。如果你有这样的预测能力,内容和用户之间的匹配就会变成一个非常简单的问题。但是你需要把这个问题拆解成三方面,每个方面都要有非常好的人去解决。
最后是认知,我们这几年做下来最重要的认知是一句大白话:视频是新时代的文本。
我跟一些朋友去讨论,大家会说你觉得视频行业怎么样,或者短视频行业怎么样,或者说长视频、PGC、UGC行业怎么样?我会给他一个答案,其实视频不是一个行业,短视频不是行业,直播也不是一个行业,行业早就已经存在了,视频只是一种新的信息载体。
如果再过五年,所有的人都会发现视频会替代掉文本,就像今天你并不会说文本是一个行业,长文本是一个行业,短文本是一个行业,用户选择140个字是一个行业,编辑写专业的内容是一个行业,它并不是,它是一个承载信息的方式。但是信息承载方式会有它独特的地方。
我们过去描述美女,有沉鱼落雁、闭月羞花,可以有1000个成语可以来回倒,但是影像是活生生地放在那里,比文字的力量是要更加真切。当我们整个产业环境,包括带宽、计算能力、存储、传输,以及对视频理解的能力,一旦提升到跟文本类似的程度,那时候所有的行业都会因为视频而重新定义,包括我们的通信、内容分享、记录生活,过去记录生活大家能想到的可能是写日记,也可能是照照片,现在大家越来越习惯于用视频的方式来记录生活。大家会发现一篇新闻文章没有一段视频用户都不爱看,视频在承载信息、传递信息的过程当中,越来越被人们接受和认可。
人类对对视频信息接受是最天然的,一个两岁的小孩子可以不会说话,也可以听不懂你说什么,但是他能够看到、看懂。所以我会说视频是新时代的文本,希望能够帮助大家更快地认识到这一点,视频会改变一切,这种改变不是简简单单的一个补充,不是简简单单的一个增量,而是彻底的改变。
未来如果我们的个人设备从手机进化到眼镜,进化到VR、AR以后,影像化的产品会更大地改变这个世界。所有的应用,都会重新再做一遍,这里面蕴含了巨大的机会。