快手宿华:我们7年累计50亿条视频,靠 AI 提升长尾用户的幸福感
快手创始人兼CEO 宿华
上周,快手上的视频总数已经超过了50亿,如何让这50亿视频与观看视频的用户进行匹配是一个前所未有的挑战。在过去,业内常规的做法是运营好长尾曲线中头部的“爆款”视频,但快手表示,希望尾部视频同样能被感兴趣的人观看。
在上周日,2018年中国图灵大会上,快手创始人兼CEO宿华出席,发表了以“AI 如何提升幸福感”的主题演讲,分享了快手在人工智能最新的探索与应用。
大约12年前,宿华加入了谷歌,开始接触、学习和应用机器学习技术。在谷歌,他一直在研究如何尝试利用AI和机器学习,解决信息匹配和信息分发的问题。
宿华认为,之前的视频平台不是那么需要 AI,是因为视频的数量没有达到一个量级。如果每年只新增两百部电影、三百部电视剧,可以通过人工标注的方式把它分析和理解的特别清楚。但是,假如每天新增千万级的视频,面对50亿的生活片段,是不可能去依靠人工编辑和传统的 媒体 板块去分发,也无法照顾到长尾的用户。
在宿华看来,“记录”本身是能够提升幸福感的。每个人心中都有一个渴望——看见别人和被别人看见。幸福感需要让我们每一个人都可以看见,被这个世界发现,能够让自己的情绪情感被别人知道,被人感知,被别人看到和理解。
他表示,快手最想做的事情,是要构建一整套的以 AI 技术为核心的基础设施,能够用 科技 的力量提升每一个人独特的幸福感,能够让每一个人更多更好的感受这个世界,也能够更好的被这个世界所感受到。
当要照顾每一个人的需求,尤其是长尾用户的需求时,就需要依靠人工智能。快手将 AI 主要应用在四个环节:内容生产,内容理解,用户理解和视频分发。
今年4、5月份,快手上线了一个魔法表情、肢体识别舞蹈 游戏 以及 AR 模型特效。这些特效背后,涵盖了人脸关键点、背景分割、人体姿态估计、视觉惯性里程计等人工智能技术。为了支撑这些技术,快手自主研发了 3D 引擎及 YCNN 深度学习推理引擎。即便使用低配置的 手机 ,算法与模型依然可以高效快速运转,让更多用户的记录过程体验更加丰富有趣的玩法。
快手会通过大数据去理解每一位用户的兴趣偏好,同时,得益于快手是一个分享社区,快手的用户理解不仅基于内容,还基于行为数据。每天有上亿的用户在进行“数据标注”,包括点击点赞、关注转发、播放时长、用户关系等,交织成了网状的关系,帮助快手来更好的理解用户,除了用户兴趣偏好,更理解用户潜在的兴趣,帮助用户挖掘探索更大的未知领域。
在未来,快手还将探索 AI 诸多方向,例如,通过多模态信息融合的视频理解器能够像人类一样理解一个视频,理解人类复杂的情绪。
“如何把用户的行为数据和内容清晰组合在一起,特别是把内容里面的视觉,加上时间轴以后进行连续的视频分析,再加上深度的分析,用户的行为分析,整个多模的集成组合在一起,也是一个非常有意思的课题。”宿华说。 (本文首发钛媒体,作者/李程程)
以下是宿华的演讲全文,略经钛媒体编辑:
大概12年前,我刚加入谷歌,开始接触、学习和应用机器学习的技术,主要为解决搜索引擎当中的一些问题,学了很多前人的推导公式,学了很多的模型、思想。后来我思考,AI应该用来解决什么样的问题,不是数学上的问题,而是说为社会、为人类应该解决什么问题?
想了很长时间,有了一个答案。在这些年实践的领域中,我想明白了,不管我们做什么样的技术,最后都应该用于提升人类的幸福感,或者是做到幸福感的改善。AI当然是当下最火最热的技术,下面我给大家分享的就是,我这些年是怎样去用AI解决幸福感的问题。
“记录”可以提升幸福感
首先,我们发现“记录”是可以提升人们幸福感的。因为每一份记录都有两类人:一个是记录的产生者、记录者,一个是记录的观察者。
对于观察者来讲,通过别人的记录可以看到更广阔的世界。在城市里可以看到乡村农产品生产,在乡村里可以看到国外的世界,土耳其的热气球。非洲的小孩可以和中国人交朋友,在日本的留学生可以和自己在中国的家人、朋友交流。
我们想每个人心中都有一个渴望,一个是看见别人,一个是被别人看见。我们希望自己的状态,自己的情感,自己的灵感,能够被更多的人看见,被更多的人理解。我想,记录是其中最关键的一环,是能够使得每个人幸福感都得到提升的可能的方案。
快手是2011年成立的,我们干了7年的时间,一路上经历了非常多的挑战,经历了日活在1亿量的网络社区。我们怎么做的呢?
我们在用科技的力量去提升每一个人的幸福感。我们在尝试让每一个人都能够记录自己的生活状态,每个人都有机会留下自己的记录呈现给这个世界,每个人都能够让世界发现自己,每个人都能够因此消减一点点的孤独感,提升一点点的幸福感,从而能够提升整个社会幸福感的总和。
我们在这条路上已经走了七年的时间,直到上周,我们大概累计有50亿条视频。50亿条视频是什么概念?
这里面是快手用户,平均每天能够产生一千万到两千万条视频。中国有两千多个县,我们能够拍到每个县,在座的各位你们的家乡每个县都能够看到数千条量级的视频。用户在任何时刻打开快手,都可以看到任何一个地方。这50亿条视频,几乎都不重复。并非某些视频的库虽然很大,但是大体是同一个电影、或者综艺的剪辑。在快手产生的、留下来的50亿条视频,都是生活中活生生的、新鲜的生活状态,形形色色的人,形形色色的事。
AI 如何理解长尾用户生活片段
我们刚才讲,其实幸福感需要让我们每一个人都可以看见,被这个世界发现,能够让自己的情绪情感被别人知道,被人感知,被别人看到,被别人理解。但是,50亿的量级是非常庞大的量级,我们过去的视频平台,库里每天新增的视频从来没有突破过千万量级的,这在历史上都是没有过的。
所以在座的这些内容、这些视频,和那些观察者之间匹配的时候,实际上以前说照顾好头部就可以了,可是面对50亿的生活片段,我们怎么把长尾的用户照顾好,真的能够让每一个人都得到一些关注,每个人都消减自己的孤独感,这实际上是非常艰难的课题。
我在十几年前,在谷歌的时候就研究这个问题,我们做很好的匹配,做很好的信息的分发。实际上我们整体是在用AI,用机器学习的技术在尝试去解决。
历史上的其他的视频平台不是那么需要,特别是每个视频数量没有那么多的时候。如果每年只新增两百部电影,三百部电视剧。每一个电影、每一个电视剧,或者每一个综艺节目,我们都可以用人工标注的方式把它分析、理解的特别清楚。但是,每天新增千万量级视频,不可能找人标出来,也不能找编辑去像传统的媒体按板块分发。我们想要去照顾长尾用户、想要去照顾每一个人,这样的平台,我们更加无法挑选那些头部的,极少数的热的视频给大家看。
那么我们的解决方法是什么?是用AI,应用在四个环节。第一个环节内容的生产,是记录的产生环境。第二个环节,如何让这些人去理解视频。
我是80后。80后从小就喊理解万岁,我相信理解也是机器今天能够做的一个主要的方向之一。让机器像我们人类一样能够理解这个世界,能够理解每一个人,让机器理解每一个生活的片断,这也是快手公司在做的事情。
基于这样的理解,我们后面才会有整个很好的分发,有一个更好的平台去照顾到每一个人。我们理解每一段视频,每一个视频片断,我们要理解每一个用户的偏好,理解每一个用户潜在的偏好,最后才能做一个很好的分发视频。
第一个模块在记录,今年4月份、5月份快手上线的一个魔法表情,能够快速模拟一个人,从年轻到老去的过程。第二个是整体的姿态检测,里面还有AR的玩法,实际上他背后是基于我们自己研发的一套3D系统的AR系统,我们YCNN的深度学习系统,这个深度学习系统它的核心优势就是能够在非常低端的手机上,跟我们一起实现跨平台,不止在安卓、iPhone上运行的效率提高,同时能够把模型做得非常小,速度做得非常快。最重要的是做了非常多的视频中的记录的玩法,解决人体姿态识别的问题,人脸关键点检索问题,视觉惯性里程计,还有手势识别。
让机器理解这些视频是什么内容,当一个生活的片断上传过来以后,我们立即会将一系列的信息拿掉,比如检测有几个人,进一步需要检测是男人还是女人,是老人还是小孩,是中国人还是外国人,能够把之间的关系理解,就变得越来越难。
我们除了跟人有关的识别,还做了大量图像方面的,有场景的识别,是在会场还是在操场,是在家里或办公室,我们做了很多的场景识别。更进一步、更难一点的,在做饭、做菜,还是在钓鱼,各方面场景的场所,还有他正在做的事,是在赛车,还是在大马路上骑自行车,还是卡车、轿车,有更多的更高级的识别。当然我们还做了颜值识别,比较好玩,目前线上还没有这个应用。
这其中还有和语音有关的理解,就是我们经常发现一个视频,他里面很多信息是包含在音频里面,特别是传递情绪,人类的很多情绪是在声音里面,再转化为语速、语调起伏,或者他用得配乐,就是音乐本身的情感属性,我们做了大量的音乐的结构化的理解。
我们最高的并发大概是20万,在快速的语言里面,有几十万的并发的、实时的语音识别的需求,我们到现在为止,还是仅用自己自研的,因为20万的并发率,对机器的要求特别高,找第三方的话,不愿意投入机器。
另外,快速的语音识别还有一个难点,我们的场景是生活场景,它不是收音干净的。在生活中可能有两个人在说话,可能有 汽车 在叫,可能在操场里面,或者在教室,整个是一个复杂的场景,这里面我们怎样能够做到最好的,速度要最快的语音识别,几十万部的并发识别,对我们来说也是一个非常大的挑战。
从全球板块来讲,我们会接受一定程度上的识别率的下降,但是要让性能和让场景的适应性更好,这是快手目前面临的问题之一。在底层,我们有自己研发的,一个大规模并行的机器学习的平台,是做模拟训练和推理,也包括做一些数据的标注。
当然对快手来讲,我们做视频内容的理解,很大程度上得益于我们是一个社区,社区里面每天有上亿的人在帮我们标注,他们的点击点赞行为,他们的关注行为,他们的转发行为,他们的播放时长,他们人和人之间相互的关系,网状的关系,就在帮助我们更好的理解用户。我们不是纯粹从内容出发的,我们还有行为数据。
但是,如何把用户的行为数据和内容清晰组合在一起,特别是把内容里面的视觉加上时间轴以后进行连续的视频分析,再加上深度的分析,再加上用户的行为分析,整个多模的集成组合在一起,也是一个非常有意思的课题。
AI 如何探索社区用户的兴趣边界
第三个部分是理解用户,当然这里面的用户并不是内容的记录者,是指看内容,当你拿出你的手机,打开一个APP的时候,我们希望帮助你发现这个世界,这时候对平台来讲,我们需要理解你的兴趣偏好,更主要的我们还需要理解你潜在的兴趣,就是你过去还没有探索过,但是你可能会喜欢的方向和领域把它挖掘出来,才能帮你探索更大的未知领域。
在快手,我们也是得益于我们做的是一个社区,举个例子,其实在日常生活中,我们怎么去扩展自己的兴趣偏好,一个是随机的,不小心看到的、很好玩的。比如我当年为什么会选择做AI,真的是不小心碰到了有一个团队在做机器学习的应用,我跟他们聊了以后很感兴趣,从此走上了这个路,这是一个非常随机的状态。
还有一个做法是问朋友,比如在你的朋友圈里面,或者你的室友、你的同学,到处说我昨天打了棒球,很好玩,你要不要一起来玩一下,我刚学了一个C++语言不错,要不要一起来学一起,朋友告诉你,帮助你扩展你的兴趣偏好。
在快手我们利用类似的逻辑去做,就是在一个大的社区里面,总有那么一些人跟你很相似,但又不完全一样,跟你相似又关注他们喜欢的东西,他们喜欢的那些跟你偏好不一样的东西,你极大的可能会喜欢,我们尝试去扩展兴趣的时候,去理解一个用户群偏好的时候,我们会应用到里面,尽心去做,这样可以帮助每一个人,你不是一个人在探索,是有社区里面成千上万的人跟你相似又不同的人在探索,同时你帮助其他一些跟你相似而不同的人去探索,这样我们可以更好的理解一个人的潜力。
接下来就是视频分发,我们的记录能够更好的产生,在内容、视频、生活片断中会最好的理解,在用户的偏好,潜在的兴趣,能够可以更好的挖掘的基础之上,我们才能做一个更好的分发系统。这个分发系统可以真正照顾长尾,能够让更多的人找到自己喜欢的人,找到喜欢自己的人,能够让更多的人被看见,让我们看见更大的世界。
我们现在已经进化到的用实时的方法做整个的日志系统,可能有同行知道,早年我们都是用一些偏Linux的方法去做,到现在线上已经能够实时的运行深度学习的方法,并且还不是一个模型,可能是一个层叠的组合的复杂的模型。但是,事实上能够做到标值的响定,用户的每次行为,事实上在一秒钟以后,就能够反应到视频中去,能够给用户更好、更准、更广阔的世界,等待用户去发现。
未来我们还有很多想要研究的方向,这里面列了其中一些,我自己最感兴趣的是多模态信息融合的视频理解,我觉得总有一天我们的机器能够像人类一样理解一个视频。我自己有一次看到一个特别有意思的视频,那个视频很短,是一个男生和一个女生走在一起,拥抱,然后分开。看到那个视频的时候,我是能够理解他们是一对情侣,他们应该是最后一个拥抱,不清楚什么原因分开了。
我当时就想说,是不是机器有一天也能够理解到这一层,我在理解这个视频的时候,我发现有两个人,我发现他们拥抱了之后,发出的声音是包含了非常悲伤的情绪,他们分开的时候又很决绝,我们就得到了这样一个结论。也许有一天我们做的人工智能系统,能够像我一样,像人类一样去理解生活中的片断,能够更好的理解人类的情绪、情感,甚至是灵感。我很期待那一天的到来。
对快手来讲,我们是要构建一整套的以AI技术为核心的基础设施,能够用科技的力量提升每一个人独特的幸福感觉,能够让每一个人更多更好的感受这个世界,也能够更好的被这个世界所感受到,这是快手最想做的事情。
谢谢大家。
作者:李程程