快手CEO宿华:透过50亿条视频,用AI提升每个人的幸福感
5 月 19 日,2018 年中国图灵大会(ACM TURC 2018)在上海举行,产学研各界集聚一趟,分享计算机领域的最新技术进展,并探讨当社会前沿 科技 的问题和跨领域的发展趋势。快手创始人兼 CEO 宿华在题为「AI 如何提升幸福感」的演讲中描述了快手满载技术与人文的一面。
此外,快手 AI 技术副总裁郑文也出席了该大会,与 ACM 图灵奖得主、有「 互联网 之父」之称的 Vinton Cerf 教授,ACM 图灵奖得主、哈佛大学 Leslie Valiant 教授,澳门大学副校长倪明选教授,商汤科技联合创始人、CEO 徐立,资深 传媒 人杨澜共同探讨人工智能的未来。
宿华提到最早在谷歌的工作经历让他开始接触到机器学习,在解决问题中不断认识和理解人工智能,在搜索引擎中利用 AI 匹配问题和答案。后来的工作中,他不断思考「AI 应该用来解决什么样的问题」,直到在快手创立之后,这个答案越来越清晰和具体——提升人类的幸福感。
关于幸福感,宿华是这样定义的,记录可以提升人们的幸福感:一个是看见别人,一个是被别人看见。每个人心中都有这样的渴望,希望自己的状态,自己的情感,自己的灵感,能够被更多的人看见,被更多的人理解。我想记录是其中最关键的一环,是能够使得每个人幸福感都得到提升的可能的方案。
经过 7 年的 创业 ,快手平台的日活跃用户量已经达到 1 亿,用户累计发布短视频超过 50 亿条,每天有 150 亿条视频被播放,用户日均使用时长超过 60 分钟。在这背后,快手后天的工作人员们需要面对一个前所未有的难题——每天新增千万条量级的、内容各异的视频,以及更为重要的将内容匹配到特定的用户手里。
「过去的视频平台,库里每天新增的视频从来没有突破过千万量级的,这在历史上都是没有过的。」宿华说道。
快手需要面对的问题可以拆解为两个,一是处理每天海量的增量视频内容,二是兼顾到每个用户需求,包括长尾用户。为此,快手提出了一套基于 AI 的技术解决方案,包括从视频内容生产、到视频理解、用户理解,以及最后的分发系统的每个环节。
在内容创作环节,宿华介绍,快手提供了魔法表情、整体姿态检测、AR 特效等不同模块来丰富内容记录的形式和效果,这些实时效果的实现来自于人体姿态估计、视觉惯性里程估计、手势识别等技术的运用,以及快手自主研发的搭建的 YCNN 深度学习推理引擎支持。
快手 AI 技术副总裁郑文举例,快手会通过深度学习算法来检测用户拍摄的场景类别,并据此选择最适合的滤镜效果来提升视频的质量。通过人体关键点识别技术,快手能够为用户的肢体加上特效,比如让虚拟的火球跟随人手的位置进行运动,此外还有很多人脸装饰贴纸、AR 模型等基于 AI 技术的特效,让每个用户的记录形式更加丰富多彩。
在视频理解层面,快手基于视频多模态分类、描述、检索算法,对视频中的人脸、图像、音乐、语音进行多个维度的解读,从高层语义不断进阶到情感识别层面。在系统底层,快手建立了多机多卡深度学习训练推理平台和数据标注平台。
在数据标注环节,宿华提到,快手并不是纯粹地从内容出发,还包括基于用户的行为数据。「快手的核心优势得益于我们是一个社区,社区里面每天有上亿的人在帮我们标注,他们的点击点赞行为,他们的关注行为,他们的转发行为,他们的播放时长,他们人和人之间相互的关系,网状的关系,就在帮助我们更好的理解用户,我们不是纯粹从内容出发的,我们还有行为数据。」
在用户理解层面,快手在海量用户和 50 亿视频中间建立起一套双向感知系统。从早年的 Linux 人工干预方式,进化到当下的基于深度学习的实时在线学习推荐系统,快手能够做到理解用户的实时行为,并不断挖掘用户的潜在兴趣。
基于用户实时行为的理解,快手通过前端的在线推荐以及后台的秒级更新模型的日志系统实现精准匹配的内容分发。在郑文参与的论坛环节,关于算法的智能推荐也引起了一些争议,大众普遍认为智能推荐只会根据用户的兴趣爱好推荐内容,久而久之用户就会被自己关心的事物围绕,从而失去对外界的整体认知,形成「信息茧房」效应。
对此,郑文分享了快手的推荐机制:快手的推荐给用户的内容,绝非仅仅用户最感兴趣的部分,而是会考虑到内容的多样性,在更广阔的领域发现感兴趣的内容。
例如某一位用户对足球感兴趣,那么后台 AI 系统除了给他推送足球和其他球类甚至其他类别体育运动相关内容,还会对同样喜欢足球的群体进行分析,找到他们除了足球以外还有哪些兴趣点,从而把这些兴趣点相关内容也推送给这位用户,帮助用户不断拓展兴趣边界,打破「信息茧房」,也与其他人建立更强更深入的连接。
最后,宿华提出了一系列对于短视频与 AI 的未来研究方向的思考,在这之中他对于「多模态信息融合的视频理解」最感兴趣,他提到,这里的理解不仅在内容层面,还包括对于视频中人物隐含在表情、声线里的情绪、情感等。
以下是宿华在 2018 年中国图灵大会(ACM TURC 2018)的演讲全文,经极客公园编辑。
宿华:在座的各位老师、各位同学、各位朋友,上午好。
大概 12 年前,我刚加入谷歌,开始接触、学习和应用机器学习的技术,主要为解决搜索引擎当中的一些问题,学了很多前人的推导公式,学了很多的模型、思想。
后来我思考,AI 应该用来解决什么样的问题,不是数学上的问题,而是说为社会、为人类应该解决什么问题,想了很长时间有了一个答案。在这些年实践的领域中,我想明白了不管我们做什么样的技术,最后都应该用于提升人类的幸福感,或者是做到幸福感的改善。AI 当然是当下最火最热的技术,下面我给大家分享的就是我这些年是怎样去用 AI 解决幸福感的问题。
首先有一个观察,我们发现记录是可以提升人们幸福感的,因为对于记录来讲,每一份记录都有两类人:一个是记录的产生者、记录者,一个是记录的观察者。
对于观察者来讲,通过别人的记录可以看到更广阔的世界,在城市里可以看到乡村农产品生产,在乡村里可以看到国外的世界,土耳其的热气球、非洲的小孩可以和中国人交朋友,在日本的留学生可以和自己在中国的家人、朋友交流。
一个是看见别人,一个是被别人看见。我们想每个人心中都有一个渴望,希望自己的状态,自己的情感,自己的灵感,能够被更多的人看见,被更多的人理解,我想记录是其中最关键的一环,是能够使得每个人幸福感都得到提升的可能的方案。
快手是 2011 年成立的,我们干了 7 年的时间,一路上经历了非常多的挑战,经历了日活在 1 亿量的网络社区。我们怎么做的呢?
我们在用科技的力量去提升每一个人的幸福感,我们在尝试让每一个人都能够记录自己的生活状态,每个人都有机会留下自己的记录呈现给这个世界,每个人都能够让世界发现自己,每个人都能够因此消减一点点的孤独感,提升一点点的幸福感,从而能够提升整个社会幸福感的总和。
我们在这条路上已经走了七年的时间,直到上周,我们大概累计有 50 亿条视频。50 亿条视频是什么概念?
快手用户平均每天能够产生一千万到两千万条视频。中国有两千多个县,我们能够拍到每个县,在座的各位你们的家乡每个县都能够看到数千条量级的视频。用户在任何时刻打开快手,都可以看到任何一个地方。这 50 亿条视频,几乎都不重复。并非某些视频的库虽然很大,但是大体是同一个电影、或者综艺的剪辑;在快手产生的、留下来的 50 亿条视频,都是生活中活生生的、新鲜的生活状态,形形色色的人,形形色色的事。
我们刚才讲,其实幸福感需要让我们每一个人都可以看见,被这个世界发现,能够让自己的情绪情感被别人知道,被人感知,被别人看到,被别人理解。但是 50 亿的量级是非常庞大的量级。我们过去的视频平台,库里每天新增的视频从来没有突破过千万量级的,这在历史上都是没有过的。所以在座的这些内容、这些视频,和那些观察者之间匹配的时候,实际上以前说照顾好头部就可以了,可是面对 50 亿的生活片段,我们怎么把长尾的用户照顾好,真的能够让每一个人都得到一些关注,每个人都消减自己的孤独感,这实际上是非常艰难的课题。
我在十几年前,在谷歌的时候就研究这个问题,我们做很好的匹配,做很好的信息的分发。实际上我们整体是在用 AI,用机器学习的技术在尝试去解决。
历史上的其他的视频平台不是那么需要,特别是每个视频数量没有那么多的时候,如果每年只新增两百部电影,三百部电视剧,每一个电影、每一个电视剧,或者每一个综艺节目,我们都可以用人工标注的方式把它分析、理解的特别清楚。但是,每天新增千万量级视频,不可能找人标出来,也不能找编辑去像传统的 媒体 按板块分发。我们想要去照顾长尾用户、想要去照顾每一个人,这样的平台,我们更加无法挑选那些头部的,极少数的热的视频给大家看。
那么我们的解决方法是什么?是用 AI,应用在四个环节。第一个环节内容的生产,是记录的产生环境。第二个环节,如何让这些人去理解视频。我是 80 后,80 后从小就喊理解万岁,我相信理解也是机器今天能够做的一个主要的方向之一,让机器像我们人类一样能够理解这个世界,能够理解每一个人,让机器理解每一个生活的片断,这也是快手公司在做的事情,基于这样的理解,我们后面才会有整个很好的分发,有一个更好的平台去照顾到每一个人。我们理解每一段视频,每一个视频片断,我们要理解每一个用户的偏好,理解每一个用户潜在的偏好,最后才能做一个很好的分发视频。
第一个模块在记录,下面一个视频,今年 4 月份、5 月份上线的一个魔法表情,能够快速模拟一个人,从年轻到老去的过程。第二个是整体的姿态检测,里面还有 AR 的玩法,实际上他背后是基于我们自己研发的一套 3D 系统的 AR 系统,我们 YCNN 的深度学习系统,这个深度学习系统它的核心优势就是能够在非常低端的 手机 上,跟我们一起实现跨平台,不止在安卓、iPhone 上运行的效率提高,同时能够把模型做得非常小,速度做得非常快。
最重要的是做了非常多的视频中的记录的玩法,解决人体姿态识别的问题,人脸关键点检索问题,视觉惯性里程计,还有手势识别。
让机器理解这些视频是什么内容,当一个生活的片断上传过来以后,我们立即会将一系列的信息拿掉,比如检测有几个人,进一步需要检测是男人还是女人,是老人还是小孩,是中国人还是外国人,能够把之间的关系理解,就变得越来越难。我们除了跟人有关的识别,还做了大量图像方面的,有场景的识别,是在会场还是在操场,是在家里或办公室,我们做了很多的场景识别。
更进一步、更难一点的,在做饭、做菜,还是在钓鱼,各方面场景的场所,还有他正在做的事,是在赛车,还是在大马路上骑自行车,还是卡车、轿车,有更多的更高级的识别。当然我们还做了颜值识别,比较好玩,目前线上还没有这个应用。
这其中还有和语音有关的理解,就是我们经常发现一个视频,他里面很多信息是包含在音频里面,特别是传递情绪,人类的很多情绪是在声音里面,再转化为语速、语调起伏,或者他用得配乐,就是音乐本身的情感属性,我们做了大量的音乐的结构化的理解。我们最高的并发大概是 20 万,在快速的语言里面,有几十万的并发的、实时的语音识别的需求,我们到现在为止,还是仅用自己自研的,因为 20 万的并发率,对机器的要求特别高,找第三方的话,不愿意投入机器。
另外可以快速的语音识别还有一个难点,我们的场景是生活场景,它不是收音干净的。在生活中可能有两个人在说话,可能有 汽车 在叫,可能在操场里面,或者在教室,整个是一个复杂的场景,这里面我们怎样能够做到最好的,速度要最快的语音识别,几十万部的并发识别,对我们来说也是一个非常大的挑战。从全球板块来讲,我们会接受一定程度上的识别率的下降,但是要让性能和让场景的适应性更好,这是快手目前面临的问题之一。在底层,我们有自己研发的,一个大规模并行的机器学习的平台,是做模拟训练和推理,也包括做一些数据的标注。
当然对快手来讲,我们做视频内容的理解,很大程度上得益于我们是一个社区,社区里面每天有上亿的人在帮我们标注,他们的点击点赞行为,他们的关注行为,他们的转发行为,他们的播放时长,他们人和人之间相互的关系,网状的关系,就在帮助我们更好的理解用户,我们不是纯粹从内容出发的,我们还有行为数据。但是如何把用户的行为数据和内容清晰组合在一起,特别是把内容里面的视觉加上时间轴以后进行连续的视频分析,再加上深度的分析,再加上用户的行为分析,整个多模的集成组合在一起,也是一个非常有意思的课题。
第三个部分是理解用户,当然这里面的用户并不是内容的记录者,是指看内容,当你拿出你的手机,打开一个 APP 的时候,我们希望帮助你发现这个世界,这时候对平台来讲,我们需要理解你的兴趣偏好,更主要的我们还需要理解你潜在的兴趣,就是你过去还没有探索过,但是你可能会喜欢的方向和领域把它挖掘出来,才能帮你探索更大的未知领域。
在快手,我们也是得益于我们做的是一个社区,举个例子,其实在日常生活中,我们怎么去扩展自己的兴趣偏好,一个是随机的,不小心看到的、很好玩的,比如我当年为什么会选择做 AI,真的是不小心碰到了有一个团队在做机器学习的应用,我跟他们聊了以后很感兴趣,从此走上了这个路,这是一个非常随机的状态。还有一个做法是问朋友,比如在你的朋友圈里面,或者你的室友、你的同学,到处说我昨天打了棒球,很好玩,你要不要一起来玩一下,我刚学了一个 C++语言不错,要不要一起来学一起,朋友告诉你,帮助你扩展你的兴趣偏好。
在快手我们利用类似的逻辑去做,就是在一个大的社区里面,总有那么一些人跟你很相似,但又不完全一样,跟你相似又关注他们喜欢的东西,他们喜欢的那些跟你偏好不一样的东西,你极大的可能会喜欢,我们尝试去扩展兴趣的时候,去理解一个用户群偏好的时候,我们会应用到里面,尽心去做,这样可以帮助每一个人,你不是一个人在探索,是有社区里面成千上万的人跟你相似又不同的人在探索,同时你帮助其他一些跟你相似而不同的人去探索,这样我们可以更好的理解一个人的潜力。
接下来就是视频分发,我们的记录能够更好的产生,在内容、视频、生活片断中会最好的理解,在用户的偏好,潜在的兴趣,能够可以更好的挖掘的基础之上,我们才能做一个更好的分发系统。这个分发系统可以真正照顾长尾,能够让更多的人找到自己喜欢的人,找到喜欢自己的人,能够让更多的人被看见,让我们看见更大的世界。
我们现在已经进化到的用实时的方法做整个的日志系统,可能有同行知道,早年我们都是用一些偏 Linux 的方法去做,到现在线上已经能够实时的运行深度学习的方法,并且还不是一个模型,可能是一个层叠的组合的复杂的模型。但是事实上能够做到标值的响定,用户的每次行为,事实上在一秒钟以后,就能够反应到视频中去,能够给用户更好、更准、更广阔的世界,等待用户去发现。
未来我们还有很多想要研究的方向,这里面列了其中一些,我自己最感兴趣的是多模态信息融合的视频理解,我觉得总有一天我们的机器能够像人类一样理解一个视频,我自己有一次看到一个特别有意思的视频,那个视频很短,是一个男生和一个女生走在一起,拥抱,然后分开。看到那个视频的时候,我是能够理解他们是一对情侣,他们应该是最后一个拥抱,不清楚什么原因分开了。我当时就想说,是不是机器有一天也能够理解到这一层,我在理解这个视频的时候,我发现有两个人,我发现他们拥抱了之后,发出的声音是包含了非常悲伤的情绪,他们分开的时候又很决绝,我们就得到了这样一个结论。也许有一天我们做的人工智能系统,能够像我一样,像人类一样去理解生活中的片断,能够更好的理解人类的情绪、情感,甚至是灵感。我很期待那一天的到来。
对快手来讲,我们是要构建一整套的以 AI 技术为核心的基础设施,能够用科技的力量提升每一个人独特的幸福感觉,能够让每一个人更多更好的感受这个世界,也能够更好的被这个世界所感受到,这是快手最想做的事情。谢谢大家。
(来源: 极客公园 )