AI 是短视频平台的核心能力，快手其实是一家人工智能公司

砍柴网 • 6年前扫码分享

如何将每位用户的注意力高效分配给海量丰富的短视频，而非集中在少数爆款之上，光靠人工运营的方法是不可行的，这必须通过人工智能技术来实现。

AI 如何赋能短视频平台?

这是快手科技 AI技术副总裁郑文在极客公园「创新之火」活动上的演讲主题。从纯粹用于制作、分享 GIF 图的工具性应用，到如今成为日活跃用户量过亿，用户日均使用时长超一小时的新型短视频社区，这是快手七年走过的创业路。

七年，快手用户累计发布短视频超过 70 亿条，从搞笑、幽默，游戏、娱乐，到各地风土、民情，内容各异。对于快手，不少人认为它只是一家短视频公司，短视频平台跟 AI 技术的关系并不大。

但是，如何将每位用户的注意力高效分配给海量丰富的短视频，而非集中在少数爆款之上，光靠人工运营的方法是不可行的，这必须通过人工智能技术来实现。

AI 技术让记录生活更有趣

AI 是短视频平台的核心能力，快手其实是一家人工智能公司

面对每日数以千万的新增视频，该如何将其精准匹配到用户眼前?快手 CEO 宿华曾形容，这是快手员工需要面对的前所未有的难题。为此，快手提出了一整套基于 AI 技术的解决方案，贯穿视频生产、内容理解，用户理解，系统分发等使用快手的每个环节。在极客雇主交流会现场，快手科技AI技术副总裁郑文说，AI 是快手连接内容生产与消费两个端口的核心能力。

快手上线了一批爆款特效，像是叫做快手时光机的「变老」表情，可以在十几秒钟中，让视频中人物的容颜变成 60 年之后、还有可以实时进行肢体识别的舞蹈游戏、AR 换脸等等。这些玩法背后是快手对前沿 AI 技术的开发，涉及人体姿态估计、手势识别、背景分割等多个技术模块。这是在内容生产领域，快手努力将记录形式变得更加有趣的新尝试。

用户通过快手 app 拍摄、上传了一段短视频后，后台机器会提取其内含的基本信息，诸如视频中人脸的性别、表情、颜值等，尝试理解视频内容。机器还会依照场景识别、物体跟踪、图像质量评估等维度，对图像进行分类。语音识别，也是机器理解视频的重要方面。机器会把语音转化成文字，通过文字理解视频表达的含义。快手多媒体内容理解(Multi-Media Understanding)部门利用 AI 技术通过感知和推理两个阶段来解读一个视频，首先感知获取视频的客观内容信息，进而推理获取视频的高层语义信息。

像人把学到的知识存到大脑一样，我们把快手的内容整理并存储到快手知识图谱中，这样融合感知内容和知识图谱，就可以完成对视频高层语义及情感的识别。

促使机器理解用户本身同样不可或缺。用户年龄、性别、是否使用 WiFi 等注册的基本信息，用户在使用快手时产生的大量行为数据，都将传输到一个深度学习的模型中用于机器训练，从而得到一组综合性的用户信息，以预测用户的喜好，个体用户之间的关联。

快手如何破除「信息茧房」?

AI 是短视频平台的核心能力，快手其实是一家人工智能公司

让记录形式更有趣，让机器理解视频内容、深度洞悉用户，这是快手利用 AI 技术赋能短视频平台的试探。

快手科技 AI 技术副总裁郑文说，作为前沿技术，人工智能在研发、执行过程中还没有一个非常成行的流程。根据自身发展情况，快手以问题为导向开展 AI 项目，首先明确需求，接着针对需求进行预研、收集数据、训练模型，之后才是相应的功能开发与产品化。

人工智能与算法推荐曾引发一些争议，大众普遍认为，智能算法根据用户兴趣推荐内容，久而久之，用户便会被自己关心的事物围绕，失去对外部世界的整体认知，形成「信息茧房」。对此，郑文举例快手的推荐机制作答：快手的推荐给用户的内容，绝非仅仅用户最感兴趣的部分，而是会考虑到内容的多样性，在更广阔的领域发现感兴趣的内容。

郑文举例说，比如在社区中，会有一些跟你比较相似但不完全一样的用户，那么他们喜欢的内容，你也有可能会感兴趣，这样就不是用户自己一个人去探索，而是成千上万相似但不同的人在一起探索。基于这个逻辑的分发系统，也可以真正顾及到长尾视频，让更多的人被看见。

作为记录载体，短视频形态本身具备普惠性。它极大降低了信息交流门槛，通过技术赋能，让人们可以公平、有趣地记录与分享生活。在极客雇主的交流会现场，郑文说，记录生活能够提高人们的幸福感，在快手，人们可以看到更丰富的世界，而他们自己也能够被世界看见。

今年四月，快手还与清华联合成立了未来媒体数据研究院。该院以清华软件学院与快手的技术难题攻关为基础，联合新闻学院、社会学系等开展社会人文领域研究，涉及计算机图形学、图像处理、大数据和人工智能等领域，以合作开放的姿态，探索技术赋能短视频的更多可能。