一点资讯王元元:如何避免陷入算法陷阱
上周末,2018全球人工智能技术大会(GAITC)在北京国家会议中心举行。大会以“交叉、融合、相生、共赢”为主题,力图用新技术和科研成果绘制出最为清晰的AI新时代版图。
会上,一点资讯技术副总裁王元元作了题为“信息流中的算法”的主题演讲,并在随后的互动环节中提醒年轻的工程师们,要用更长远的眼光来优化算法,如果简单粗暴处理,算法的上限会非常明显。
算法助力信息流
从门户网站到 自媒体 兴起,如今网络上每天产生的内容数以百万计。王元元指出,信息流在某种意义上成为移动 互联网 时代搜索的下一代,并通过算法取得巨大成功,其原因有两个要素:
一、同样都是信息分发,信息流领域有“清晰和简单”的业务目标和 商业 目标。平台的目标可以转换成用户的时长、用户的刷新次数、用户的广告点击次数、用户的广告转换的次数。
二、流量越大,数据规模越大,反过来对达成更好的业务目标提供了非常重要的数据基础。
王元元介绍说,一点资讯现在拥有5900万日活,自 媒体 作者有68万+,每天产生接近五六十万的包括短视频、图文的内容。这些提供了非常重要的内容基础。再加上每天人均接近1小时的使用时长,用户产生了极其丰富的数据供工程师们进行优化。
信息流中常见的算法问题
“我从2012年开始做信息流相关的 创业 ,经历了信息流行业的兴起、快速发展的阶段,但也发现算法本身存在的问题。”王元元介绍说:
一、内容结构化是否成熟?从早期的热词和主题的分析,再到后期对内容质量的分析、权威度的分析、热度的分析,都是在对内容进行更深一步的理解,进行更多的结构化的工作。
二、用户画像是否全面?平台需要利用用户的行为,包括用户和产品的交互行为去分析用户的一些基础特征,包含用户的人性属性特征、兴趣特征。
三、分发过程中涉及到的问题,用到的算法包括协同过滤、相关性模型、点击率模型,这些是在搜索开始非常常见的问题。但是在信息流领域中,它可能结合着信息流的特点,有一些新的工作。
此外,随着信息流行业的迅猛发展,信息流行业也遇到了监管问题。如果信息流单纯提供一些抓人眼球的内容,用户的黏性无法得到保证,监管风险也是非常巨大的。
效率和价值如何平衡:从单一化的休闲娱乐朝着多元化的价值满足过渡
那么如何解决上述问题?王元元提到了“协同过滤“和”深度学习”,而这一前提则是“用户正确”。
他指出,随着数据量的膨胀,系统对推荐文章的理解需要从传统的简单结构分析过渡到更多的富有“人的知识”的结构判定,这样的结构背后所要做的算法工作十分庞大。
协同过滤的推荐是在数据达到一定规模之后,会让分发效率有一次质的飞跃,用户都会觉得看到的内容更好玩、更有趣,协同过滤的效果是非常好的。
王元元介绍说,在一点资讯,“深度学习”的推荐技巧已经应用到整个内容分发层面,信息流领域的核心问题就是排序问题,信息流的特点就是动态,什么东西都是瞬息万变的——从技术上说,提升效率是算法和AI最擅长的,但信息流并不是单纯的指标优化的 游戏 ,恰恰更应该考虑的是“价值”。
如何平衡效率和价值?王元元指出,影响算法最关键的是两个要素:数据、目标。现在效率的来源是大数据,但如果只依赖数据,最后一定会出现“指标优化“的情况。以一点资讯算法工作为例,王元元认为:“我们并不以点击为单一目标,而是综合如分享、时长这样的目标,把一个单目标优化的问题变成了多目标优化的问题,这也是我们现在工作中一直在不停做的。”
事实上,一点资讯一直以来就选择了“用户正确”的路径。当多数平台全面拥抱机器算法时,以算法技术领先立足的一点资讯最先看到了“矫枉过正”的潜在风险,首家在业内提出了“人机结合”模式,让挣扎于“信息茧房”中苦不得脱的用户以尽量舒服的姿势满足眼睛和大脑对内容获取的需求。所谓“人机结合”是一点资讯算法和人工编辑的双重保障,是平台对优质内容和用户的双向尊重。让算法负责效率,让人工掌舵内容;由算法开拓用户对兴趣内容的边界,由人工把握对内容风险的控制。
青年科学家如何“智造”AI产业
在随后的圆桌论坛上,王元元还就AI的未来发表自己的看法:随着内容越来越丰富,用户的需求也越来越复杂,我们越来越需要借助于AI的理解能力,以及用AI的方法去满足。
同时,他也对青年算法工作者提出了一些希望:看到算法优势的同时,也要深入理解我们所面临的要解决的问题。如果简单粗暴解决,算法的上限会非常明显,同时很可能让我们这个行业都面临巨大的风险。
“我做内容行业,参与的过程比较多,近期以来看到,单纯强调算法效率让行业都遇到了一些困难,这个困难是非常大的。”他说,“在这个方面,AI的从业者应该在实际工作当中更深入地思考,对算法的优化要更长远。”