今日头条曹欢欢:算法可以准实时完成用户兴趣模型更新
“99%的今日头条用户发生交互行为后1分钟,兴趣模型就会完成更新。”” 1月11日,今日头条召开的《让算法公开透明》交流会上,资深算法架构师、中国科学技术大学计算机博士曹欢欢面向行业公开了今日头条的推荐算法。
曹欢欢介绍称,今日头条在用户兴趣模型的更新上,主要采用的是流式计算框架,相比于批量计算用户标签,流式计算框架的优势在于节省资源,几十台机器就可以支撑每天数千万用户的兴趣模型更新。这使得今日头条可以准实时完成用户兴趣模型的更新。
据曹欢欢介绍,批量计算用户标签的系统,很难及时处理完当天的任务,哪怕每天仅1亿多的用户更新,全部处理完用户数据的工作量也非常大,随着用户数量的不断增加,这也给分布式存储系统的压力越来越大。而今日头条的流式计算框架,大大降低了计算机资源的开销,“可以省80%的CPU”。
更重要的时候,采用此种算法之后,只要用户有特征,系统就能立刻对用户数据进行清洗,“99%的用户可以实现发生动作后1分钟模型更新。”
分享过后,曹欢欢在现场解答了社会各界人士对算法的疑问,包括今日头条如何实现冷启动,广告和内容该怎样平衡,怎样准确地拓展用户兴趣图谱等切实的工程性问题。同时,听取接纳了大家对今日头条算法的意见和建议。
中央电视台、新华社、人民日报等 媒体 机构从业者,和阿里、腾讯、百度、美团、新浪、网易等 科技 公司的算法工程师、产品经理等100多人,参加了本次字节跳动“让算法公开透明”活动。