算法推歌20年:从Pandora、Spotify到QQ音乐、网易云音乐
编辑导读:在短视频如此风靡的当下,算法无时无刻不在控制着我们的生活喜好,让我们上瘾,看到更多我们感兴趣的视频。然而,音乐领域也是如此,也是被算法所推动的。今天我们就来看看,算法是如何推歌的。
从杂志、报纸上的乐评专栏,到音乐流媒体上的用户评论、算法推荐,人们听歌的选择方式一直处于私人化和公开化之间。
近期,音乐软件Plexamp又进行了一次大规模的升级,其中最受关注的,当属新功能“Super Sonic”的上线。
据Plex介绍,这款只针对会员用户的新功能将利用庞大的神经网络,从“声音”上对用户歌单中的歌曲进行分析,完成新内容的个性化推荐。
不过,这一功能“更新需要占用大量的CPU,可能要花费您数小时甚至数天的时间。但一旦更新完成,将带给您全新的音乐体验。”
其实,以歌曲本身的要素作为标签,并对歌曲进行分类,“Super Sonic”的个性化推荐思路似乎没有创新,利用人工智能对歌曲进行分析也并不新鲜。
而从Pandora、Spotify到QQ音乐、网易云音乐,国内外音乐流媒体平台的推荐系统已发展了20年。
长期以来,“国内推荐系统的体验不如国外”的声音一直层出不穷,如今“Super Sonic”横空出世,又掀起了新一轮关于个性化推荐的讨论。
时至今日,“国外的推荐系统好在哪里”这个老问题,是否有了新的答案?
一、算法推歌20年
互联网音乐电台Pandora推出的“音乐基因组计划”,是最早向用户个性化推荐歌曲的系统。
2000年,Pandora把一群音乐家和音乐技术人员聚在一起,他们从流派、节奏、风格等多方面来给歌曲贴“标签”,然后过滤这些标签,以达到分类的效果,最后把不同类型的歌曲推送给自己的用户。
彼时,Pandora给歌曲贴的标签,基本上取决于音乐家的个人理解,而人工分析一首歌,往往需要15~30分钟的时间。
如今,Pandora的推荐系统已相当强大,它能从超过450个角度理解歌曲——包括流派、歌手、旋律、和声等,甚至是歌手的鼻音。
歌曲的每个特性被赋予0~5之间的值,通过对特性的描述,推荐系统描绘出了歌曲的DNA图谱。
同时,构建DNA图谱的过程也在逐渐智能化。
目前,Pandora采用人工+人工智能的组合来为歌曲贴“标签”,对于一些“简单”的特性。
例如和声、吉他效果等,人工智能已完全可以胜任。
而对于一些“复杂”的特性,例如歌词表达的情感、微妙的旋律变化等,目前仍由音乐工作者来进行判断。
Spotify的个性化推荐之路则开始得晚一些。
2015年,在收购了音乐个性化数据提供商The Echo Nest后,Spotify的推荐系统才开始“登堂入室”。
Discover Weekly是Spotify的首个个性化推荐功能,可以根据用户的喜好,每周为用户推荐30首歌曲。
与The Echo Nest早先的设计相似,Spotify的推荐系统主要采用协同过滤、自然语言处理、音频分析三种推荐模型。
协同过滤模型主要分析用户间的关联,在其中,Spotify的曲库与用户构成了一个庞大的二维矩阵,通过对这个矩阵的拆解,得到相似的用户向量和歌曲向量,以向用户推荐其他有着相似口味的用户喜爱的歌曲。
自然语言处理模型则是从人们对歌曲的评价中来提炼每首歌曲被提及时常用的形容表达、句子、名词等“关键词”,并给这些关键词设定不同的权重,以量化在人们眼中哪些歌曲是相似的。
由于新歌的播放数据和用户评价都较少,协同过滤模型和自然语言处理模型难以起到很好的效果。
为此,Spotify在推荐系统中加入了音频分析模型。
其通过分析原始音轨文件来进行分类过滤,在卷积神经网络的帮助下,歌曲时间内的特征统计量(拍子记号、音调、调式、速度等)得以形象化,并被用来分析歌曲间本质上的相似性。
要实现对用户的个性化推荐,除了对内容的精准描述外,精准的用户画像也同样重要。
2018年,Spotify申请的一项专利被视为其推荐系统2.0版本到来的标志。
据悉,这项专利是一项音频信号处理技术,能够对用户的语音内容和背景噪音进行处理,以得到用户的情绪状态数据。
再加上对年龄、性别、地区等传统数据的综合分析,Spotify将为用户提供更为精准的推荐内容,“把推荐技术提升到一个新的水平”。
与Spotify和Pandora试图去深刻理解用户不同,刚刚上线的“Super Sonic”并没有在用户画像上下功夫——这款仅针对Plex付费用户推出的功能,只是为了推荐用户可能喜欢的歌曲。
“Super Sonic”将一首歌曲的“声音”从旋律、节拍等50多个维度进行分解,根据分析结果,歌曲们被放进了一个以歌曲特性为坐标轴的N维空间中,并用不同的点表示。
在N维空间中,两个点越接近,它们代表的歌曲就越“相似”。
50维空间中的计算需要极大的计算量,这或许是在安装“Super Sonic”时需要耗费数小时甚至数天时间的原因。
尽管运作系统十分庞大,但“Super Sonic”并未带来多少新意。对歌曲本身进行分析,这与Spotify的音频分析模型的想法不谋而合;而通过寻找两个相近的“点”来召回歌曲,则是协同过滤模型中常用的求解思路。
不过,与各位“前辈”相比,“Super Sonic”也有着自己的亮点——它完全摆脱了对元数据的依赖。
尽管Spotify的音频分析模型也只对歌曲本身进行分析,但最终被端上用户餐桌的,是由多个模型共同决定的内容。
直观来看,“Super Sonic”这种“不加以辨别”的推荐方式,意味着独立音乐人有更多被听见的可能,也给听众带来了更多新的探索。
二、国内平台是怎么做算法推歌的?
众所周知,用户对音乐的反馈越多,个性化推荐的内容越精准。
其实这是一种双向互动的过程——推荐系统学习到用户喜好,用户也借助算法工具实现了对自己潜在音乐喜好的探索。
在这种推荐系统与用户的双向互动中,“标签”是推荐歌曲最重要的依据。
无论是Pandora“音乐基因组计划”还是Spotify的三种算法模型,核心目的都在于给一首歌曲贴上足量且准确的“标签”。
- 在标签的解读上,QQ音乐的推荐系统给出了一些新的思路:在标签系统中加入了视觉元素,从音视频和艺人的角度对歌曲进行拆解;
- 流派方面,QQ音乐综合国情,开发出了诸多中国独有的“标签”。
例如例如通行的“电音”“说唱”等流派划分外,还加入了“国风”、“城市民谣”、“大众流行”等中国特有的“标签”,以照顾到不同受众的口味与感受。
QQ音乐推荐系统的另一个创新点则是建立了歌曲的知识图谱。
在采访中,QQ音乐数据算法负责人Toro对音乐先声表示,知识图谱是由歌曲丰富的知识信息组成的网络结构。
在这个网络中,每首歌曲就是一个点,具有相同特征(例如专辑、歌手、音色等)的所有歌曲连成线,所有线交织在一起,则构成了一张蕴含着歌曲关联信息的网状知识图谱。
知识图谱的应用,无疑给分析歌曲之间的相关性提供了更多的角度。
作为可读性较高的外部知识载体,歌曲的知识图谱提供的信息也应用到了QQ音乐的个性化推荐板块(个性电台、每日30首等)。
在用户分析方面,QQ音乐主要采用行为序列和语义分析两种模型。
用户对每首歌曲的搜索、播放、收藏、切歌等在APP中的所有行为构成的行为序列,再结合从语义分析出的用户音乐个性,帮助QQ音乐为每位用户刻画出了独有的“音乐肖像”。
可见,在歌曲角度和用户角度,QQ音乐的算法推荐系统尽可能做到多样化的数据融合和本土化,在新热歌曲的推荐上表现也比较突出。
而作为国内第一个以歌单为底层架构的在线音乐平台,网易云音乐对推荐系统有着自己的理解。
除了用户对一首歌曲的播放、收藏、转发等常见的反馈外,社交功能强大的网易云音乐还拥有评论区这一丰富的“资源”。
为此,网易云音乐专门上线了针对评论语义分析功能,以从评论的语义中判断用户对歌曲的偏好程度。
随着推荐系统近年来的飞速发展,用户的要求也在水涨船高,不少用户表示推荐系统很少给自己带来“惊喜感”。
这是由于在已有的推荐系统中,用户画像方法大都没有考虑用户属性标签的时效性,因此很难刻画用户的动态变化。
网易云音乐对于深度时序网格的引入,在一定程度上解决了这个问题。
深度时序网格对用户过去一段时间及当前的听歌习惯进行分析,通过对用户兴趣点的快速更新,不仅实现了对用户的实时建模推荐,还能帮助用户发现潜在喜欢的歌单类型。
网易云音乐相关负责人对音乐先声表示,这在一定程度上带来了用户使用中的”惊喜感”。
但由于深度时序网络较为复杂,推荐系统的可解释性在一定程度上也会受影响。
- 可解释性主要分为两个方面,一方面是算法的可解释性,算法的可解释性差意味着在推荐系统出现偏差时,算法工程师更难找到问题所在;
- 另一方面则是推荐结果的可解释性,如果一个推荐系统能够给出推荐这些内容的原因,则说明其具有较好的可解释性。
清华大学张敏教授在某购物平台上进行的一项实验表明:当推荐结果的可解释性增强时,用户对其的点击率也会有所提升。
这就说明,良好的可解释性意味着更高的用户接受度,算法推歌也是同样的道理。
也就是说,在给出精准推荐的同时,还能给出可靠的解释,这样的推荐系统往往能收到更好的推荐效果。
这也是目前国内外音乐平台在个性化推荐系统领域的努力方向——不仅要提高用户选择推荐内容概率及用户满意度,还要提高用户对系统的信任与接受程度。
三、算法之外,推歌路在何方?
长期以来,国内音乐平台的推荐系统一直被拿来同国外作比较。
不少用户表示,目前国外音乐平台推荐系统的使用体验较好,甚至认为这种差距主要来自于推荐技术上的落后。
但其实,在世界一流的技术团队的努力下,从算法到模型,在技术层面,国内的推荐系统并不比国外差。
Toro认为:“相比于国外,国内的推荐技术并不处于劣势,国外的创作者生态和数据结构发展得比较成熟,这是他们的优势所在。我们处于不同的发展时代,而时代的发展是每个音乐产业都要经历的。”
以起步较早的Pandora为例,“音乐基因组计划”在推荐系统领域已深耕超20年,得益于8000万用户的庞大基数。
截止目前,Pandora已处理了超1000亿条用户反馈。在丰富数据的“投喂”下,国外音乐平台的推荐系统起点更高。
正如Toro所说:“国外音乐平台长时间搭建起的数据体系是最宝贵的财富,而这些东西是算法层面无法解决的”。
同样无法短时间解决的,还有国内音乐创作生态的问题。
在音乐市场尚未成熟的背景下,仍存在不少蹭热度、滥竽充数的创作现象,当这些歌曲流入推荐歌单中时,无疑会使用户体验大打折扣。
当然,由于当下受众市场音乐审美的“参差”,确实给了一批“以次充好”的歌曲以生存空间,但并不意味着用户永远只能沉迷在“神曲”之中。
当被问及音乐平台是否应该肩负起引导用户审美的责任时,Toro认为:“毫无疑问是需要的,这是每个平台都应该达到的效果”。
算法其实也是有价值观的,科技向善不应该只是一句口号,我们也乐见于更多不同类型的好音乐被听到。
与此同时,随着个性化推荐系统的飞速发展,不少隐形问题也开始被放上桌面。
比如,推荐系统带来的“信息茧房”效应就一直饱受诟病——如果一直被推送同一种类型的内容,用户的兴趣可能会被限制在其中。
有网友曾指出,Spotify推荐音乐类型和风格范围会随时间推移而逐渐收窄,这意味着如果不去主动寻找其他音乐,Spotify的推荐算法只会强化已推荐音乐的类型。
而在今年4月,Spotify的研发中心开发了一种新的动态模型——用户喜好过渡模型(Preference Transition Model,PTM)。
通过在音乐流媒体、饭馆推荐、电影推荐三个领域的试验,发现PTM能够“揭示一些用户偏好随时间变化的显著规律”,在一定程度上可以预测用户喜好的变化趋势。
国内的推荐系统也上线了深度时序网格来探知用户兴趣的变化,但真实准确地反映用户的兴趣迁移还很难。
目前,推荐系统更多的是引导用户进行兴趣与品味的探索——基于一定的价值观,推荐系统会给偏好老歌的用户推荐一些较新的歌曲,给偏保守的用户推荐一些较为“先锋”的歌曲等。
不过,个性化推荐带来的用户隐私问题也被重视起来。
自今年1月Spotify获批从用户语音来推测情绪的专利以来,这项技术一直饱受争议。
不少人担心自己的“私密信息”在应用软件的过程中被泄露。
这样的担心并非无中生有,有心之人利用推荐系统侵犯用户隐私的事件并不少见。
2016年,剑桥分析公司通过小测试的形式获取了5000万Facebook用户的个人信息,进行心理学分析后,其通过社交媒体向这些用户“个性化推荐”有利于特朗普竞选的内容。
据统计,在民众没有察觉的情况下,这些推荐内容潜移默化地影响了全美至少四分之一的潜在选民。
由于在面对不同的互联网产品时,用户有着不同的行为表现,因此整合不同平台推荐系统刻画出的用户画像,必然会使用户画像更为形象立体。
但这同样就会带来侵犯用户隐私的问题——不同平台的合作势必要对用户身份进行关联,打破利用用户信息与侵犯用户隐私间微妙的平衡。
而如果不能解决“推荐与隐私的悖论”,用户将永远无法安心地享受技术带来的便利。
8月27日,国家互联网信息办公室发布的关于《互联网信息服务算法推荐管理规定(征求意见稿)》就提到——
算法推荐服务提供者“不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息内容,不得设置歧视性或者偏见性用户标签”。
同时,“应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项”,以保护用户的合法权益。
从Pandora、Spotify到QQ音乐、网易云音乐,我们也会发现,只要给到足够丰富的内容标签和用户画像,算法推歌就可以无限趋近于真实甚至惊喜的听歌需求。
就目前国内外的个性化音乐推荐体验差距来说,技术本并不是最关键的要素,而在于一个时间积累的用户数据“投喂”,以及更好的创作者生态与用户审美。
当然,在被动享受算法推歌的技术便利时,如果我们能够保持自主发现好音乐的习惯,或许能够更真实地体验到听歌的乐趣,在赛博世界多一些仪式感。
作者:鲁修修,编辑:范志辉;公众号:音乐先声
本文由 @音乐先声 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash,基于CC0协议