产品经理入门迁移学习指南
春节前ARK的报告,仍然把人工智能看作未来大方向。而实际在人工智能落地过程中,数据量是绕不开的话题,如果数据量不够大,人工智能大概率达不到预期的效果。迁移学习是解决算法落地过程中,依赖数据量问题的一种解法,是非常有趣的一种技术。
数据痛点
过去几年从事智能推荐产品工作,有大量企业希望通过算法助力业务增长,而实际上很多企业不缺场景但缺数据量,因此很多需求实际是拒绝了。当拒绝的需求多了,也逐渐发现市场上小数据量占大多数。为此在上一份工作经历中,从0-1搭建了一套基于规则的推荐系统,只需要人工配置几步,就能搭建出一套推荐系统,解决了在小数据量下,做推荐的问题。
在人工智能领域有一门技术,可以解决小数据量下推荐的问题,就是迁移学习技术。迁移学习技术的核心逻辑是最大限度利用源域知识,提升目标任务的预测能力。迁移学习应用的核心是找到相似性和不变性。
以滑雪为例,假设一个人从来没有滑过雪,也即滑雪经验数据为0,但这个人之前玩过轮滑,玩轮滑对于速度与方向的控制与滑雪类似,这个人将轮滑经验知识迁移到滑雪中,就可以快速掌握滑雪技巧,而避免摔跤中学习。这就是将轮滑中的经验知识迁移到滑雪中,提升了滑雪学习的效率。
在小数据量或0-1训练成本较高时,采用迁移学习可以显著提升学习效率和效果。
迁移学习分类
根据领域及任务的相似性,迁移学习可以分为归纳式迁移学习、直推式迁移学习、无监督迁移学习。其中归纳式迁移学习应用最广泛。
归纳式迁移学习目标域数据为有标签样本,根据源域是否有标签可采用不同的方法做训练。如源数据有标签,考虑目标数据也有标签,可以将源数据与目标数据一起联合做训练,相当于有了更大的数据量做训练。如果源数据没有标签,考虑目标数据有标签,可以将源数据作为目标数据的特征做训练,相当于增加了目标数据的特征维度,也能起到一定价值。
迁移学习应用
迁移学习奠基人杨强教授出版过《迁移学习》一书,其中详细描述了迁移学习在新闻推荐中的应用。
问题的前提是有老用户的阅读数据和用户的app安装列表,问题是此时如何给新用户推最新的新闻文章,新用户和新物品被称为双冷启动推荐。
传统做新用户冷启动策略,通常采用全局热门或最新内容,这种策略会导致新用户完全受大部分用户影响并不一定与用户匹配的内容。
在上一份工作经历中,给一家主打下沉市场的客户做资讯推荐,下沉市场用户对于情感与美食内容颇为感兴趣,按照新用户冷启动策略,给新用户推情感与美食就天经地义,而客户身处一二线城市就觉得很不合理,但在当时的技术条件下,除非写规则,也没有更好的办法。
考虑如果能拿到用户安装列表,并应用迁移学习技术,并且假设具有类似应用程序安装行为的用户在新闻领域中可能相似,以上问题就有了解法。
在以上假设下,可以通过用户安装应用的情况,计算出用户之间相似度,并构造出每个的邻域,相当于给每个用户做聚类,并找出该用户最相邻的用户来。再通过计算每个用户邻域用户对于某条新闻偏好情况结合相似度远近,就能计算出该用户对某条新闻的偏好打分。
当新用户请求时,通过计算邻域用户及这些邻域对每条新闻的打分,最终计算出给新用户最终的推荐列表。而对于新内容,可以利用老用户对于新闻类别的偏好,计算出新用户对新内容的偏好分。从而解决双冷启动的问题。
可见迁移学习可以在一定程度上解决推荐领域数据不足带来的冷启动问题。
迁移学习价值
对于产品经理来讲,了解迁移学习的原理及应用场景基本够用,没有必要非要精通tensorflow和python,通过技术解决实际问题更为关键。
另外机器学习领域通常是对现实世界的高度抽象,能够让我们跳出纷繁复杂的现实世界,以更加本质的视角看世界。迁移学习给了我们迁移的视角,而非一定0-1积累,现实中也有非常多应用。
以上就是“产品经理入门迁移学习指南”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。
数据痛点
过去几年从事智能推荐产品工作,有大量企业希望通过算法助力业务增长,而实际上很多企业不缺场景但缺数据量,因此很多需求实际是拒绝了。当拒绝的需求多了,也逐渐发现市场上小数据量占大多数。为此在上一份工作经历中,从0-1搭建了一套基于规则的推荐系统,只需要人工配置几步,就能搭建出一套推荐系统,解决了在小数据量下,做推荐的问题。
在人工智能领域有一门技术,可以解决小数据量下推荐的问题,就是迁移学习技术。迁移学习技术的核心逻辑是最大限度利用源域知识,提升目标任务的预测能力。迁移学习应用的核心是找到相似性和不变性。
以滑雪为例,假设一个人从来没有滑过雪,也即滑雪经验数据为0,但这个人之前玩过轮滑,玩轮滑对于速度与方向的控制与滑雪类似,这个人将轮滑经验知识迁移到滑雪中,就可以快速掌握滑雪技巧,而避免摔跤中学习。这就是将轮滑中的经验知识迁移到滑雪中,提升了滑雪学习的效率。
在小数据量或0-1训练成本较高时,采用迁移学习可以显著提升学习效率和效果。
迁移学习分类
根据领域及任务的相似性,迁移学习可以分为归纳式迁移学习、直推式迁移学习、无监督迁移学习。其中归纳式迁移学习应用最广泛。
归纳式迁移学习目标域数据为有标签样本,根据源域是否有标签可采用不同的方法做训练。如源数据有标签,考虑目标数据也有标签,可以将源数据与目标数据一起联合做训练,相当于有了更大的数据量做训练。如果源数据没有标签,考虑目标数据有标签,可以将源数据作为目标数据的特征做训练,相当于增加了目标数据的特征维度,也能起到一定价值。
迁移学习应用
迁移学习奠基人杨强教授出版过《迁移学习》一书,其中详细描述了迁移学习在新闻推荐中的应用。
问题的前提是有老用户的阅读数据和用户的app安装列表,问题是此时如何给新用户推最新的新闻文章,新用户和新物品被称为双冷启动推荐。
传统做新用户冷启动策略,通常采用全局热门或最新内容,这种策略会导致新用户完全受大部分用户影响并不一定与用户匹配的内容。
在上一份工作经历中,给一家主打下沉市场的客户做资讯推荐,下沉市场用户对于情感与美食内容颇为感兴趣,按照新用户冷启动策略,给新用户推情感与美食就天经地义,而客户身处一二线城市就觉得很不合理,但在当时的技术条件下,除非写规则,也没有更好的办法。
考虑如果能拿到用户安装列表,并应用迁移学习技术,并且假设具有类似应用程序安装行为的用户在新闻领域中可能相似,以上问题就有了解法。
在以上假设下,可以通过用户安装应用的情况,计算出用户之间相似度,并构造出每个的邻域,相当于给每个用户做聚类,并找出该用户最相邻的用户来。再通过计算每个用户邻域用户对于某条新闻偏好情况结合相似度远近,就能计算出该用户对某条新闻的偏好打分。
当新用户请求时,通过计算邻域用户及这些邻域对每条新闻的打分,最终计算出给新用户最终的推荐列表。而对于新内容,可以利用老用户对于新闻类别的偏好,计算出新用户对新内容的偏好分。从而解决双冷启动的问题。
可见迁移学习可以在一定程度上解决推荐领域数据不足带来的冷启动问题。
迁移学习价值
对于产品经理来讲,了解迁移学习的原理及应用场景基本够用,没有必要非要精通tensorflow和python,通过技术解决实际问题更为关键。
另外机器学习领域通常是对现实世界的高度抽象,能够让我们跳出纷繁复杂的现实世界,以更加本质的视角看世界。迁移学习给了我们迁移的视角,而非一定0-1积累,现实中也有非常多应用。
以上就是“产品经理入门迁移学习指南”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。