策略产品经理如何高效精准的获取样本?(上)

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
评估、样本和算法是策略产品经理必须关注的三要素,今天我们要聊的话题是:策略产品经理如何高效精准的获取样本?简单的说,样本可以分为两大类:内部样本和外部样本。下面我们来看一下怎么获取这两种样本。
策略产品经理如何高效精准的获取样本?(上) 获取内部样本主要包括以下四种方法:

1.数据埋点和落库:

这里所说的埋点和落库主要是样本数据,包括正样和负样。埋点和落库样本数据应完整地描述样本输入和输出,尽可能准确和详细地还原每一样本产生时的相关数据。

举例来说,在内容推荐场景中,正样本是系统推荐后用户接受推荐点击浏览的记录,这部分数据一般比较容易收集,用户索引和内容ID可以从内容访问日志中恢复并存储;负样本是系统推荐并展示之后用户不会点击的记录,这部分数据收集到的落库量需要记录每次推荐之后显示给用户的所有内容ID,并且在使用正样本时对它们进行差集计算。

上述用户索引可以是所有与用户信息相关的唯一标识,如手机号、用户ID、设备号等,除了用户索引和内容ID外,还应记录上下文信息,如内容在这次推荐中的排名、用户翻页次数、用户停留时间等。背景环境数据的详细程度取决于目前的模型需求和复杂性,如果成本允许,也可以前瞻性地记录在前端或客户端;除此之外,样本数据还应包括版本号或批量的模型,这些模型输出建议结果,一方面用于上述负样本采集时的差异集计算,另一方面用于模型迭代时的对比和分析。

2.数据标注:

如果企业处于从0到1的起步阶段,系统尚未投入使用,通常不具备建立上述样本闭环的条件,则数据埋藏点和落库也是无从谈起的。在这一阶段中,可以使用的一种方法就是,在上线一个简单而又廉价的基准策略之后,继续通过闭环抽样来收集样本,但是这一方法需要接受在产品上线初期的效果或体验较差的状态;如果是面向最终用户的产品,更常见的方法就是进行数据标注。

在工作量较小的情况下,数据标注可以由策略产品经理及其策略团队共同完成,如果工作量大,还可以将其交给企业内部专门的数据标注团队(如果有的话),或者市面上的第三方数据标注企业;不管是由企业内团队协作完成,还是由第三方标注企业来完成,策略产品经理都必须制定出一套统一的验收方法和验收标准。

在一些没有对样本粒度进行直接反馈的业务场景中,数据标注并不局限于业务初期,还需要不断地进行工作,例如,只输出业务功能的API业务(API,例如,图像识别,人脸识别),业务功能分解后的中间环节(例如,智能音箱的语音识别等模块),等等。

3.数据增强:

对于某些特殊的任务,如图像分类、语音识别等,样本可以在已有样本的基础上,通过数据转换来扩展,这就是所谓的数据增强。举例来说,对于图像分类,可以对图像进行翻转、平移、旋转、裁剪、拉伸等操作,从而产生新的图像,甚至可以改变图像的亮度、对比度、饱和度等。经过这些转换后的图像在语义上仍然属于原始分类,但对于机器来说相当于一幅新的图像,从某种角度上可以说是实现了样本扩展。

4.数据重新组合:

数据重新组合是一个根据样本特征从现有产品业务数据中筛选或构造合格样本的过程。这个方法很容易被忽视,但却很有效,使用得当的话,可以以较低的成本获得大量的样本数据。

在内容控制场景下,除了基于内容本身的数据标注方法之外,我们还可以对来自不同产品功能的数据进行交叉筛选,比如,如果想要获得色情内容或擦边球内容的样本,除了数据标注方法之外,还可以借助评论功能提供的信息,将出现在评论区大量留有邮箱的内容以及大量类似“好人一生平安”的留言作为样本;我们还可以从数据本身的结构出发来构造样本,比如,在线招聘业务中向候选人推荐职位或企业的场景,除了在招聘系统的业务闭环中收集候选人的入职样本外,还可以将所有候选人简历本身作为样本,将简历的最后一段履历作为该履历入职前向该候选人企业“推荐”的正样本。

这些方法是在获取内部样本时经常用到的,也是非常实用的,大家可以具体的进行实践一下。另外关于外部样本的获取方法,由于篇幅的限制,小编会在下一篇文章中进行分享,感兴趣的伙伴可以继续关注。

以上就是“策略产品经理如何高效精准的获取样本?(上)”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。

随意打赏

提交建议
微信扫一扫,分享给好友吧。