产品经理好用易上手的数据分析方法
编辑导语:数据分析是每一位产品经理必备技能,如果你想掌握一些好用又简易的数据分析方法,那么,我推荐你看这篇文章,本文作者据此总结了许多类型的分析方法,既简单又好用,感兴趣的朋友来一起学习吧。
前面《数据分析之前知道这 7 件事,少花 80% 时间》讲了在数据分析之前需要知道的事,在进入数据分析阶段,笔者总结整理了一些好用易上手的分析方法,让你事半功倍。以下,Enjoy~
一、数据分析的金字塔模型
数据分析从难易程度区分大致可以划分为 5 个层级,覆盖了数据整理、统计、机器学习的过程,数据分析后的决策环节不在本次讨论的范围。
5 个层级分别包括了:量化现况、量化变数之间的相关性、量化变数之间的因果关系、预测未来和求最佳解。
Q1:SaaS销售人员拜访新客户次数的走势如何?
比如层级 1,需要解的问题是量化现况。可以使用“叙述统计”、“数据可视化”等方法,把数据通过图表的方式表现出来,从中观察图表的数量、频次、波动、分布等等,这个层级主要是依赖可视化后的观察得以实现。
Q2:SaaS销售人员拜访新客户的次数,跟营业额有相关吗?
Q3:市场部增加广告投放量,就能得到更多订单吗?
像层级 2、3 中探索数据的相关和因果关系,是需要藉由数据观察后,再进行二次推论,属于数据挖掘。
Q4:SaaS产品经理追踪哪些数据,才能知道用户下个月会不会取消订阅?
Q5:CEO该如何分配员工开发新客户,才能让营收最大化?
而层级 4、5 则是希望通过已有数据的样本,去预估未来数据的可能性/概率、最佳解或近似解,属于数据探索。
对于不同层级,需要面对的问题也不一样,可以层层递进,由易到难,逐一选择数据分析需要解的问题。在进入数据分析阶段,具备数据分析的层级结构认知尤为重要,这决定了你能够在对的时机做对的事情。
二、7 种常见数据分析方法
2.1 总量分析
用于描述某个母群(population,指你想了解的集合体,可能是顾客或产品)或某个市场区隔,或者比较两个市场区隔的差异,是最常用、最简单的分析方法。
Q:哪些人会在酒庄办婚礼呢?
查阅过往 3 年、300 位顾客的预约记录→分析性别、年龄、户籍地址→ 85% 女性、平均年龄 33 岁、60% 是当地人→如何针对这群人沟通、拓展业务?
2.2 相关分析
观察 2 件或多件事情间的关系,期望能用一个因素解释或驱动另一个因素。
Q:为什么推出某个功能后,转化率会下降?
- 假设 1:转化率跟浏览器有关。
- 假设 2:转化率跟有无网络信标(web bug)有关。
结论:
- Chrome 浏览器如果有网络信标,会造成转化率下降 13%。
- Chrome 浏览器造成转化率下降 20%。
- 60% 的转化率下降仍然无法解释。
注:网络信标(web bug)是一个放在网页或电子邮件上的文件对象,用于监测用户的行为。
2.3 趋势分析
分析一段时期内的趋势,常用于检视一段时间内的销售绩效或营业成长率,目标是找出中断的节点,并指出那段时期内受影响的原因。
Q:营收增长,但成长率却下降,原因出在哪?
步骤 1,观察一段时间内的趋势。
步骤 2,加入各产品、各渠道的营收和成长率。
观察结果: S 成长率不断下降、M 的站外成长率却在上升。
步骤 3,量化影响。
观察结果: S 占营收成长率下降的 84%,必须集中心力采取行动。
2.4 规模估计
在缺乏历史的情况下,以结构化的方法估算。通常用于进军新市场的企划,或是要了解未上市产品的销售潜力。
Q:想在广东某城市推广小学夏令营产品,怎么估算市场规模?
步骤 1,分层。将问题切割,找出可能不同的市场区隔。
市区和郊区的小学密度可能不同
步骤 2,设计方程式。确定哪些数值和因素可能影响正在估算的规模数值。
城市、人口和财富可能影响小学的数量
小学数量=城市数量x每座城市的人口数x每群人口的学校数量x财富因数(市区和郊区的财富对比)
步骤 3,计算方程式。对方程式里的数值进行假设。
市区人口=50K,郊区人口=10K。
每10K人有1所学校,市区的财富是郊区的2倍。
市区小学估计值:20x50000x1/10000=200
郊区小学估计值:20x10000x1/10000=20
约有220所小学
2.5 预测分析
分析目前和过去的事实数据,来预测未来的事件或行为,最常使用的统计技术是回归和分类。
Q:结账的转化率变低了,为什么?
利用逻辑回归建立模型(特别的回归形式,适用于因变数是二元性质,“有或没有”,此案例考量即为有转化或没转化)
因变数:想要预测的目标,如转化率。
自变数:指可能和因变数有关系,或是没有关系的一些未知数,由所提出的假设决定,如蓝色按钮、横幅广告等。
2.6 市场区隔
区隔顾客或产品成有意义的群组,通常是为了锁定目标,透过量身打造的方式,让该目标群体产生更高的价值。
Q:哪些客户只想折扣?哪些客户想要第一手信息?
用 RFM 模型为顾客分组。
2.7 顾客生命周期分析
观察消费者的购买流程,以确定某一群顾客正处于哪个阶段,以及怎么将他们推向下一个阶段。
Q:怎么让使用者成为重度玩家?
同类群组分析→ 客户存活的天数过短,就必须加强使用者体验;若新客户人数逐渐减少,则必须加强广告或增加促销活动。
三、4 种统计数值掌握数据特性
手上有一群数据的时候,要快速掌握数据的特征,可以从“平均数”、“中位数”、“众数”和“标准差”下手。
Q:这是公司全体员工职业 IT 素养程度报告,身为公司数字化转型的负责人,该如何利用它拟定教育训练策略?
整体实力中等,满分 10 分,拿到平均成绩为 5.8 分。
组织实力分布不均,中位数低于平均数,表示能力落后的成员较多,应依能力设计不同的课程,或由能力佳者带领落后者学习。
员工职业IT素养程度表
四、2 个叙述统计的陷阱
叙述统计虽然能够帮助我们掌握数据的特征,快速产生观点,但在应用平均数、百分比推导结论时,要留意陷阱。
4.1 平均数陷阱
平均分提高了 1.2 分,表现优异。
平均数虽然提高了,但标准差只缩小 0.6分,代表组织内程度差距未缩小,可能是有IT背景者进步幅度大,拉高了平均分。
4.2 百分比陷阱
近 3 年员工职业 IT 素养的成绩持平,2021 年成绩跟 2019 年一样。
不要用百分比去推算分数是否成长,因为每年的基期不一样,所以增长或减少的数值会不同。下表所示,2021 年成绩比 2019 年少了 0.71 分。
五、5 种数据比较的方式
「比较」是让数据产生意义的有效方式,但怎么比、跟谁比?我整理了 5 种比较方式,以拿到某品牌挂耳咖啡的销售数据为例。
5.1 差距比较:分析对象和比较对象的差异
Q:某公司挂耳咖啡包全年营收 3 亿在市场上的表现如何?跟竞争对手的差距为何?
步骤 1,选择比较对象,同类性质互比。
步骤 2,设定比较基准值,绘制条形图。
A:挂耳咖啡包为 A 公司主力商品,虽然 A 公司在咖啡包全年收入上超越我们,但比起 A 公司,我们具有多项产品同步发展的优势。
5.2 趋势比较:分析一段时期内市场、营收、产品的走势
Q:某公司挂耳咖啡包 2021 年营收 3 亿,跟前几年比有成长吗?成长了多少呢?
步骤 1,搜集近 10 年公司咖啡包营收数据,绘制折线图。
步骤 2,观察曲线走向,根据转折点、异常值推测变化的原因。
A:跟 2020 年比没有成长太多,但与 2012 年相比营收成长了 10 倍,显然贩售联名商品有效果。
5.3 指数分析:利用总体市场数据,判断品牌的目标对象
Q:某公司挂耳咖啡包在市场上哪个年龄层最有优势?
步骤 1,搜集比较对象的人口分布比例。
步骤 2,计算指数数值。当指数小于 95,代表在该年龄层为相对少数,指数大于 105 代表在该年龄层为相对多数。
A:咖啡包在 25~44 岁的客群中有竞争优势,45 岁以上的客群还需要经营。
5.4 异质比较:分析数据的结构是否明确偏向或集中某处
Q:假设挂耳咖啡包月度营收为 250 万,跟公司的其他产品相比表现算好吗?
步骤 1,将所有产品月度营收分布由大至小排列,并记录区间次数。
步骤 2,绘制直方图,注意分散的程度、峰值数量。
图 1:一个峰值位于中间、图偏向「钟型曲线」,代表数据为常态分布,产品的营收平均值与中位数较不受异常值影响,分布比较平均。
图 2:有 2 个峰值,平均数、中位数受异常值影响,数据分布不平均。
A:产品月度营收分布如图 1 所示,代表产品的月度营收分布平均,集中在 151~200 万区间,咖啡包收入 250 万高于平均,表现不错。
5.5 变数分析:比较多个事件的关系,希望找到其中一个事件能去解释另外一个事件
Q:网络广告费用的多少,是否影响挂耳咖啡包的销售额?
步骤 1,利用 Excel 的 CORREL 函数计算广告投入费、销售额的相关系数,系数越接近 1,代表广告费投入与销售额呈正相关;系数越接近 -1,则表示两者为负相关。
步骤 2,将数据绘制成分布图。
A:广告投入费用与产品销售额呈正相关,代表投广告的行销策略有效,下次退出新品时可参考此策略。
六、数据比较的陷阱
Q:患者死亡率是评估医疗品质的指标之一,试试从下表评判,A、B医院,哪间医疗品质更好?
无法评判。
参考表 1 时,B 医院平均死亡率比 A 更低,B 医院表现比 A 更好;但表2加入「轻重症死亡人数」变项时,A医院无论在轻症、重症死亡率都比 B 更好,为什么会这样?
原因:
因为 A 医院的重症人数是 B 的3倍以上,导致平均死亡率被拉升,只要 A、B 医院轻重症患者比例相同,就不会有类似的问题。这个案例被称为「辛普森悖论」现象,也就是当某项统计变项为搜集到(此例为轻重症人数比例),造成统计结果逆转的现象。
避免方式:
- 比较对象程度一致:医院不跟诊所比。
- 依分析目的决定数据分析方法:整体状况适用平均数分析;群体内比较则搜集更多统计变项的数据。
七、相关关系与因果关系
Q:许多世界知名的领导者都爱好运动,前美国总统奥巴马从小打篮球、youtube总裁沃西基擅长冰球。所以我们可以推测,「擅长运动的孩子,学习力更好」?
运动与学习力之间应为相关关系而非因果关系,两者之间可能存在着第三变数,也就是家长对教育的重视程度。
培养运动能力,未必能提升学习力。运动能力→学习能力→家长对教育的重视程度。重视教育的家长,会引导孩子学习,所以他们的成绩比较出色。重视教育的家长,会注意孩子的饮食均衡,导致体力变好。
X 导致 Y 或 Y 导致 X,其实存在另一个变数 Z,是 Z 导致 X 和 Y。举例来说,冰淇淋的销售量会随着穿短裤的人数增加而增加,不是「越多人穿短裤」导致「越多人买冰淇淋」,而是两种发生的共同原因是「夏天气温较高」。
如果混淆了因果和相关,比方广告预算越多,销售额越高,容易导致做出错误的商业决策。所以,较谨慎的做法是进行随机对照实验(RCT,Randomized Controlled Trial),或者称 A/B 测试(A/B Testting),就是把受试者随机分为两组,两组只有一个变数不同,如果导致不同结果,便可以称该变数导致某结果,或变数和结果有因果关系。
八、利用 A/B 测试,确认因果关系
南美国总统奥巴马的竞选团队,便是利用 RCT 测试哪一种首页的注册率最高。结果相比原本想选择「影片」和「望向远方的独照」,最后经对实验选择「奥巴马全家福」的方案让注册人数多了 288 万人,并多募得 6000 万美元的政治献金。
如果环境不允许,或是没有资源做随机对照实验,《数据分析的力量》建议用「自然实验(natural experience)」替代,就是进行一系列假设、验证,厘清因果关系。
举例来说,想知道改变自付额,对医疗服务使用频率的影响。可以先假设「如果自付额会影响医疗服务的使用,70 岁以上的人,应该会比 70 岁以下的人,更常使用」,因为日本法令规范,70 岁开始,自付额由 3 成降为 1 成。
查询公开数据后发现,随着年龄愈大,医疗服务的使用者也愈多。但到了 70岁,原本缓慢上升的曲线突然大跳跃!
这个「断层」代表有变数发生,而 69~70 岁比较普遍的改变,就是自付额的高低。自付额和医疗服务的使用频率有因果关系得到了验证。
#专栏作家#
龙国富,公众号:龙国富,人人都是产品经理专栏作家,人因工程硕士。致力于终身学习和自我提升,分享用户研究、客户体验、服务科学等领域资讯,观点和个人见解。
本文原创发布于人人都是产品经理,未经授权,禁止转载。
题图来自Unsplash,基于CC0协议。