基于某生鲜APP业务的数据仓库搭建过程(一)
生鲜app搭建数据仓库是非常必要的,它需要提升供应链管理能力和数据的计算的准确性和时效性。那么,要怎么去进行一个数据仓库的搭建呢?本文给大家分享一下搭建的过程~
某生鲜APP搭建数据仓库的必要性分析
(1)供应链能力是生鲜电商致胜的关键,提升供应链管理能力离不开数据仓库的底层支撑。
中国生鲜电商市场目前处于高速发展期,随着巨头和资源活跃,行业内频频出现新玩家和创新模式。当下,生鲜电商市场呈现多业态共存的局面,随着赛道玩家的增多以及巨头布局的扩大,生鲜电商行业竞争将持续升级,同时也将推动原有的行业格局加速洗牌。
“供应链管理”作为生鲜电商最重要的一环,是企业在混战中突围致胜的关键,在生鲜供应链中运用大数据、人工智能、物联网等先进技术,追踪用户行为、精准预测市场需求、把控生鲜产品质量,以及通过生产端延伸,以缩短供应链条、降低运营成本是提高供应链管理能力的重要途径。
而实现以上诉求,离不开数据的支撑,数据仓库保证了数据的准确性、时效性和完整性。
(2)生鲜电商市场潜力大,未来仍呈快速增长趋势,数据仓库保证密集型数据计算的准确性与时效性。
中国生鲜电商市场发展迅速,2018年生鲜电商市场交易规模突破2000亿元。2016-2017年市场虽迎来洗牌期,大量中小型生鲜电商或倒闭或被并购,与此同时,阿里京东等电商巨头入局,不断加码供应链及物流等基础建设投资,并带来了线上线下融合的新零售模式,整个生鲜电商行业仍将保持快速发展。
业务的快速增长意味着数据的极度密集,急需数据仓库的支撑来实现高速和大批量的数据计算。
(3)该生鲜商城拥有成熟的线上业务系统,底层OLTP系统成熟完善,拥有搭建数据仓库的业务基础。
数据仓库搭建的价值
(1)数据集成整合,权限统一管理,可以保证数据的安全性。
通过数据的集中化管理,通过权限与角色的配置,可以全方面把控数据的访问路径与口径,不同权限对应不同数据主题,进一步预防数据的泄漏。
(2)数据查看更加直观灵活、能够进一步促进运营策略、带来数据增长。
搭建在数据仓库之上的数据看板、CEO驾驶舱,能直观的看到数据的增长和分布情况,更加方便企业垂直化运营,盘活私域流量,促进GMV增长。
(3)多部门合作更加顺畅。
拥有数据仓库之后,产品经理可以基于此根据不同部门的日常需求合并归纳,将高频度高时效的需求落实到具体的大数据产品中,方便运营或者商务、市场部门人员自行实时获取数据,降本增效,提高响应速度,更好支撑业务部门的工作。
数据仓库落地流程
首先,数据仓库是一款数据产品,遵循产品设计逻辑,从业务出发,挖掘分析需求,立足需求确定产品设计方案,最后交付工程师实际落地。
其次,从数据仓库的角度来看,数据仓库落地包括从源数据到DW输出过程中对数据进行采集、建模、清洗、预处理、加工和集成等关键步骤。
再次,数据仓库产品不仅仅承担数据的仓储功能,还希望基于在海量数据之上提供更多分析、决策、模型等应用。
从需求了解为起点,整个数仓的搭建过程需要经历以下9个步骤:
1. 了解业务背景
该生鲜APP是一款线上电商产品,用户的主要行为在于商品的选购,在APP上浏览生鲜产品,选择后加入购物车,提交订单,完成支付,然后由商家进行配送,配送完成。
流程结束,如下图所示:
该产品的商业化思路很清晰,提升用户粘性,提高下单率,提升GMV,降低仓储、物流及供货成本, 降本增效、提高企业利润是该数仓追求的主要目标 。
2. 设计数据仓库实施步骤
2.1 根据业务目标,设计分析方案
根据经济学原理可以得出: 利润=营业额-成本。
在相同成本基础上,营业额越高,利润值越大;相反,营业额不变的基础之下,成本越低,利润值越高。
提高营业额,我们可以从:扩大购买人群、提高客单价、提高复购率、减少退货率等方面着手。
降低成本,我们则可以从:降低进货价格、减少库存量、降低货品损坏率、降低物流成本等方面着手。
扩大购买人群,提高客单价、提高复购率、减少退货率,我们可以从用户数据、订单数据、大客户数据、购物车数据、售后数据进行分析;
降低进货成本、减少库存、降低货品损坏率、降低物流成本,我们可以从供应链数据、微仓数据进行分析。
根据以上思路,我们可以将数据分析主题划分为以下7个:
- 用户主题分析
- 订单主题分析
- 大客户主题分析
- 购物车主题分析
- 售后主题分析
- 供应链主题分析
- 微仓主题分析
2.2 对所有主题进行目标拆解
用户分析:
- 用户会员占比?
- 用户使用优惠券的情况?
- 使用优惠券后有多少转为会员?
- 成为会员的路径?
- 会员剩余有效期的时间?
- 购买会员时长的分布?
- 会员年龄段、性别的分布情况?
- 用户点击行为?
- 用户账户的情况分类(手机号、第三方账号)?
- 用户来源渠道(推广页面、短信导流、二维码扫码)?
- 用户支付习惯(支付宝、银联、微信、其他)?
订单分析:
- 订单金额分布?
- 哪些商品比较受欢迎?
- 下单时间的分布是怎么样的?
- 年度、季度、月度、周、日销售额、利润?
- 哪种优惠形式用的比较多(会员?优惠券?优惠券额度?免配送费)?
- 哪些品类产品销售比较快?
- 订单评价(物流、服务、商品)?
- 下单到配送完成,订单消耗时间分布?
- 订单支付方式分布?
- 订单组成类型(个人订单、大客户订单),销售额占比情况?
大客户分析:
- 大客户来源?
- 大客户订单规模(100人、200人)?
- 大客户单位性质、行业分布?(国企、私企、互联网)
- 大客户地域分布?
- 大客户购买频率?
- 大客户复购率?
购物车分析:
- 购物车产品数量?
- 购物车产品分类?
- 购物车商品关联度?
- 购物车转为订单的比率?
售后分析:
- 售后渠道接单量分布?
- 售后类型(物流、商品质量、支付问题)?
- 售后回复效率、时间?
- 售后满意度?
- 售后处理方式(退款?赔偿?发送优惠券?)分布?
供应链分析:
- 哪些供应商的产品比较受欢迎?
- 哪些供应商产品比较全?
- 哪些供应商的配货速度比较快?
- 各品类商品供应商配货时间集中度是什么时候?
- 供应商的分布?
微仓分析:
- 微仓的分布?
- 微仓的规模?
- 哪些微仓效益比较好?
- 哪些微仓评价比较好?
- 微仓配货分拣时间分布?
- 微仓收入是怎么样的分布?
- 微仓面积与产品囤货量分析?
2.3 抽取公共维度,构建数据集市
确定细分的分析主题后,需要对上述所有的主题进行切片,抽取公共维度。公共维度的抽取非常重要,如果没有维度的切片,那么所有分析数据只能从业务源数据中抽取,这样会极大降低数据的处理速度,甚至会导致计算系统的崩溃。这一步也为接下来的数据建模提供基础。
以用户分析为例,与用户有关的维度有下单时间、下单日期、所在地区、购买的产品、用户订单、支付方式、折扣方式、年龄、购买频率、售后等等。
以此类推,逐个分析每一个主题,然后抽取公共维度,构建总线矩阵表,如下所示:
2.4 根据常用建模方法,设计维度表和事实表
一般来说,数据仓库由维度表和事实表2种表组成,保存度量值的详细值或事实的表称为“事实表”;用来描述事物维度和属性的表称为维度表。一般来说,一个事实数据表都要和一个或多个维度表相关联。
在这一步骤中,我们需要把OLTP模型中的数据转化为关系模型。建模方法常用的有星形模型、雪花模型。
以下订单事实表为例,基于星型模型将OLTP中的数据转化为关系模型,定义层次结构,在这一步基本完成物理数据库的设计。
如下图所示:
3. 配置数据源
OLTP中的数据类型非常多,来源也很多。既有结构化数据,也有半结构化、非结构化数据;既有mysql、oracle等关系型数据数据,也有日志文件、ngix服务器、埋点数据,甚至还有DOC文件数据。
在这一步就需要梳理所有数据来源,包括来源总数、数据类型、存储方式、数据量级、更新频度、增量量级等等。
另外需要注意到,结构化数据可以直接通过ETL方式进行提取;结构化和半结构化数据则需要通过一定的算法处理后再入库。
未完待续……
本文由 @alentain 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。