去年912亿今年1500亿?双十一销售预测模型测了多少?
作者:百分点
今天你晒了吗?
非常理解你没单可晒的心情。
但晒单的最想听到的话就是:
“u need cry dear”
因为昨天的单子不知哪天会送到。。。
11月11日,不只是“单身节”,实则为中国一年一度的消费“盛典”,加之电商平台开通的海淘板块,也是全球网络购物的年度盛会。
“晒单”就是一种时尚,无论你是不是双十一守夜人、购物车清空小能手,都无法忽视一年又一年被刷新的数字。 36大数据(http://www.36dsj.com/)
去年双十一(2015年),阿里巴巴创造了912.17亿元的消费需求。比起2014年双十一的571.12亿,今年淘宝和天猫912.17亿元的交易额几乎翻了一倍。
912.17亿元的销售额,涉及到了232个国家的地区的商家及消费者,物流订单数突破4.67亿张……顺便还收获了来自纽交所的敲钟祝福。
2015年阿里巴巴全球购物狂欢节销售来自超过4万家商铺的超过600万种商品,2014年大约仅有2万7000家商户参与购物节。 36大数据(http://www.36dsj.com/)
今年,截止到今早06:54:52,超571亿元,打破2014年天猫双11全天交易额纪录。截止到下午15:19就达到了去年双11成交总额。预计今年双十一会突破1500亿,即便保守一下也会突破1400亿以上。
虽然有十几分钟送到货的,甚至28分钟海淘到货的,但不是每个人都是lucky dog。 36大数据(http://www.36dsj.com/)
当然,面对堆积成山的包裹,快递哥哥姐姐们的内心是崩溃的,而对于每个电脑屏幕前的你我他来说,谁知道光棍节的包裹会不会等圣诞节才能收到?
影响销量预测模型因素
无论是线上还是线下,非常规的销售活动都会带来流量的集聚增长,铺货、人员、物流等环节,配合不好就会带来负面效应。怎么解决?
其实,电商早已开始应用销量预测技术。预测销量也是一种风险控制,在损失出现前做好准备。 36大数据(http://www.36dsj.com/)
国内电商的体量和技术在国际上已经占据举足轻重的地位,成为全球关注点。
在建模之前,先要考虑影响因素。那么,哪些因素会影响单品销量预测呢?
影响单品销量预测的因素与诸多因素,相关一般电商有如下六大维度的相关因素:营销推广、商品质量、商品信息、节假日等时间特征、价格变化和用户行为、竞争价格、电商口碑、新闻热点等因素。
百分点根据多年服务电商平台的经验,发现大多数电商预测模型,一般采用纵向\相关分析,主要是对历史产品销量自身内部因素信息进行挖掘:
比如,某个商品去年销售了100万的份额,今年就会根据市场形势进行10%的上浮调整。
但横向\关联分析对结果同样重要,包括营销推广、其他电商平台的商品价格变化带来的影响等外部因素。
百分点盘点销量预测中业界最主流的方法是:多元回归与时间序列分析。由于预测需求的需要,往往是综合运用这两种预测方法,即多元回归与时间序列融合法。
从模型的方程可以看出,销量值Y主要跟两部分相关:一是历史销量,即内部数据,如Yt-1,Yt-2,…Yt-n等数据;二是影响销量的外部数据,如X1,…,Xn。
方法一:时间序列预测法
时间序列:系统中某一变量或指标的数值或统计观测值,按时间顺序排列成一个数值序列,就称为时间序列(Time Series),又称动态数据。 36大数据(http://www.36dsj.com/)
时间序列Yt取自某一个随机过程,如果此随机过程的随机特征不随时间变化,则称过程是平稳的;假如该随机过程的随机特征随时间变化,则称过程是非平稳的。
时间序列特征:
趋势性T:总体上持续上升或下降的总变化趋势,其间的变动幅度可能有时不等。
季节性S:以一年为周期,四个季节呈某种周期性,各季节出现波峰和波谷的规律类似。
周期性C:决定于系统内部因素的周期性变化规律,又分短周期、中周期、长周期等几种。
不规则性I:包括突然性和随机性变动两种。
时间序列分析预测法包含多种,主要是季节变动指数法、移动平均法和指数平滑法、ARIMA。
方法二:移动平均法
时间序列预测法中的移动平均法是利用移动平均值,将周期变动的影响去除。所谓“移动”是指对计算平均数的时期不断向后推移。例如,预测7月份的销售量以4、5、6月份的历史数据为依据;若预测8月份的销售量,则以5、6、7月份的数据为准。
简单移动平均法的原理非常简单,即预测值选定的跨越期数内所有实际观测销量的平均值。
加权移动平均法与简单移动平均法类似,是先根据最近个月的销售量,按其距离预测期的远近分别进行加权(距离预测时间越近的月份权重越大);然后计算其加权平均数,并以此作为计划期的销售预测值。权重的确定是个难点,一般根据业务经验确定。一般情况下,预测值受近期实际销售的影响程度较大,因此越接近预测期的实际销售情况所加权数应越大些。
优点:思想简单、容易操作
缺点:移动平均的期数对原序列的修匀效果影响很大,而且对样本趋势反映近期敏感程度较高,一般只适用于短期预测。
方法三:自回归移动平均模型ARIMA(p,d,q)
ARIMA是时间序列的最主要方法。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。利用拟合的数学模型给出时间序列的预测值,并给出预测结果的精度分析。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。其中,p为自回归项数,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
优点:预测准确率高
缺点:预测结果无解释性,且只适用于有一定规律性的数据集
方法四:回归分析法
这个方法目前有专业的统计软件SPSS/SAS 支持。因为相对专业和复杂,需要的自变量及因变量数据要多而且精确。回归分析是很早以前生物课上教的,生物学家通过研究隔代遗传及返祖现象 。
回归分析是研究变量之间相关关系的一种统计方法,它要解决如下问题:
- 确定变量之间是否存在相关关系,如果存在的话,找出他们之间合适的数学表达式
- 从共同影响变量的若干自变量中,判断自变量的影响显著效果
- 利用所找到的数学表达式对变量进行预测。
优点:广泛使用的预测方法、准确率高
缺点:需要使用较多的样本
END。