数据分析系列之统计学(第4节回归分析)
目录
第1节:大数定律
第2节:中心极限定理
第3节:随机抽样对会员管理有兴趣的朋友可以关注微信公众号:玩转会员
第4节:回归分析
第5节:常犯的概率学错误
什么是回归分析?
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。(来自百度百科)
转化为通俗易懂的文字,你可以这样理解:回归分析就是通过一个已知的现象来找到未知的原因,它可以通过严格的数学分析复原出每种原因对结果的贡献比例。
伦敦大学公共卫生学院曾经组织过一项著名的“白厅研究”,医学家们发现英国政府里低级别的公务员患上心脏病的概率比他们的上司更高。白厅研究就是要找出这背后的真实原因,这个研究显然不能用随机抽样的方法来实现,因为我们不可能把各个志愿者强行分配到各个工作岗位工作几年,然后再看哪些人因公殉职了。研究人员只能在很长一段时间里对数千名公务员进行详细的数据采集,来对比各类导致心脏病的可能因素。比如说,低阶公务员的学历普遍偏低,会不会是影响因素呢?烟民比例多呢?还是不能享受到高水平的医疗服务呢?或则是加班多锻炼时间少?这些都是导致心脏病高发的变量,那么到底哪一个才是具有决定性的影响呢?如此庞杂的数据里有太多错综复杂的因素,显然会干扰研究人员的判断。这时候我们就要用到回归分析这个工具,它的作用就好比一个可以调节孔径的筛子,能在综合考虑其它变量效果不变的情况下,把其中一个变量的效果分离出来。
回归分析的数学过程比较复杂,幸好我们现在有了成熟的多元线性回归方程模型可以套用,我们要做的就是将多个变量的取样结果带入回归方程式,计算结果就会显示出我们关注的变量和心脏病发病率的线性关系(回归分析软件:SAS、SPSS、BMDP等)。通过统计推断我们就能够知道,这个变量到底在多大程度上影响了发病率。实验结果表明,造成心脏病高发的真正原因是对工作缺乏控制力和话语权,而这类存在感较低的岗位在低级别职位中更常见。现在“低控制率”已经成为一个专有名词了,专指那些精神负担重,决策水平低的工作。事实上当前科学界绝大多数的研究结论都是以回归分析作为基础的。尤其是回归分析软件的普及,让建立模型和解析方程变得很简单,但同时也要注意电脑永远不能代替人的工作,如果我们在进行回归分析时遗漏的变量或者忽视反面因素,回归分析就回得出危险的结论。
比如上世纪90年代,哈弗大学对12万名女性开展了纵向调查,经过严格的回归分析证实,定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。医学机构支持了这个观点,医院开始定期为中老年妇女进行雌激素的补充治疗。然而后来的临床试验发现,补充雌激素的副作用会导致乳腺癌和血栓病高发,这是科学家没有考虑到的重大疏漏。最终因为接受雌激素治疗而死亡的女性患者达到上万人,所以一旦出现数据遗漏,错误的数据结果甚至会造成人身伤害。
下面我们使用IBM公司开发的“统计产品与服务解决方案”软件SPSS(Statistical Product and Service Solutions)做一个简单的实例,给大家介绍如何使用SPSS做回归分析的方法。回归分析的方法包括:线性回归、逻辑回归、多项式回归、逐步回归等很多种,本次我们就拿就常用的线性回归结合案例来给大家讲解:年龄和血压的关系。
开始之前,我们先了解一下线性回归到底是怎么回事?它能做什么?
线性回归的意义
线性回归包含:一元线性回归和多元线性回归。一元线性回归又叫做简单线性回归,主要用于判断是否能通过回归模型找到一个“线性组合”,从而证明一组变量(因变量和自变量)的关系。如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强?整体解释能力是否具有统计上的显著性意义?在整体解释能力显著的情况下,哪些自变量有显著的意义?
回归分析的步骤
- 确定回归方程中的解释变量(自变量)和被解释变量(因变量);
- 确定回归模型——选择合适的数学模型概括回归线;
- 确定回归方程——根据样本数据及确定的回归模型,在一定的统计拟合准则下估计模型的参数,得到确定的回归方程;
- 对回归方程进行各种检验——基于样本得到的回归方程是否真实反映了总体间的统计关系?回归方程能否用于预测?;
- 利用回归方程进行预测。
一元线性回归模型:
模型说明:
X为自变量;
Y为因变量;
Y的截距,即常量;
斜率为回归系数,表明自变量对因变量的影响程度;
X的变化引起的Y的线性变化部分:
其它随机因素引起的Y的变化部分:
对一元线性回归有所了解以后,我们就拿就用它结合一个简单的案例:年龄和血压的关系,创建一个具体的实例。
第一步:导入数据
打开SPSS导入需要分析的表格
第二步:生成散点图
选择“简单散点图”,得到以下图形
通过散点图观察变量间的趋势。如果有多个变量则做出散点图矩阵、重叠散点图和三维散点图。如果我们觉得数据的分布存在明显的问题,这时候需要对数据进行预处理,防止后面得到的结果和实际结果相差过大。
第三步:分析结果
我们可以这样理解:因变量是结果,自变量是原因。在这个实例中我们可以理解为年龄影响血压。当然这里要加个疑问,因为我们是分析嘛,在得到最终的结果之前这只是一个假设。
右侧点击【统计】按钮,在弹出的界面做如下勾选
点击右侧【图】按钮,有些版本叫【绘制】,做如下配置
这两项配置完成后点击主界面的【确定】按钮就可以得到输出结果,我们只截取部分比较重要的图标来做讲解。
注: 软件原因“德宾-沃森”英文实际为:Durbin-Watson
调整R方就是反映这个模型的拟合度的,简单说就是我们拟合的两个变量之间的线性方程与两个变量真实之间关系的一个拟合度。拟合度通常是在0-1之间的数字。
anova也叫方差分析,主要目的是衡量年龄是否能够显著的影响血压
显著性也叫Sig,显著性的结果是0.002也就是0.2%,说明年龄完全不能影响血压这个假设发生的概率是0.2%,因此我们可以得出结论有99.8%的概率年龄可以显著影响血压的。
以上图标说明年龄对血压的影响是正向的(0.881),也就是说年龄越大血压越高。年龄每增加1分,血压总分就会增加0.881分,这就是自变量和因变量之间的一个定量的影响关系。
当然判断的依据和数据维度以及最后结果的几个关键值都有密切关系,加入分析的自变量是否正确、数量多少等因素对结果也会产生影响。网上有很多专门介绍线性回归的资料教程,在这里不再详细描述,建议大家多看多动手多思考,统计学虽然入门比较简单,但是要真正应用到实际工作中还是需要一定的实际分析经验的。
小结: 统计学原因虽然看似简单,但却不是人人都可以做数据分析师,因为它既能给我们的观点找到严谨的数据支持,但有时也会给一个错误的结论披上合理的外衣。这就是本章下一节要讲的最后一部分: 常犯的概率学错误。
对会员管理有兴趣的朋友可以关注微信公众号:玩转会员