数据分析系列之统计学（第4节回归分析）

产品壹佰 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

第1节：大数定律

第2节：中心极限定理

第3节：随机抽样对会员管理有兴趣的朋友可以关注微信公众号：玩转会员

第4节：回归分析

第5节：常犯的概率学错误

什么是回归分析？

在统计学中，回归分析（regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

在大数据分析中，回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。例如，司机的鲁莽驾驶与道路交通事故数量之间的关系，最好的研究方法就是回归。（来自百度百科）

转化为通俗易懂的文字，你可以这样理解：回归分析就是通过一个已知的现象来找到未知的原因，它可以通过严格的数学分析复原出每种原因对结果的贡献比例。

数据分析系列之统计学（第4节回归分析）

伦敦大学公共卫生学院曾经组织过一项著名的“白厅研究”，医学家们发现英国政府里低级别的公务员患上心脏病的概率比他们的上司更高。白厅研究就是要找出这背后的真实原因，这个研究显然不能用随机抽样的方法来实现，因为我们不可能把各个志愿者强行分配到各个工作岗位工作几年，然后再看哪些人因公殉职了。研究人员只能在很长一段时间里对数千名公务员进行详细的数据采集，来对比各类导致心脏病的可能因素。比如说，低阶公务员的学历普遍偏低，会不会是影响因素呢？烟民比例多呢？还是不能享受到高水平的医疗服务呢？或则是加班多锻炼时间少？这些都是导致心脏病高发的变量，那么到底哪一个才是具有决定性的影响呢？如此庞杂的数据里有太多错综复杂的因素，显然会干扰研究人员的判断。这时候我们就要用到回归分析这个工具，它的作用就好比一个可以调节孔径的筛子，能在综合考虑其它变量效果不变的情况下，把其中一个变量的效果分离出来。

回归分析的数学过程比较复杂，幸好我们现在有了成熟的多元线性回归方程模型可以套用，我们要做的就是将多个变量的取样结果带入回归方程式，计算结果就会显示出我们关注的变量和心脏病发病率的线性关系（回归分析软件：SAS、SPSS、BMDP等）。通过统计推断我们就能够知道，这个变量到底在多大程度上影响了发病率。实验结果表明，造成心脏病高发的真正原因是对工作缺乏控制力和话语权，而这类存在感较低的岗位在低级别职位中更常见。现在“低控制率”已经成为一个专有名词了，专指那些精神负担重，决策水平低的工作。事实上当前科学界绝大多数的研究结论都是以回归分析作为基础的。尤其是回归分析软件的普及，让建立模型和解析方程变得很简单，但同时也要注意电脑永远不能代替人的工作，如果我们在进行回归分析时遗漏的变量或者忽视反面因素，回归分析就回得出危险的结论。

比如上世纪90年代，哈弗大学对12万名女性开展了纵向调查，经过严格的回归分析证实，定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。医学机构支持了这个观点，医院开始定期为中老年妇女进行雌激素的补充治疗。然而后来的临床试验发现，补充雌激素的副作用会导致乳腺癌和血栓病高发，这是科学家没有考虑到的重大疏漏。最终因为接受雌激素治疗而死亡的女性患者达到上万人，所以一旦出现数据遗漏，错误的数据结果甚至会造成人身伤害。

下面我们使用IBM公司开发的“统计产品与服务解决方案”软件SPSS（Statistical Product and Service Solutions）做一个简单的实例，给大家介绍如何使用SPSS做回归分析的方法。回归分析的方法包括：线性回归、逻辑回归、多项式回归、逐步回归等很多种，本次我们就拿就常用的线性回归结合案例来给大家讲解：年龄和血压的关系。

开始之前，我们先了解一下线性回归到底是怎么回事？它能做什么？

线性回归的意义

线性回归包含：一元线性回归和多元线性回归。一元线性回归又叫做简单线性回归，主要用于判断是否能通过回归模型找到一个“线性组合”，从而证明一组变量（因变量和自变量）的关系。如果能的话，这种关系的强度有多大，也就是利用自变量的线性组合来预测因变量的能力有多强？整体解释能力是否具有统计上的显著性意义？在整体解释能力显著的情况下，哪些自变量有显著的意义？

回归分析的步骤