纯干货丨数据科学家成长指南（上）

数据观 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

　　 少年，你渴望力量么？

纯干货丨数据科学家成长指南（上）

　　 这才是真正的力量，年轻人！

这是Swami Chandrasekaran所绘制的一张地图。名字叫MetroMap to Data Scientist（数据科学家之路），别称怎么死都不知道的。

数据科学家是近年火爆兴起的职位，它是数据分析师的后续进阶，融合了统计、业务、编程、机器学习、数据工程的复合型职位。

该地图一共十条路线，分别是基础原理、统计学、编程能力、机器学习、文本挖掘／自然语言处理、数据可视化、大数据、数据获取、数据清理、常用工具。条条路线都不是人走的。因为网上只有英文版，我将其翻译成中文，并对内容作一些解释和补充。

该指南主要涉及硬技能，数据科学家的另外一个核心业务能力，这里没有涉及，它并不代表不重要。

——————

　　 Fundamentals原理

算是多学科的交叉基础，属于数据科学家的必备素质。

　　 Matrices &Linear Algebra

矩阵和线性代数

　　 矩阵（Matrix） 是一个按照长方阵列排列的复数或实数集合。涉及到的机器学习应用有SVD、PCA、最小二乘法、共轭梯度法等。

　　 线性代数 是研究向量、向量空间、线性变换等内容的数学分支。向量是线性代数最基本的内容。中学时，数学书告诉我们向量是空间（通常是二维的坐标系）中的一个箭头，它有方向和数值。在数据科学家眼中，向量是有序的数字列表。线性代数是围绕向量加法和乘法展开的。

矩阵和线性代数有什么关系呢？当向量进行线性变换时，这种变换可以想象成几何意义上的线性挤压和拉扯，而矩阵则是描述这种变换的信息，由变换后的基向量决定。

矩阵和线性代数是一体的，矩阵是描述线性代数的参数。它们构成了机器学习的庞大基石。

　　 Hash Functions,Binary Tree,O(n)

哈希函数，二叉树，时间复杂度

　　 哈希函数 也叫散列函数，它能将任意的数据作为输入，然后输出固定长度的数据，这个数据叫哈希值也叫散列值，用h表示，此时h就输入数据的指纹。

哈希函数有一个基本特性，如果两个哈希值不相同，那么它的输入也肯定不相同。反过来，如果两个哈希值是相同的，那么输入值可能相同，也可能不相同，故无法通过哈希值来判断输入。

哈希函数常用在数据结构、密码学中。

　　 二叉树 是计算机科学的一个概念，它是一种树形结构。在这个结构中，每个节点最多有两个子树（左子树和右子树），子树次序不能颠倒。二叉树又有多种形态。

纯干货丨数据科学家成长指南（上）

二叉树是树这类数据结构的第一种树，后续还有红黑树等，很多语言的set，map都是用二叉树写的。

　　 时间复杂度 是编程中的一个概念，它描述了执行算法需要的时间。不同算法有不同的时间复杂度，例如快排、冒泡等。

简便的计算方法是看有几个for循环，一个是O(n)，两个是O(n^2)，三个是O(n^3)。当复杂度是n^3+n^2时，则取最大的量级n^3即可。

与之相对应的还有空间复杂度，它代表的是算法占用的内存空间。算法通常要在时间和内存中取得一个平衡，既内存换时间，或者时间换内存。

　　 Relational Algebra

关系代数

它是一种抽象的查询语言。基本的代数运算有选择、投影、集合并、集合差、笛卡尔积和更名。

关系型数据库就是以关系代数为基础。在SQL语言中都能找到关系代数相应的计算。

　　 Inner、Outer、Cross、Theta Join

内连接、外连接、交叉连接、θ连接

这是关系模型中的概念，也是数据库的查询基础。

内连接，只连接匹配的行，又叫等值连接。

外连接，连接左右两表所有行，不论它们是否匹配。

交叉连接是对两个数据集所有行进行笛卡尔积运算，比如一幅扑克牌，其中有A集，是13个牌的点数集合，集合B则是4个花色的集合，集合A和集合B的交叉链接就是4*13共52个。

θ连接使用where子句引入连接条件，θ连接可以视作交叉连接的一个特殊情况。where 可以是等值，也可以是非等值如大于小于。

不同数据库的join方式会有差异。

　　 CAP Theorem

CAP定理

指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。

一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）

可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）

分区容错性（P）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A之间做出选择。

数据系统设计必须在三个性能方便做出取舍，不同的数据库，CAP倾向性不同。

　　 tabular data

列表数据

即二维的表格数据，关系型数据库的基础。

　　 DataFrames &Series

Pandas数据结构

Series是一个一维数据对象，由一组NumPy的array和一组与之相关的索引组成。Python字典和数组都能转换成数组。Series以0为开始，步长为1作为索引。

x = Series([1,2,3,4,5])x0 11 22 33 44 5

DataFrames是一个表格型的数据，是Series的多维表现。DataFrames即有行索引也有列索引，可以看作Series组成的字典。

　　 Sharding

分片

分片不是一种特定的功能或者工具，而是技术细节上的抽象处理，是水平拓展的解决方法。一般数据库遇到性能瓶颈，采用的是Scale Up，即向上增加性能的方法，但单个机器总有上限，于是水平拓展应运而生。

分片是从分区(Partition)的思想而来，分区通常针对表和索引，而分片可以跨域数据库和物理假期。比如我们将中国划分南北方，南方用户放在一个服务器上，北方用户放在另一个服务器上。

实际形式上，每一个分片都包含数据库的一部分，可以是多个表的内容也可以是多个实例的内容。当需要查询时，则去需要查询内容所在的分片服务器上查询。它是集群，但不同于Hadoop的MR。

如果能够保证数据量很难超过现有数据库服务器的物理承载量，那么只需利用MySQL5.1提供的分区(Partition)功能来改善数据库性能即可；否则，还是考虑应用Sharding理念。另外一个流传甚广的观点是：我们的数据也许没有那么大，Hadoop不是必需的，用sharding即可。

　　 OLAP

联机分析处理（Online Analytical Processing）

它是数据仓库系统主要的应用，主要用于复杂的分析操作。

针对数据分析人员，数据是多维数据。查询均是涉及到多表的复杂关联查询，为了支持数据业务系统的搭建，OLAP可以想象成一个多维度的立方体，以维度（Dimension）和度量（Measure）为基本概念。我们用到的多维分析就是OLAP的具象化应用。

OLAP更偏向于传统企业，互联网企业会灵活变动一些。另外还有一个OLTP的概念。

　　 Multidimensional Data Model

多维数据模型。

它是OLAP处理生成后的数据立方体。它提供了最直观观察数据的方法。

纯干货丨数据科学家成长指南（上）

涉及钻取，上卷，切片，切块，旋转等操作，就是把上面的立方体变变变啦。

　　 ETL

ETL是抽取（extract）、转换（transform）、加载（load）的过程。常用在数据仓库。

整个流程是从数据源抽取数据，结果数据清洗和转换，最终将数据以特定模型加载到数据仓库中去。

纯干货丨数据科学家成长指南（上）

ETL是一个古老的概念，在以前SQL数据仓库时代和OLAP伴随而生，在现在日新月异的技术生态圈，会逐步演进到Hadoop相关的技术了。

　　 Reporting vs BI vs Analytics

报表与商业智能与分析

这是BI的三个组成部分。Reporting是数据报表。利用表格和图表呈现数据。报表通常是动态多样的。数个报表的集合统称为Dashboard。

BI是商业智能，是对企业的数据进行有效整合，通过数据报表快速作出决策。

Analytics是数据分析，基于数据报表作出分析。包括趋势的波动，维度的对比等。

　　 JSON &XML

JSON是一种轻量级的数据交换格式，易于阅读和编写，也易于机器解析和生成。

JSON的语法规则是：

{ }保存对象；

[ ]保存数组；

数据由逗号分隔；

数据在键值对中；

下面范例就是一组JSON值

{ "firstName": "John", "lastName": "Smith", "age": 25, "address": { "streetAddress": "21 2nd Street", "city": "New York", "state": "NY", "postalCode": "10021" }}

XML是可拓展标记语言，被设计用来传输和存储数据，与之对应的HTML则是显示数据。XML和HTML服务于不同目的，XML是不作为的。

GeorgeJohnReminder

Don't forget the meeting!

上面的范例，纯粹就是用来传输的一段信息，没有任何意义。

　　 NoSQL

泛指非关系型的数据库，意为Not Only SQL。

　　NoSQL是随着 大数据时代 发展起来的，传统的关系数据库在高并发大规模多数据类型的环境下力不从心，而NoSQL就是为了解决这些问题而产生的。

NoSQL主要分为四大类：

　　 键值KeyValue数据库

这类数据库会使用哈希表，哈希表中有一个特定的键指向一个特定的值，KeyValue的特点是去中心化，不涉及业务关系。代表Redis。

　　 列数据库

这类数据库用于分布式海量存储，和KeyValue的区别在于这里的Key指向的是列。横向拓展性好，适合大数据量高IO。代表HBase，Cassandra

　　 文档型数据库

属于KeyValue数据库的升级版，允许嵌套键值。文档是处理信息的基本单位，一个文档等于一个关系数据库的一条记录。

因为文档的自由性，文档型数据库适合复杂、松散、无结构或半结构化的数据模型，和JSON类似，叫做BSON（MongoDB的存储格式）。代表MongoDB

　　 图形数据库

基于图论算法的数据库，将数据集以图形元素（点、线、面）建立起来。这种数据库常应用在社交网络关系链，N度关系等。代表Neo4j

　　 Regex

正则表达式（Regular Expression）

正则表通常被用来检索、替换那些符合某个模式(规则)的字符串。通过特定字符的组合，对字符串进行逻辑过滤。例如注册账号时检查对方邮件格式对不对啊，手机号格式对不对啊。

学起来靠记，记了也会忘，每次用得查，查了还得检验。网上记忆口诀一堆图表，相关网站也不少，仁者见仁了。

纯干货丨数据科学家成长指南（上）

　　 Vendor Landscape

不懂，供应商风景？

　　 Env Setup

环境安装

想了半天，Env应该是环境安装的意思，IDE啊，GUI啊等等全部安装上去，再调各种路径啥的。针对数据科学家，Anaconda + Rstudio用的比较多。

——————

　　 Statistics 统计

统计是数据科学家的核心能力之一，机器学习就是基于统计学原理的，我不算精通这一块，许多内容都是网络教科书式的语言。都掌握后再重写一遍。

　　 Pick a Dataset(UCI Repo)

找数据（UCI数据集）

UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库，这个数据库目前共有335个数据集，其数目还在不断增加，可以拿来玩机器学习。网上搜的到。另外的数据来源是Kaggle竞赛等。

最经典的数据莫过于Iris了。

　　 Deive Statistics（mean, median, range, SD, Var）

描述性统计（均值，中位数，极差，标准差，方差）

均值也叫平均数，是统计学中的概念。小学学习的算数平均数是其中的一种均值，除此以外还有众数和中位数。

中位数可以避免极端值，在数据呈现偏态的情况下会使用。

极差就是最大值减最小值。

标准差，也叫做均方差。现实意义是表述各数据偏离真实值的情况，反映的是一组数据的离散程度。平均数相同的两组数据，如[1,9]和[4,6]，平均数相同，标准差不一样，前者的离散程度更大。

方差，是标准差的平方。方差和标准差的量纲是一致的。在实际使用过程中，标准差需要比方差多一步开平方的运算，但它在描述现实意义上更贴切，各有优劣。

　　 Exploratory Data Analysis

　　探索性 数据分析

获得一组数据集时，通常分析师需要掌握数据的大体情况，此时就要用到探索性数据分析。

主要是两类：

图形法，通过直方图、箱线图、茎叶图、散点图快速汇总描述数据。

数值法：观察数据的分布形态，包括中位数、极值、均值等，观察多变量之间的关系。

探索性数据分析不会涉及到复杂运算，而是通过简单的方式对数据有一个大概的了解，然后才去深入挖掘数据价值，在Python和R中，都有相关的summary函数。

　　 Histograms

直方图

它又称质量分布图，是一种表示数据分布的统计报告图。

近似图表中的条形图，不过直方图的条形是连续排列，没有间隔、因为分组数据具有连续性，不能放开。

正常的直方图是中间高、两边低、左右近似对称。而异常型的直方图种类过多，不同的异常代表不同的可能情况。

　　 Percentiles &Outliers

百分位数和极值

它们是描述性统计的元素。

百分位数指将一组数据从小到大排序，并计算相遇的累积百分值，某一百分位所对应数据的值就称为这一百分位的百分位数。比如1～100的数组中，25代表25分位，60代表60分位。

我们常将百分位数均匀四等分：第25百分位数，叫做第一四分位数；第50百分位数，称第二四分位数，也叫中位数；第75百分位数，叫做第三四分位数。通过四分位数能够简单快速的衡量一组数据的分布。它们构成了箱线图的指标。

极值是最大值和最小值，也是第一百分位数和第一百百分位数。

百分位数和极值可以用来描绘箱线图。

　　 Probability Theory

概率论，统计学的核心之一，主要研究随机现象发生的可能性。

　　 Bayes Theorem

贝叶斯定理

它关于随机事件A和B的条件概率的定理。

现实世界有很多通过某些信息推断出其他信息的推理和决策，比如看到天暗了、蜻蜓低飞了，那么就表示有可能下雨。这组关系被称为条件概率：用P(A|B)表示在B发生的情况下A发生的可能性。

贝叶斯公式：P(B|A) = P(A|B)*P(B) / P(A)

现实生活中最经典的例子就是疾病检测，如果某种疾病的发病率为千分之一。现在有一种试纸，它在患者得病的情况下，有99%的准确判断患者得病，在患者没有得病的情况下，有5%的可能误判患者得病。现在试纸说一个患者得了病，那么患者真的得病的概率是多少？

从我们的直觉看，是不是患者得病的概率很大，有80%？90%？实际上，患者得病的概率只有1.9%。关键在哪里？一个是疾病的发病率过低，一个是5%的误判率太高，导致大多数没有得病的人被误判。这就是贝叶斯定理的作用，用数学，而不是直觉做判断。

最经典的应用莫过于垃圾邮件的过滤。

　　 Random Variables

随机变量

表示随机试验各种结果的实际值。比如天气下雨的降水量，比如某一时间段商城的客流量。

随机变量是规律的反应，扔一枚硬币，既有可能正面、也有可能反面，两者的概率都是50%。扔骰子，结果是1～6之间的任何一个，概率也是六分之一。虽然做一次试验，结果肯定是不确定性的，但是概率是一定的。随机变量是概率的基石。

　　 Cumul Dist Fn(CDF)

累计分布函数（Cumulative Distribution Function）

它是概率密度函数的积分，能够完整描述一个实数随机变量X的概率分布。直观看，累积分布函数是概率密度函数曲线下的面积。

纯干货丨数据科学家成长指南（上）

上图阴影部分就是一个标准的累积分布函数F(x)，给定任意值x，计算小于x的概率为多大。实际工作中不会涉及CDF的计算，都是计算机负责的。记得在我大学考试，也是专门查表的。

现实生活中，我们描述的很多概率都是累积分布函数，我们说考试90分以上的概率有95%，实际是90分～100分所有的概率求和为95%。

　　 Continuos Distributions(Normal, Poisson, Gaussian)

连续分布（正态、泊松、高斯）

分布有两种，离散分布和连续分布。连续分布是随机变量在区间内能够取任意数值。

正态分布是统计学中最重要的分布之一，它的形状呈钟型，两头低，中间高，左右对称。

纯干货丨数据科学家成长指南（上）

正态分布有两个参数，期望μ和标准差σ：μ反应了正态分布的集中趋势位置，σ反应了离散程度，σ越大，曲线越扁平，σ越小，曲线越窄高。

自然届中大量的现象都按正态形式分布，标准正态分布则是正态分布的一种，平均数为0，标准差为1。应用中，都会将正态分布先转换成标准正态分布进行计算。很多统计学方法，都会要求数据符合正态分布才能计算。

泊松分布是离散概率分布。适合描述某个随机事件在单位时间／距离／面积等出现的次数。当n出现的次数足够多时，泊松分布可以看作正态分布。

高斯分布就是正态分布。

　　 Skewness

偏度

它是数据分布倾斜方向和程度的度量，当数据非对称时，需要用到偏度。

正态分布的偏度为0，当偏度为负时，数据分布往左偏离，叫做负偏离，也称左偏态。反之叫右偏态。

纯干货丨数据科学家成长指南（上）

　　 ANOVA

方差分析

用于多个变量的显著性检验。基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

方差分析属于回归分析的特例。方差分析用于检验所有变量的显著性，而回归分析通常针对单个变量的。

　　 Prob Den Fn(PDF)

概率密度函数

PDF是用来描述连续型随机变量的输出值。概率密度函数应该和分布函数一起看:

纯干货丨数据科学家成长指南（上）

蓝色曲线是概率密度函数，阴影部分是累积分布函数。我们用概率密度函数在某一区间上的积分来刻画随机变量落在这个区间中的概率。概率等于区间乘概率密度，累积分布等于所有概率的累加。

概率密度函数：f(x) = P(X=x)

累积分布函数：F(x) = P(X<=x)

概率密度函数是累积分布函数的导数，现有分布函数，才有密度函数。累积分布函数即可以离散也可以连续，而密度函数是用在连续分布中的。

　　 Central Limit THeorem

中心极限定理

它是概率论中最重要的一类定理。

自然届中很多随机变量都服从正态分布，中心极限定理就是理解和解释这些随机变量的。我们有一个总体样本，从中取样本量为n的样本，这个样本有一个均值，当我们重复取了m次时，对应有m个均值，如果我们把数据分布画出来，得到的结果近似正态分布。

这就是中心极限定理，它神奇的地方就在于不管总体是什么分布。我们很多推导都是基于中心极限定理的。

　　 Monte Carlo Method

蒙特卡罗方法

它是使用随机数来解决计算问题的方法。

蒙特卡罗是一个大赌场，以它命名，含义近似于随机。我们有时候会因为各种限制而无法使用确定性的方法，此时我们只能随机模拟，用通过概率实验所求的概率来估计我们感兴趣的一个量。最知名的例子有布丰投针试验。

18世纪，布丰提出以下问题：设我们有一个以平行且等距木纹铺成的地板，木纹间距为a，现在随意抛一支长度l比木纹之间距离a小的针，求针和其中一条木纹相交的概率。布丰计算出来了概率为p = 2l/πa。

为了计算圆周率，人们纷纷投针，以实际的试验结果来计算。

纯干货丨数据科学家成长指南（上）

下图则是计算机模拟的结果

纯干货丨数据科学家成长指南（上）

这就是蒙特卡罗方法的实际应用。它的理论依据是大数定理和中心极限定理。

　　 Hypothesis Testing

假设检验

它是根据一定的假设条件由样本推断总体的方法。

首先根据实际问题作出一个假设，记作H0，相反的假设称为备择假设。它的核心思想是小概率反证法，如果这个假设发生的概率太小以至于不可能发生，结果它发生了，那么我们认为假设是不成立的。

假设检验是需要容忍的，因为样本会存在波动，这个波动范围不会太严格，在这个范围内出现的事件我们都能接受。但是我们都这么容忍了，还是出现了违背原假设的小概率事件，那么说明原假设有问题。不能容忍的范围即拒绝域，在拒绝域发生的概率我们都认为它是小概率事件。

假设检验容易犯两类错误，第一类错误是真实情况为h0成立，但判断h0不成立，犯了“以真为假”的错误。第二类错误是h0实际不成立，但判断它成立，犯了“以假为真”的错误。

假设检验有U检验、T检验、F检验等方法。

　　 p-Value

P值

它是进行假设检验判定的一个参数。当原假设为真时样本观察结果（或更极端结果）出现的概率。P值很小，说明原假设发生的概率很小，但它确实发生了，那么我们就有理由拒绝原假设。

至于P值的选择根据具体情况，一般是1%，5%几个档次。

然而，P值在统计学上争议很大，P值是否是接受原假设的标准，都是统计学各种流派混合后的观点。P值从来没有被证明可以用来接收某个假设（所以我上文的说明并不严谨），它只是仅供参考。现在统计学家们也开始倡导：应该给出置信区间和统计功效，实际的行动判读还是留给人吧。

　　 Chi2 Test

卡方检验

Chi读作卡。通常用作独立性检验和拟合优度检验。

卡方检验基于卡方分布。检验的假设是观察频数与期望频数没有差别。

独立性检验：卡方分布的一个重要应用是基于样本数据判断两个变量的独立性。独立性检验使用列联表格式，因此也被称为列联表检验。原假设中，列变量与行变量独立，通过每个单元格的期望频数检验统计量。

拟合优度检验：它依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异。目的是判断假设的概率分布模型是否能用作研究总体的模型。

独立性检验是拟合优度检验的推广。

　　 Estimation

估计

统计学里面估计分为参数估计和非参数估计。

参数估计是用样本指标估计总体指标，这个指标可以是期望、方差、相关系数等，指标的正式名称就是参数。当估计的是这些参数的值时，叫做点估计。当估计的是一个区间，即总体指标在某范围内的可能时，叫做区间估计，简单认为是人们常说的有多少把握保证某值在某个范围内。

参数估计需要先明确对样本的分布形态与模型的具体形式做假设。常见的估计方法有极大似然估计法、最小二乘法、贝叶斯估计法等。

非参数估计则是不做假设，直接利用样本数据去做逼近，找出相应的模型。

　　 Confid Int(CI)

置信区间

它是参数检验中对某个样本的总体参数的区间估计。它描述的是这个参数有一定概率落在测量结果的范围程度。这个概率叫做置信水平。

以网上例子来说，如果在一次大选中某人的支持率为55%，而置信水平0.95以上的置信区间是（50%,60%），那么他的真实支持率有95%的概率落在和50～60的支持率之间。我们也可以很容易的推得，当置信区间越大，置信水平也一定越大，落在40～70%支持率的可能性就有99.99%了。当然，越大的置信区间，它在现实的决策价值也越低。

置信区间经常见于抽样调研，AB测试等。

　　 MLE

极大似然估计

它是建立在极大似然原理的基础上。

如果试验如有若干个可能的结果A，B，C…。若在仅仅作一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。

此时我们需要找出某个参数，参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

　　 Kernel Density Estimate

核密度估计

它是概率论中估计未知的密度函数，属于非参数检验。

一般的概率问题，我们都会假定数据分布满足状态，是基于假定的判别。这种叫参数检验。如果如果数据与假定存在很大的差异，那么这些方法就不好用，于是便有了非参数检验。核密度估计就是非参数检验，它不需要假定数据满足那种分布。

　　 Regression

回归