数据产品经理之数据分析与挖掘

人人都是产品经理 • 5年前扫码分享

本文主要跟大家讲讲，如何通过数据分析和数据挖掘从数据中获取相关信息和挖掘价值，enjoy~

数据产品经理之数据分析与挖掘

自2014年以来，“大数据”连续六年进入国务院政府工作报告，彰显出国家对于大数据战略的重视。作为如今互联网+过程中最火热的关键词之一，大数据越来越火，随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据的商业价值发掘利用相关的技术和知识越来越引起政府、企业和求职者的重视。

其中，作为数据产品经理必备的专业知识之一的数据分析可以分为广义的数据分析和狭义的数据分析，广义的数据分析就包括狭义的数据分析和数据挖掘，人们常常提到的数据分析是指狭义的数据分析，数据挖掘和数据分析都是从数据中提取一些有价值的信息，但互相的侧重点又有所不同。

前面两篇文章介绍了数据产品经理日常工作中必备的知识之常用的图表设计（数据产品经理之图表设计）和SQL语言（数据产品经理必备之SQL基础），本篇文章讲一讲怎么样通过数据分析与挖掘从数据中获取信息和发掘价值。

一、基本概念

（1）数据分析

数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。

（2）数据挖掘

数据挖掘是指从大量的、有噪声的、不完全的、模糊的和随机的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、有价值的信息和知识的过程。

（3）统计分析方法

数据分析时需要选择合适的统计分析方法进行数据的分析，常用统计分析方法有集中趋势、离散程度、相关强度、参数估计、假设检验等，通过常用统计分析方法能够描述数据的特征。

（4）数据挖掘方法

数据挖掘时需要运用数据挖掘方法来从数据中挖掘价值，常用数据挖掘的方法有分类、回归、关联、聚类等，这些方法能够从不同的角度对数据进行挖掘。

二、统计分析方法

统计分析方法，按不同的分类标准可划分为不同的类别，而常用的分类标准是功能标准，依此标准进行划分，统计分析可分为描述统计和推断统计。

描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表，以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度，最常用的方法有平均数、标准差、相关系数等。

推断统计指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验，最常用的方法有Z检验、T检验、卡方检验等。

描述统计和推断统计是统计分析时需要用到的方法，二者彼此联系，相辅相成，描述统计是推断统计的基础，推断统计是描述统计的升华。

1. 集中趋势

集中趋势又称“数据的中心位置”、“集中量数”等，集中趋势所反映的是一组资料中各种数据所具有的共同趋势，即资料的各种数据所集聚的位置。因此，它是对变量数列进行分析的首要指标，它往往作为总体的代表水平同其他与之同质的总体进行比较。集中趋势能够对总体的某一特征具有代表性，表明所研究的数据在一定时间和空间条件下的共同性质和一般水平。

集中趋势分析时常用的有平均数、中位数和众数等。