大数据产品经理必备基础知识——认识数据(下)

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
上篇文章给大家简单介绍了常见的属性类型“ 大数据产品经理必备基础知识——认识数据(中) ”,接下来就看看数据的基本统计与描述。

数据的基本统计与描述

(1)中心趋势度量:均值、中位数和众数

均值:数据集的最常用、最有效的数值度量是均值。
大数据产品经理必备基础知识——认识数据(下) 这对应于数据库系统提供的内置聚集函数average(SQL的avg())。

有时对于每个值可以有一个权重相关联,权重反应他们所依附的对应值的意义、重要性或出现的频率,公式如下:
大数据产品经理必备基础知识——认识数据(下) 这称做加权算数均值或加权平均。

中位数:对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据值得中间值。它把数据较高的一半与较低的一半分开的值。

假定给定某属性X的N个值按递增排序,如果N是奇数,则中位数是该序集中的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下,嘉定约定,中位数取做最中间两个值的平均值。

众数:众数是另一种中心趋势度量。数据集的整数是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能是最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的,双峰的和三峰的。一般地,具有两个或更多众数的数据集是多峰的。在另一种极端的情况下,如果每个数据值仅出现一次,则它是没有众数的。

(2)度量数据散布:极差、四分位数、方差、标准方差、离群点

极差:设某数值属性集合,极差位其最大值(max())与最小值(min())之差。
大数据产品经理必备基础知识——认识数据(下) 分位数:假设属性X的数据以数值递增排序,想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集。如图:

四分位数:3个数据点,他们把数据分布划分成4个相等部分,使得每部分表示数据分布的四分之一。通常称为四分位数。

方差和标准方差:方差和标准方差都是数据散布度量,他们指出数据分布的散布程度。低标准方差以为数据观察趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。
认识数据的内容就先介绍到这里了,下篇文章给大家聊聊数据可视化,感兴趣的小伙伴可以去看看。

以上就是“大数据产品经理必备基础知识——认识数据(下)”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。

随意打赏

提交建议
微信扫一扫,分享给好友吧。