什么样的数据不太适合做数据挖掘?一起来看看!
我们知道数据清洗是产品经理的必备技能,那么什么样的数据不太适合做数据挖掘呢?小编简单整理了一下,数据满足以下的五个特点,就不太适合去做数据挖掘了。
1.部分数据维度过高
例如,地理位置属性只统计国内各省市,中国这一数据维度过高。
方法:将数据分解成多个子度量,减少维度分析。
2.部分数据维度过低
例如,对各省会城市的用户进行统计,但四、五线城市的用户数据就维度过低。
将数据指标进行组合,建立新的均值、最大值、最小值等全局指标。
3.无关信息
例如,要想统计真实用户数,就不应该加入白名单,把内部员工当作真实用户。
对策:剔除非相关数据域,然后做数据分析(挖掘)。
4.字段冗余
字段是由其他字段计算得到的,这样就产生了多个相同的逻辑字段。
对策:像无关信息一样,排除无关数据。
5.多指标数值、单位不同
例如,用户人均转换率和人均可支配收入单价,一个是百分比,一个是元。
对策:以相同的单位,同时建立最小和最大的数据指标值。
数据挖掘不是盲目的,大家一定要进行判断,不是所有的数据都能进行挖掘。作为一个产品经理,一定要学会避坑,提高效率。所以,上面的内容你清楚了吗?
以上就是“什么样的数据不太适合做数据挖掘?一起来看看!”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。

例如,地理位置属性只统计国内各省市,中国这一数据维度过高。
方法:将数据分解成多个子度量,减少维度分析。
2.部分数据维度过低
例如,对各省会城市的用户进行统计,但四、五线城市的用户数据就维度过低。
将数据指标进行组合,建立新的均值、最大值、最小值等全局指标。
3.无关信息
例如,要想统计真实用户数,就不应该加入白名单,把内部员工当作真实用户。
对策:剔除非相关数据域,然后做数据分析(挖掘)。
4.字段冗余
字段是由其他字段计算得到的,这样就产生了多个相同的逻辑字段。
对策:像无关信息一样,排除无关数据。
5.多指标数值、单位不同
例如,用户人均转换率和人均可支配收入单价,一个是百分比,一个是元。
对策:以相同的单位,同时建立最小和最大的数据指标值。
数据挖掘不是盲目的,大家一定要进行判断,不是所有的数据都能进行挖掘。作为一个产品经理,一定要学会避坑,提高效率。所以,上面的内容你清楚了吗?
以上就是“什么样的数据不太适合做数据挖掘?一起来看看!”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。