数据产品经理经常面对的一些基础概念(下)
这篇文章我们继续来分享数据产品经理经常面对的一些基础概念,都是非常的实用的内容,数据产品经理们一定要掌握哦,一起来看看吧,巩固一下基础知识。
1.数据库、数据仓库和数据集市的定义和区别
数据库:是长期储存于电脑中,有组织,可分享之数据集合。通过建立一定的数据模型,对数据库中的数据进行组织、描述和存储,使其具有冗余少、数据独立性强、易于扩展、可供多种用户共享等特点。对数据库理论的研究主要集中在关系规范化理论、关系数据理论等方面。近几年来,随着人工智能和数据库理论的结合,并行计算机的发展,数据库逻辑演绎、知识推理、并行算法等理论研究,演绎数据库系统、知识库系统和数据仓库的开发,都成为了新的研究方向。
数据仓库:是一个以主题为导向(SubjectOri2ented)、集成化的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化的数据集(TimeVariant),用于支持管理决策。数据仓库首先是用来支持决策制定、面向分析的数据处理,其次是对多种异构数据源的有效集成,集成后根据主题重新组织,并包含历史数据,并且存储在数据仓库中的数据一般不会再被修改。
数据集市:为了获得最大程度的灵活性,来自集成数据仓库的数据应该存储在标准的RDBMS(关系数据库管理系统Relationship,DatabaseManagementSystem)中,并且要有规范的数据库设计,并且要添加一些摘要信息和不规范设计以提高性能。这类数据仓库的设计称为原子数据仓库。一种原子数据仓库,也叫数据集市。
不同之处在于:数据库是面向事务的设计,而数据仓库是面向主题的设计。资料库通常储存网上交易资料,而资料库通常储存历史资料。就时间属性而言,数据库在保存信息时,并没有强调一定要有时间信息。不同的是,数据仓库中的数据出于决策的需要,必须标明时间属性。
2.数据处理过程
需求分析,数据收集,数据预处理,数据服务产品化(模板)。
需求分析:在业务部门进行调查,了解业务需要解决的问题,并将业务问题映射到数据分析工作和任务中,同时结合平台的现有能力确定数据分析或挖掘方案。
数据收集:第一步需要定义资料来源选择,DBA可根据数据分析需要,找出相关数据,建立数据宽泛表格,将数据仓库的资料导入此宽泛表格中,并以某些逻辑关系为基础,进行综合计算。此宽表作为数据分析的基础,然后又根据数据分析的需要派生出一些不同的表格,为数据分析提供了清晰、全面的数据源;
数据处理:资料的类型选择、缺失值处理、异常值检测及处理,以达到资料标准化。
其实这些内容看起来很多,但是都是我们平时会用到的,结合实际的工作就很容易理解。对于数据产品经理来说,需要不断提升能力,形成自己的核心竞争力,这样就能轻松突破自我。
以上就是“数据产品经理经常面对的一些基础概念(下)”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。
1.数据库、数据仓库和数据集市的定义和区别
数据库:是长期储存于电脑中,有组织,可分享之数据集合。通过建立一定的数据模型,对数据库中的数据进行组织、描述和存储,使其具有冗余少、数据独立性强、易于扩展、可供多种用户共享等特点。对数据库理论的研究主要集中在关系规范化理论、关系数据理论等方面。近几年来,随着人工智能和数据库理论的结合,并行计算机的发展,数据库逻辑演绎、知识推理、并行算法等理论研究,演绎数据库系统、知识库系统和数据仓库的开发,都成为了新的研究方向。
数据仓库:是一个以主题为导向(SubjectOri2ented)、集成化的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化的数据集(TimeVariant),用于支持管理决策。数据仓库首先是用来支持决策制定、面向分析的数据处理,其次是对多种异构数据源的有效集成,集成后根据主题重新组织,并包含历史数据,并且存储在数据仓库中的数据一般不会再被修改。
数据集市:为了获得最大程度的灵活性,来自集成数据仓库的数据应该存储在标准的RDBMS(关系数据库管理系统Relationship,DatabaseManagementSystem)中,并且要有规范的数据库设计,并且要添加一些摘要信息和不规范设计以提高性能。这类数据仓库的设计称为原子数据仓库。一种原子数据仓库,也叫数据集市。
不同之处在于:数据库是面向事务的设计,而数据仓库是面向主题的设计。资料库通常储存网上交易资料,而资料库通常储存历史资料。就时间属性而言,数据库在保存信息时,并没有强调一定要有时间信息。不同的是,数据仓库中的数据出于决策的需要,必须标明时间属性。
2.数据处理过程
需求分析,数据收集,数据预处理,数据服务产品化(模板)。
需求分析:在业务部门进行调查,了解业务需要解决的问题,并将业务问题映射到数据分析工作和任务中,同时结合平台的现有能力确定数据分析或挖掘方案。
数据收集:第一步需要定义资料来源选择,DBA可根据数据分析需要,找出相关数据,建立数据宽泛表格,将数据仓库的资料导入此宽泛表格中,并以某些逻辑关系为基础,进行综合计算。此宽表作为数据分析的基础,然后又根据数据分析的需要派生出一些不同的表格,为数据分析提供了清晰、全面的数据源;
数据处理:资料的类型选择、缺失值处理、异常值检测及处理,以达到资料标准化。
其实这些内容看起来很多,但是都是我们平时会用到的,结合实际的工作就很容易理解。对于数据产品经理来说,需要不断提升能力,形成自己的核心竞争力,这样就能轻松突破自我。
以上就是“数据产品经理经常面对的一些基础概念(下)”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。