1.1 什么激发数据挖掘?为什么它是重要的? | @张大奋

需要是发明之母。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用, 并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包 括商务管理、生产控制、市场分析、工程设计和科学探索等。
数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能(图 1.1): 数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理 解(涉及数据仓库和数据挖掘)。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存 储和提取、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统 广泛付诸实践,数据分析和理解自然成为下一个目标。
自 60 年代以来,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数 据库系统。自 70 年代以来,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数 据库系统(数据存放在关系表结构中;见 1.3.1 小节)、数据建模工具、索引和数据组织技术。此外, 用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。联机事 务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效 存储、提取和管理的主要工具作出了重要贡献。
自 80 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数 据库系统。这些使用了先进的数据模型,如扩充关系、面向对象、对象-关系和演绎模型。包括空间 的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系 统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异种数据库和基于 Internet 的全球 信息系统,如 WWW 也已出现,并成为信息工业的生力军。
在过去的三十年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集
设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信
息存储用于事务管理、信息提取和数据分析。
现在,数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库(1.3.2 小 节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库 技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具有汇总、合并 和聚集功能,以及从不同的角度观察信息的能力。尽管 OLAP 工具支持多维分析和决策,对于深层 次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。

随意打赏

提交建议
微信扫一扫,分享给好友吧。