数据仓库
面向主题
数据是综合和历史的
保存过去和现在的数据
数据不更新
对数据的操作是启示式的
操作需求是暂时决定的
一个操作存取一个集合
数据时常冗余
操作相对不频繁
查询基本是经过加工的数据
数据库面向应用
数据是详细的
保沪语输入法持当前数据
数据是可更新的
对数据的操作是重复的
操作需求是事先可知的
一个操作存取一个记录
数据非冗余
操作比较频繁
查询基本是原始数据
事务处理需要的是当前数据
很少有复杂的计算
支持事务处理
2 、OLTP 与 OLAP
联机事物处理(On Line Transaction Processing ,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁 的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLTP
数据库数据
细节性数据
当前数据
时常更新
对响应时间要求高
用户数量大
面向操作人员,支持日常操作
面向应用,事务驱动
OLAP数据仓库数据
综合性数据
历史数据
不更新,但周期刷新
响应时间合理
用户数量相对较小
面向决策人员,支持决策需要
面向分析,分析驱动
3、数据字典和元数据:
数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。由:数据项;数据结构;数 据流;数据存储;处理过程 5 部份组成。
元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。数据仓 库的元数据除对数据仓库中数据的描述 (数据仓库字典) 外,还有以下三类元数据 :(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据
4、数据从数据库到知识的流程:
DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI
知识发现(烟雾过滤器KDD):从数据中发现实用知识的整个过程。数据挖掘(DM):KDD 过程中的一个特定步骤,它用 专门算法从数据中抽取知识。
6、数据仓库和数据挖掘的区别与联系
(1)数据仓库与数据挖掘的区别:数据仓库是一种存储技术,它能适应于不同用户对不同决
策需要提供所需的 数据和信息。数据挖掘研究各种方法和技术,从大量的数据中挖掘出实用的信息和知识。 (2)数据仓库与数据挖掘的关系:①数据仓库与数据挖掘都是决策支持新技术。但它们有着彻底不同的辅助决 策方式。 在数据仓库系统的前端的分析工具中, 数据挖掘是其中重要工具之一。 它可以匡助决策用户挖掘数据仓 库的数据中隐含的规律性。②数据挖掘用于数据仓库实现决策支持:预测客户购买倾向;客户利润贡献度分析; 分析欺诈行为;销售渠道优化分析等。③数据仓库和数据挖掘的结合对支持决策会起更大的作用。 ca1521航班(3)数据仓库中数据存储特点: 由于数据仓库不同于数据库, 数据挖掘也随之发生变化。 数据存储方式的不同; 数据存储的数据量的不同;数据存储的结构不同 (4)数据仓库中数据挖掘特点:①数据挖掘从数据仓库中挖掘更深层次的信息。②数据仓库为数据挖掘提出了 新要求:数据挖掘需要可扩展性;数据挖掘方法需要能挖掘多维知识。
7、商业智能:
商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术匡助企业领导者针对市场变化的环境,做出快速、 准确的决策。商业智能与新决策支持系统从组成和目标来看是一
致的。但是,商业智能是一种技术,新决策支持 系统是解决实际决策问题的一个系统。 可以理解为: 新决策支持系统是利用商业智能技术来解决实际决策问题的 系统。
8、数据仓库结构:
近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部份,数据量大。历史基本数据:近期基本 数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:是从近期基本数据中提取 出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层: 这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。
图一
9、数据仓库系统结构:
数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部份组成。
图二
(1)、仓库管理
①数据建模:数据建模是建立数据仓库的数据模型。
②数据抽取、转换、装载:数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求
进行数据转换,再按物理数据模型的要求装载到数据仓库中去。数据抽取、转换、装载(ETL)是建立数据仓库 的重要步骤,需要花费开辟数据仓库70%的工作量。
③元数据:同 13
④系统管理:数据管理,性能监控,存储器管理以及安全管理。
(2)分析工具
①查询工具:数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
②多维分析工具(OLAP 工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利
用户对数据进行深入的分析和观察。
③数在线销售系统据挖掘工具:从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。
10、数据仓库的运行结构
数据仓库应用是一个典型的客户/服务器(冰点渗透压C/S)结构形式: 客户端所做的工作:客户交互、格式化查询、结果 显示、报表生成等。服务器端完成各种辅助决策的SQL 查询、复杂的计算和各类综合功能等。
三层 C/S 结构: OLAP 服务器将加强和规范化决策支持的服务工作, 集中和简化了原客户端和数据仓库服务器的 部份工作,降低了系统数据传输量。这种结构形式工作效率更高。
11、数据仓库数据模型:
数据仓库存储采用多维数据模型。 (1)星型模型:大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小 表)所组成。 (2)雪花模型:雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些 局部的“层次”区域。 (3)星网模型:星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维, 连接多个事实表。
受话器12、*数据抽取、转换和装载
数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓 库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即 ETL 过程。 (1)数据抽取
①确认数据源:列出对事实表的每一个数据项和事实;列出每一个维度属性;对于每一个目标数据项,出源 数据项;一个数据元素有多个来源,选择最好的来源;确认一个目标字段的多个源字段,建立合并规则;确认一 个目标字段的多个源字段,建立分离规则;确
定默认值;检查缺失值的源数据
②数据抽取技术:考虑两种情况:当前值;周期性的状态。分为两类:静态数据抽取;修正数据的抽取。 (2)数据转换
①数据转换的基本功能:选择:从源系统中选择整个记录或者部份记录。分离/合并:对源系统中的数据进 行分离操作或者合并操作。转化:对源系统进行标准化和可理解化。汇总:将最低粒度数据进行汇总。清晰:对