数据仓库设计的思考
讲到数据仓库,很多人就会想到首先按照行业规范和客户需求调研、做源系统数据分析,然后设计主题,最后设计应用所需的事实表、维表;结构上基本分为三 层:ODS-DW-DM。从理论的角度来看,数据仓库就是数据驱动的、稳定的、指标统一、能存放所有历史数据的;从需求方的角度来看,能满足他们所有的报 表、查询和分析数据需求;从开发人员的角度来看,能够快速、高效、便捷的从数据仓库中取到数据,完成项目开发;他们并不care数据仓库的设计到底是什么 样的,那么数据仓库设计到底是什么呢?
架构设计和模型设计在数据仓库设计中应该是分开的,这两个部分也是整个数据仓库设计中最核心的部分。
数据仓库架构设计,至少对一个行业的抽象、设计。如IBM对电信、银行等行业就有对应的架构方案,但具体的数据模型是可定制的,而且好的架构是对后续会发 生的常见问题有好的应对,有高可扩展性的。架构中重点是描述系统的结构,以及他们之间的关联、交互接口。如业务模型、元数据、数据质量、接口平台、报表集 市、指标库等,这里命名这些模块都是静态的名词,架构设计重在描述系统的结构而非功能。
数据仓库模型设计,需要结合具体的业务和需求来进行的,模型设计只是实现架构中的某个部分。通常模型设计分为三级——概念、逻辑和物理模型。概念模型也就 是业务模型,由企业决策者,商务领域知识专家和IT专家共同企业级地跨领域业务系统需求分析的结果;逻辑模型根据分析系统的实际需求决策构建数据库逻辑关 系模型,定义数据库物体结构及其关系;物理模型:构建数据仓库的物理分布模型,主要包含数据仓库的软硬件配置,资源情况以及数据仓库模式等
任何需求均来源于业务,业务决定了需求,企业要建立数据仓库的需求也是由业务所驱动的。因此,数据仓库项目并不是理论上的完全是数据驱动,它和业务也是密不可分的,应该是两者同时驱动的。一个合格的数据仓库设计,要清除业务流程,也要清楚数据流程。
摘自:http://www.alidw.com/?p=1793#more-1793