什么是数据仓库?
将我们所有的历史数据进行集中的存储,然后就可以在一个地方进行数据分析,从而节省工程团队的时间。
数据库和数据仓库最大的不同是解决的问题不同.
传统的数据库主要用于操作型的处理,也就是我们常说的联机事务处理,OLTP是一种面向交易的处理系统,他针对的业务是数据库联机中的一个日常操作。适用于数据的增删改查。
使用的关注点在于
1操作的响应时间
2数据的安全性和完整性
3并发所支持的用户数
数据库通常用于处理实时的业务数据,从而支持日常的业务流程,比如常见的事务处理
数据仓库同样也是面向数据,数据仓库的数据更加偏向于数据的分析,而不是数据的具体操作。
我们通常也称为联机的分析过程OLAP【OnLine Analytical Processing 】
它主要是针对某些主题的大规模的历史数据进行分析,从而来支持管理层进行决策。
所以说数据仓库的使用者往往是业务分析师,各种决策者,CIO【Chief Information Officer】等等。
他们希望从大量的应用系统的业务数据中进行关联分析最终得到一个想要的答案。
我们常说的企业应用仓库,enterprise date warehouse就是一个聚合了不同来源的数据,比如说业务系统,关系型数据库和操作数据库等等,然后方便进行数据访问和报告的这样的一个系统。
比如说销售的交易系统,移动应用的数据和CRM数据【Customer relationship management system】等等。
只要将数据汇总到数据仓库当中,整个企业都可以方便的进行访问和使用,从而方便大家对业务进行一个全面的了解。
我们的数据工程师和业务分析师也可以将这些不同来源的相关数据应用于商业只能和人工智能等方面,以便带来更好的预测,并最终对我们的业务做出更好的决策。
另外和数据库不同的是,传统的数据仓库中的数据不会实时的更新。
所以数据仓库更适合于数据的分析。
但是近年来由于实时数仓的逐渐的兴起,也有一些企业在不同的场景中去使用实时的数仓
数据库更擅长事务性工作
数据仓库更擅长分析型工作
数据湖和数据仓库的不同?
数据仓库可以给多个业务用户提供结构化和非结构化的一个数据访问,以便于他们能够对数据的一个实时的数据查询,并快速做出决策,也就是说,我们有很明确的目标,因此数据仓库的生成有抽取,加载和转换的一个过程。那么如果我们暂时没有一个明确的目标,但又想保留所有的数据,以方便后续对数据进行处理,怎么办呢?数据胡就出现了。
数据湖在早期一般托管在Hadoop【哈度普】等大数据平台上,拥有大量的非结构化数据的一个存储空间,非常适用于数据分析师对原数据进行存储,直到他们直到用这个数据区干什么。
数据湖适用于可以存储部分或全量的原始数据,尤其是用户还不明确数据的用途的情况下。
数据仓库存储的则是已经被处理和过滤后的数据,所以数据可以方便用于分析和使用。
但是两者的存在都有一定的局限性,所以近年来,大数据行业出现了湖仓一体的这样的概念,结合两者的优势。
什么时候需要使用数据仓库呢?
如果当前使用的标准的数据分析工具已经无法解答一些棘手的业务问题,而这些问题又是企业的核心团队提出的重要问题,这个时候数据仓库就可以起到帮助,数仓的强大在于数仓的报告和分析可以包含众多的分析源,而这种数据的集成方式,往往意味着你可以分析来自网站,应用乃至其他的Saas平台的数据,进而可以通过变量,属性,图标来回答你业务的问题。
当你在一个平台拥有所有的数据的时候,就直接可以在仓库或者通过我们的商业智能工具去轻松的进行查询,并且通过自动化和可视化这些查询来支撑核心团队做出决策。
数据仓库使用了什么技术?
Hadoop