网站首页 > 技术教程 正文
在大数据系统平台当中,数据存储、数据库、数据仓库是非常重要的概念,共同支持大数据存储的实际需求。在大数据处理当中,大数据存储这个环节,数据仓库技术起到重要的作用。今天我们来对数据仓库做一个简单的介绍。
什么是数据仓库?
数据仓库,有一个被广泛接受的定义:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
具体来说,数据仓库就是一个数据集合,它通常具备以下特性:
- 数据仓库是面向主题构建的,每个主题就是一个可直接用于分析的主体;
- 数据仓库的数据都是集成的,它的数据来源很丰富,为了分析方便,对多种数据做了集成;
- 数据仓库的数据是相对稳定的,不会出现短时间内频繁更新数据仓库中数据的情况;
- 数据仓库的数据都是已经发生的历史事实,且保留时间较长,因此如果拉长时间线,是可以看到数据的历史变化情况的;
- 数据仓库的目标就是支撑分析工作,用于管理决策,使得企业获得更好的发展。
在企业的实际业务场景当中,数据仓库的核心应用场景就是数据分析。数据仓库就是面向分析构建的,数据仓库的存在就是为了更加高效方便地支撑数据分析。
数据仓库的优势是什么?
1、完全面向分析构建。
数据仓库的目标就是为了更高效方便地做数据分析,因此数据仓库整个数据的组织结构也是完全根据分析需要设计的。它是由多个面向特定方向的分析主题组成的,这样可以使得分析任务变得简单,数据更容易获取,最大化地发挥数据的效用。
2、可以处理大数据量场景。
数据仓库不需要太在意响应性能,因为它通常是用来供分析使用的,不会直接用于与用户交互的场景。因此,可以存储大量的历史事实数据,完成跨度较大的历史趋势变化的分析。
3、集成多种数据。
数据仓库中的数据,是将企业中分散的、不统一的数据,经过ETL集成到一起。这样,可以提升数据的丰富性,多种数据的融合,能够连接出新的可能性,发挥出更大的作用,分析出单个数据集无法得出的结论。
Hadoop生态下的数据仓库Hive
进入大数据时代之后,基于Hadoop基础架构,Hive作为分布式数据仓库被大家熟知。
Hive构建于Apache Hadoop之上,满足企业实际场景下的数据需求:
- 通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;
- 访问直接存储在Hadoop HDFS或其他数据存储系统(如Apache HBase)中的文件;
- 通过Apache Tez,Apache Spark或MapReduce执行查询;
- 通过Hive LLAP,Apache YARN和Apache Slider进行亚秒级查询检索。
今天的大数据概念解析,数据仓库入门,以上就为大家做了简单的介绍了。数据仓库作为支持大数据分析处理的重要一环,也是大数据系统架构当中的重要组成部分,从基础入门到逐步深入,需要不断加深理解和掌握。
- 上一篇: 一分钟简单了解数据仓库 数据仓库是什么?
- 下一篇: 看完这一篇数据仓库干货,终于搞懂什么是hive了
猜你喜欢
- 2024-10-02 数据分析师应该了解的数据仓库 数据仓库 数据分析
- 2024-10-02 一文详解,数据仓库、数据库、数据中台、数据湖的区别
- 2024-10-02 什么是数据湖?什么是数据仓库?什么是湖仓一体?
- 2024-10-02 看完这一篇数据仓库干货,终于搞懂什么是hive了
- 2024-10-02 一分钟简单了解数据仓库 数据仓库是什么?
- 2024-10-02 收集和存储数据——数据仓库(一) 数据仓库完成了数据的收 集、集成、存储、管理等 工作
- 2024-10-02 数据仓库的概念 数据仓库的概念始于20世纪什么年代中期
- 2024-10-02 产品经理10大基础技能(3):读懂数据仓库
- 2024-10-02 一文读懂数据仓库 数据仓库什么意思
- 2024-10-02 一文带你搞懂数据仓库是什么?全网最全教程我给你找来了!
你 发表评论:
欢迎- 05-05从virsh当中学习QEMU/KVM启动命令
- 05-05Win10 BCD文件损坏怎么修复?(bcd文件损坏win7)
- 05-05亚马逊春节假期期间的店铺管理设置
- 05-051分钟总结常用k8s常用诊断教程(k8s常见故障)
- 05-05VisiPics重复图片查找软件中文汉化教程
- 05-05微服务的发布实现方式1灰度实现(微服务实现原理)
- 05-05轻松掌握Java多线程 - 第二章:线程的生命周期
- 05-05德拉诺之王邪DK报告:PVE向小测试及分析
- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)