介绍
数据仓库的目的是将多个来源结合起来,生成不同的见解,帮助公司做出更好的决策和预测。它由来自单个或多个来源的历史数据和交换数据组成。大多数数据科学家、大数据分析师和业务分析师都使用数据仓库来获取数据。此数据仓库可以存储来自多个来源的数据,包括内部设备。每次上传前都会检查和清理数据。现在让我们进入数据仓库的世界。
什么是数据仓库?
数据仓库是存储数据的地方。为了做出更好的决策,过去使用的数据和将来有用的数据都存储在数据仓库中。数据仓库由使用的或与组织/公司相关的所有原始数据组成。它是通过集成多个异构数据源构建的。每个公司最宝贵的资产都是信息。该信息用于运营记录保存和分析决策。
操作数据库可能会随着时间而变化。如果一家公司/组织想分析以前的行动或数据利润,它可能找不到数据,因为以前的数据可能已经更新了。在这种情况下,数据仓库应运而生。数据仓库将包含与我们可以从中获取数据的组织相关的所有数据。它有助于集成多种应用程序系统。
数据仓库是一种数据管理系统,它促进并支持商业智能(BI)活动和分析。它们主要用于包含大量历史数据和分析搜索。与操作数据库不同,仓库不经常更新。
数据仓库的重要性
-
他们从多个来源提取数据,并通过ETL(extract、Transform和Load)处理数据,将数据加载到数据仓库中。
-
数据仓库提高了访问不同数据集的速度和效率,并帮助决策者获得见解,从而指导他们从竞争对手中脱颖而出。
-
数据仓库具有高度可扩展性和高效性,增强了数据一致性和质量。
-
数据仓库是组织/公司中所有数据的单一来源。
-
数据仓库平台允许企业领导者访问其组织的过去活动,并评估过去计划的成功或失败。这有助于管理人员了解在哪里可以降低成本、最大限度地提高效率和增加销售额以提高利润。
数据仓库/BI系统的目标是:
-
数据仓库/BI系统必须使系统易于访问。
-
数据仓库/BI系统必须一致地呈现信息。
-
这些系统必须适应变化。
-
数据仓库/BI系统必须及时提供信息。
-
系统必须是保护信息资产的安全堡垒。
-
他们应该发挥权威性和可信赖性,以改进决策。
为了更好地理解,我们可以将任何数据仓库划分为流程的4个阶段。
1.收集––在收集阶段,我们从源系统获取原始数据,并将数据存储在名为staging layer的层中。此过程称为ETL(提取、转换和加载数据)。有多种工具可以为数据仓库启用ETL。
2.存储––我们正准备将数据存储在运营数据库或其他来源中,以供当前或未来的信息分析。
3.分析––将原始数据结构化为可理解的格式有助于业务分析师或决策者从各种数据分析和可视化中获得见解。
4.消费––在这个阶段,可以使用Power BI和Hadoop等各种工具来帮助详细探索数据。
所有这些阶段都告诉我们数据仓库的结构或过程。
数据仓库的特点
1.集成:数据仓库是通过集成来自不同来源(如关系数据库和平面文件)的数据而构建的。这种集成增强了有效的数据分析。数据必须一致地存储在仓库中,并得到普遍接受。
2.非易失性:无论是什么数据,它在进入仓库或从仓库中删除后都不会改变。操作和数据仓库是分开的。因此,操作数据库中的频繁更改没有反映在数据仓库中。
3.面向主题:数据仓库是面向主题的,因为它们提供关于主题的信息,而不是组织中正在进行的操作。主题可能是产品、供应商、客户等。数据仓库专注于建模和分析数据以供决策,而不是执行日常操作
4.时间变量:从数据仓库中获取的信息按特定时间段标识。数据仓库将包含有关历史趋势的信息。
数据仓库的体系结构
数据仓库体系结构包括三层体系结构。
构建数据仓库体系结构有三种方法
-
单层
-
两层
-
三层
单层体系结构
此体系结构的主要原因是最小化存储级别。此体系结构的主要目标是消除数据冗余。
两层体系结构
它也是分隔物理可用源和数据仓库的数据仓库层之一。这种体系结构不支持大量最终用户,而且也不可扩展。
三层体系结构
数据仓库最广泛使用的体系结构由顶层、中层和底层组成。
底层
底层或数据仓库服务器通常表示关系数据库系统。要清理、转换数据并将数据馈送到层中,需要使用后端工具。
中间层
它表示可以用两种方式实现的OLAP服务器:
-
ROLAP(关系联机分析处理服务器通常位于关系后端服务器和客户端前端服务器之间。它执行动态多维数据分析,并将其映射到标准关系流程。
-
MOLAP(多维在线分析处理)直接处理多维数据和操作。
顶层
顶层是从数据仓库获取数据的客户端接口。它由查询工具、分析工具、报告工具和数据挖掘工具等工具组成。
数据仓库组件
1.数据仓库数据库
数据仓库最重要的组成部分是数据库。它是用RDBMS技术实现的。然而,这种类型的实现是有限的,因为传统的RDBMS系统针对处理事务数据库而不是数据仓库进行了优化。有几个备选方案,如并行部署RDBMS,允许在各种多处理器配置上共享内存,使用新的索引结构绕过关系表扫描等。这些都是数据库的方法。
2.ETL(提取、转换和加载工具)
这些工具负责从各种来源提取数据,将其转换为可消化的格式,并将其加载到数据仓库中。ETL工具中有许多功能,如匿名化数据、消除不需要的数据加载到数据仓库、获取摘要、用默认值填充丢失的数据等。这些工具还可以生成更新数据的后台作业、shell脚本等。这些工具有助于维护元数据。
3.元数据
元数据是定义数据仓库的数据,用于构建、维护和管理数据仓库。它提供了支持上述用法的各种框架。这些是将数据转化为知识的关键要素。
元数据可以分为两类:
-
技术元数据:包含数据仓库设计者和管理员使用的仓库的信息。
-
业务元数据:它包含最终用户容易理解的信息。
4.数据仓库访问/查询工具
访问工具允许用户与数据仓库系统交互。这些仓库工具包括查询和报告工具、数据挖掘、OLAP和应用程序开发工具。
这些工具分为四个不同的类别:
-
查询和报告工具
-
应用程序开发工具
-
数据挖掘工具
-
OLAP工具
5.数据仓库总线架构
该体系结构定义了数据仓库系统中的数据流,并在其中包含数据集市。数据流可以分为上行流、下行流、流出流和元流。
6.数据仓库报告层
数据仓库中的报告层允许最终用户访问商业智能(BI)接口或BI数据库体系结构。它充当一个仪表板,用于可视化和创建报告,并提取所有必需的信息。
数据中心
这是一个允许用户访问或传输数据的访问级别。它花费更少的时间和金钱来构建,因此对于大型数据仓库来说,它是最具成本效益的选择。它用作为特定用户组创建的数据分区。
数据仓库的生命周期
为了构建成功的数据仓库和实现,必须遵循几个步骤。
上图显示了数据仓库的生命周期,包括成功完成数据仓库的步骤。
数据仓库中的最新工具和技术
数据仓库有助于企业从大量数据中获得深入的见解。它改进了对信息的访问,缩短了查询的响应时间等。今天,云技术降低了构建数据仓库基础设施的成本和工作量。数据仓库有多种工具和技术。基于云的数据仓库工具快速、高度可扩展、高效且定期可用。一些数据仓库工具包括:
- Microsoft Azure
- Amazon Redshift
- Snowflake
- Google Big Query
- Micro Focus Vertica
- Amazon DynamoDB
- PostgreSQL
- Amazon s3
- Teradata
- Amazon RDS
- IBM Db2 Warehouse
- Oracle Autonomous Warehouse
- MariaDB
- MarkLogic
- Cloudera
这些是一些数据仓库工具。
结论
对于公司来说,数据仓库从他们过去的数据中提供有用的见解,可以帮助他们做出未来的决策。这也有助于公司存储大量数据并对其进行跟踪。一些有益的总结要点是:
-
数据仓库是一个包含来自多个来源的历史数据和交换数据的系统。这些源可以是云数据仓库、虚拟数据仓库或传统数据仓库。
-
数据仓库是面向主题、非易失性和时变的。
-
数据仓库元数据提供有关数据仓库数据的来源、用法和功能的信息。
-
数据源、转换和迁移工具执行所有转换和汇总。
本文中显示的媒体并非Analytics Vidhya所有,由作者自行决定使用。
原文标题:Data Warehouses: Basic Concepts for data enthusiasts
原文作者:Bhavesh Sree Sai
原文链接:https://www.analyticsvidhya.com/blog/2022/09/data-warehouses-basic-concepts-for-data-enthusiasts/