数据仓库基础之决策支持系统的发展

攻城锤的数据仓库 2020-10-22

285

本文主要介绍数据仓库的起源:决策支持系统。

决策支持系统(DSS)，不是大数据时代的产物，在计算机发展初期，就有它的踪迹。称之为数据仓库的起源，是因为如果没有数据需求，也就没有数据处理，更不会有数据仓库的存在。

随着技术的发展，数据存储介质，从磁带，到磁盘，再到数据库，数据存储越来越便利和规范，人们也有能力从单机事务处理进化到联机事务处理。个人计算机(PC)的诞生，使直接操作数据与系统的能力不再是传统的数据处理人员特有的。在这个前提下，数据库既能用作操作型的高性能事务处理，同时又用作DSS分析处理。(见图1)

大型联机事务处理发展之后，数据分析需求也越来越多，直接使用数据库会有影响性能等问题，在此背景下，产生了一种名为"抽取"的程序，它的逻辑简单清晰，搜索文件或数据库，从中获取自己需要的数据，并存入自己专用的数据库中(见图2)。

这种处理逻辑有两个好处:

1. 后续的分析，不影响线上业务。

2. 抽取之后，数据就归"自己"所有。

由于种种优势，抽取逻辑流行起来，慢慢变得无处不在。同时，也产生了新的问题:抽取程序变得越来越多，同一份数据被多人抽取，抽取的数据也被别人再次抽取，逐渐形成了网状结构(见图3)

虽然DSS此时可以提供更多的数据支持，但是这种"蛛网结构"的问题很多，最重要的几点:

1. 数据可信度差。

2. 效率低。

3. 加大数据理解难度。

分别来说一下

1. 数据可信度差

在同一张网上，不同的两个部门，对同一个指标得到的结果往往大相径庭，A部门说公司业绩上涨10%，B部门说公司业绩下降10%，作为领导拿到这两份报告，只能增加疑惑，无法进行有效的决策。造成这种差异的原因是各个部门都有自己的抽取程序以及抽取方法，互相不知道对方的存在以及逻辑，对于各种定义没有一个统一的认知，得到不同结论也是正常。

2. 效率低

每个部门都自己制作抽取程序，对于部门来说，方便快捷，但是对于公司整体来说，却是一个较大的浪费。

第一，增加沟通成本。

每个抽取的人，都需要知道数据的产生时间，位置，以及逻辑。

第二，要写的程序很多，并且都是定制的。

每个需求，都需要单独写一份抽取程序，几乎不能复用。

第三，程序覆盖公司所有技术。

业务使用什么技术，抽取程序就要与之对应，才能获取数据。

3. 加大数据理解难度。

在蛛网中，每一个抽取程序都有自己的数据处理逻辑，随着处理路径增加，数据差异越来越大，数据之间使用成本也随之增加，无法与其它数据交叉使用。

既然蛛网结构让用户使用数据时产生了不可调解的矛盾，那我们应该怎么做呢？

欲知后事如何，且听下回分解！

数据库

文章转载自攻城锤的数据仓库，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

数据仓库基础之决策支持系统的发展

评论

相关阅读