暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据仓库基础之数据的区别,用户与监控

攻城锤的数据仓库 2020-11-02
240
书接上文,上文书说到,决策支持系统对数据的使用,越来越频繁以及复杂,抽取程序的蛛网结构也越来越庞大,逐渐给数据使用带来新的问题:
  • 数据可信度差。

  • 效率低。

  • 加大数据理解难度。

为了让数据更好的使用,这些问题亟需解答。首先我们来对比一下线上数据与决策支持系统(DSS)需求的数据的差别。

  • 操作数据与分析数据
    线上数据,是原子的,状态数据,反应的是用户当前时刻的状态。而DSS系统需要的,不仅是当前时刻的状态数据,还需要历史中的数据。
    关于过程数据与历史数据,我们以银行存款为例进行说明(如图1)

    无论什么时刻,我们在线上系统,只能查询到当前时刻的状态,比如日期1003查到攻城锤有100元存款,过去的时间里,攻城锤有多少钱是不得而知的,当前的状态,是分析的一部分,而变化的历史,也是分析的重点。


  • 用户是谁?
    数据仓库的用户是分析师。分析师是什么人呢?他们主要工作是定义规则(数据处理规则,指标计算规则等),以及根据数据发现业务发展中的信息,得出结论,给出建议。
    为了给分析师提供数据服务,需要知道分析师的做事特点,即:"先给我看一下我说我想要的东西,我才能知道我真正想要什么"。这句话的意思是,分析是逐步进行的,没有哪个分析师能在刚开始就决定好分析的方式以及内容,需要一次次的调整,才能得到最终的需求。所以分析师提需求特别是改需求的时候,不要打分析师(^_^)。

  • 监控
    数据进入数据仓库,变成数据资产,监控数据资产是管理数据仓库的基本能力,通过对监控我们能获取到很多重要的信息,为我们建设数据包括硬件计划都有意义。举其中重要的内容为例:

    • 发生了哪些增长,在什么位置/以什么速率发生增长

    • 哪些数据被使用

    • 数据被使用频次

    • 数据服务的响应时间 当数据仓库的建设人员都无法回答这些问题时,那高质量的数据建设是不可能成功的。
    监控数据仓库,通过数据的增长,我们可以评估存储空间的使用情况,什么时候耗尽,需要申请多少资源,数据的生命周期怎么确定,过期数据的处理办法。防止存储空间被占满导致数据不可用。
    当然,随着这些年科技发展,存储介质价格越来越低,数据存储的周期也越来越长了。这方面的困扰少了很多。
    同时,根据数据的使用情况,对数据进行调整,重要/常用的数据单独建设。为数据仓库迭代发展提供支持。
    由于监控的重要性,数据仓库的两个重要的工具:元数据,质量监控,在这个环节发挥了强大的作用,下一节我们来讲一下数据仓库的工具系统,包含另外两个系统,朋友们都知道是什么么?
  • 小结
    DSS的需求以及数据处理逻辑的发展,线上OLTP数据与DSS需求数据有差异,需要单独建设,在建设的时候需要了解用户是谁,用户关注什么。并且对数据进行良好的监控。


文章转载自攻城锤的数据仓库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论