暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据仓库的自我修养-问题篇

武哥讲数仓 2021-08-04
918
基本介绍

核心点:了解互联网仓库是做什么的,数仓生态体系,数仓人员接触的产品。


Q:
什么是数据仓库?

数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。

Q:
公司为什么搭建数据仓库?

首先当一个公司业务体系可以实现商业化变现,需要通过数据来精细化运营,通过数据科学来指导商业决策,需要一套敏捷的数据来决策公司的业务策略,而数据仓库是整个公司体系的中间层,上对接产品分析,下对接平台开发,左对接业财一体,右对接审计工作。

Q:
数据仓库需要哪些组建
  • 存储系统:HBase、Kudu、Hdfs

  • 即时查询:Impala、Presto   

  • 计算引擎:Hive、Tez、Spark

  • 实时计算:Sparkstreaming、Flink

  • Olap: Druid、ClickHouse、Kylin、Doris

  • 建模工具: Erwin、powerdesigner、visio、PDMan

  • 消息队列MQ:Kafka、ActiveMQ、RabbitMQ、RocketMQ

Q:
离线数仓和实时数仓的差异

离线数仓和实时数仓最大的区别在实时性逻辑复杂性差异,在架构层次上离线数仓需要有层级关系而实时数仓不需要遵循层级关系。


如:实时数据架构

  • Lambda架构:在离线大数据架构基础上加了一个加速层,使用流处理技术完成实时性较高的计算

  • Kappa架构:实时事件处理为核心,统一数据处理

  • 离线数据架构:ODS-DW-DMD-DMS-ADS


离线数仓处理的数据最低H+10分钟级别,可以处理更加复杂的业务逻辑,而实时数仓作为流处理,无法处理复杂的业务逻辑(如:数据漂移、数据回刷等问题) 大家一直都在说流批一体,但是有多少公司真的做到了呢?


推荐架构

  • 离线数仓:

    Hadoop+Presto+tez/Spark+ClickHouse/Doris

  • 实时数仓:

    Kafka+Flink+ClickHouse

Q:
数据仓库人员要求
  • 数仓(离线+实时)

  • 数据分析 (a/b实验分析、漏斗转化、分类统计、业务功能问题等)

  • 数据挖掘(基础算法模型和主流算法模型)

  • 数据产品(用户画像/指标体系/数据资产体系)

  • 语言Java、Python、sql、Go、shell等)


今天就先到这里吧......


文章转载自武哥讲数仓,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论