暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据仓库之开源数据工具平台

攻城锤的数据仓库 2020-11-23
780

在上篇内容中,说了数据建设与使用中重要的四个工具平台,他们使用上的需求如下:

  • 数据可视化

    • 使用简单

    • 数据清晰

    • 跨数据源支持

  • 元数据

    • 数据描述全面

    • 数据流完整

    • 清晰简洁

  • 质量监控

    • 提前发现问题

    • 得出数据健康报告

  • 调度系统

    • 按条件执行:时间条件,事件条件

    • 可回溯

    • 版本管理

随着团队完善,数据需求越来越多,对工具的需求也越来越大,避免不了需要进行开发。

但是现在开源社区的丰富,数据工具,也有专门的产品化公司,开发销售工具产品,比如易观/神策等,都有了私有化部署的解决方案,出钱就可以,还有更老牌的工具比如Tableau。当然,本文重点不会是出钱的内容,来介绍一下现有的数据开源数据工具。供大家参考选择。

  1. 数据可视化

    • Superset (https://airbnb.io/projects/superset/)
      Superset是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,支持多数据源,支持sql查询,支持各种图表展示。

    • Davinci (http://college.creditease.cn/detail/278)
      宜信开源的大数据可视平台。

    • Redash (https://github.com/getredash/redash)

    • metabase (https://www.metabase.com/)

  2. 元数据

    • datahub (https://github.com/linkedin/datahub)
      LinkedIn开源,原名WhereHows。

    • Marquez (https://github.com/MarquezProject/marquez)

  3. 质量监控 暂无

  4. 调度系统

    • Airflow (https://airbnb.io/projects/airflow/)
      Airbnb 开源的,编排、调度和监控workflow的平台,是一个工作任务的调度平台,其内置了比较全面实用的调度功能。

    • sia-task (https://github.com/siaorg/sia-task)
      宜信开源的微服务任务调度平台。

    • TBSchedule](https://github.com/taobao/TBSchedule)
      淘宝开源的分布式的调度框架

    • DolphinScheduler](https://gitee.com/flyspace81/DolphinScheduler)(原EasyScheduler)
      易观开源并提交apache的调度系统。可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。

开源工具逐步补充中

在这些工具中,最先被需要的是数据可视化与调度系统,这也是为什么这两个工具开源的比较早,比较多。另外的元数据,质量监控,则相对较少。

由于各个公司产品形态不同,数据流程不同,所以即便使用了开源工具,也需要做二次开发,甚至自己重新开发工具,但是开源工具,无疑是在初期给了人们很好的选择与帮助。

一些想法

之前看了一个dba同学的帖子,帖子中说,"我很努力,学习新知识,紧跟技术发展,但是腾讯阿里等云平台,对我来说是降维打击,对于公司来说,可能不再需要dba这个职位了。"

确实,大数据发展到现在,对数据本身之外,大家开始重视辅助的工具平台,各个公司自己开发,然后逐步开源出来。开源出来的工具,质量和易用性来说都很好,对于一般小公司来说,开源的工具完全可以覆盖自己的需求,那么,自然就没必要开发自己的工具了。公司在个性化需求全独立开发和简单易用的开源工具上,很容易做出选择。对于一些大数据开发来说同样是降维打击。当然,需要对开源工具做二次开发,但是对比自研,需要的人力要少的多。
忧虑,但是没办法。


文章转载自攻城锤的数据仓库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论