在上篇内容中,说了数据建设与使用中重要的四个工具平台,他们使用上的需求如下:
数据可视化
使用简单
数据清晰
跨数据源支持
元数据
数据描述全面
数据流完整
清晰简洁
质量监控
提前发现问题
得出数据健康报告
调度系统
按条件执行:时间条件,事件条件
可回溯
版本管理
但是现在开源社区的丰富,数据工具,也有专门的产品化公司,开发销售工具产品,比如易观/神策等,都有了私有化部署的解决方案,出钱就可以,还有更老牌的工具比如Tableau。当然,本文重点不会是出钱的内容,来介绍一下现有的数据开源数据工具。供大家参考选择。
数据可视化
Superset (https://airbnb.io/projects/superset/)
Superset是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,支持多数据源,支持sql查询,支持各种图表展示。Davinci (http://college.creditease.cn/detail/278)
宜信开源的大数据可视平台。Redash (https://github.com/getredash/redash)
metabase (https://www.metabase.com/)
元数据
datahub (https://github.com/linkedin/datahub)
LinkedIn开源,原名WhereHows。Marquez (https://github.com/MarquezProject/marquez)
质量监控 暂无
调度系统
Airflow (https://airbnb.io/projects/airflow/)
Airbnb 开源的,编排、调度和监控workflow的平台,是一个工作任务的调度平台,其内置了比较全面实用的调度功能。sia-task (https://github.com/siaorg/sia-task)
宜信开源的微服务任务调度平台。TBSchedule](https://github.com/taobao/TBSchedule)
淘宝开源的分布式的调度框架DolphinScheduler](https://gitee.com/flyspace81/DolphinScheduler)(原EasyScheduler)
易观开源并提交apache的调度系统。可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。
开源工具逐步补充中
由于各个公司产品形态不同,数据流程不同,所以即便使用了开源工具,也需要做二次开发,甚至自己重新开发工具,但是开源工具,无疑是在初期给了人们很好的选择与帮助。
一些想法
之前看了一个dba同学的帖子,帖子中说,"我很努力,学习新知识,紧跟技术发展,但是腾讯阿里等云平台,对我来说是降维打击,对于公司来说,可能不再需要dba这个职位了。"