Apache NiFi + MatrixDB 20行代码实现数据实时入库！

yMatrix 2022-01-15

902

继上一篇“空间节省50%，时序性能提升5倍，三一重工从Hadoop+Spark到MatrixDB架构变迁实现One for ALL”（点击标题阅读原文）发布后，这次我们再从 Apache NiFi + MatrixDB 着手，用20行代码轻松实现数据实时入库！

作者信息：李净芝 - 工程车辆事业部研究院大数据工程师

前言

目前，三一重工泵诵云平台的数据接入采用 Nifi + MatrixGate 的方案已正常运行4个月，NiFi 集群由3台配置为内存32g，硬盘1T的服务器组成，平均5min 消费 Kafka 数据6.4GB，每秒处理数据14784条。

NiFi 本身提供大量组件，用以应付各式各样 ETL 场景，实现了 hdfs、本地文件系统、主流数据库 (mysql/oracle/postgres) 之间数据的流转。

什么是 Apache NiFi ？

Apache NiFi，专门用于解决与数据流有关问题的工具，易于使用、功能强大、可靠的数据 ETL 系统。基于 WEB 图形页面，通过组件的拖拽、连接及配置，即可搭建完整的数据流，实时监控数据在各个处理组件之间流转的情况。

什么是 MatrixGate ？

MatrixGate 简称 mxgate，是 MatrixDB 自带的高性能流式数据加载服务器，使用 mxgate 进行数据加载性能要远远高于原生 INSERT 语句，MatrixGate 加载数据的逻辑如下图所示：

三一重工泵诵云平台将二者相结合，实现数据实时入库，且解决标准化的问题。在分享案例之前，先了解一下 NiFi 中一个重要的概念：

FlowFile

· FlowFile 是 NiFi 的核心概念，是对原始数据记录的抽象，是面向 FBP (Flow-Based Programming) 设计的。

· FlowFile 是数据记录，由一个指针（指向内容）和属性组成。

· 属性是 Key / value 键值对，是 Flowfile 的元数据。

· 内容是原始数据。

在后续的案例中，数据的流转在 NiFi 中就是 Flowfile 的生成与转化。

案例

数据处理思路

根据上面的思路，使用 NiFi 搭建数据流的过程如下：

01.

首先，获取数据，可以用 NiFi 自带的 ConsumeKafka_2_0 组件，只需配置 broker、topic，即可消费数据输出到下一组件。

02.

上图中的 Sany/JsonTypeJudge 为自定义组件，功能为根据 kafka.key 分发车载泵和泵车的数据，也可以用 NiFi 自带的 RouteOnAttribute 组件。

官方组件实现的分发规则更加的灵活，但是效率要低许多。样例如下：

03.

分发的数据输出的合并组件，这里使用 NiFi 自带的 MergeContent 组件，合并策略采用桶策略。

桶策略的含义如下：

每个 FlowFile 都有属性，桶策略首先需要指定合并属性，在上图中，合并属性设置为 kafka.key，也就是设备号。
kafka.key 为A的 FlowFile 将进入A桶，kafka.key 为B的 FlowFile 将进入B桶，以此类推，每个 FlowFile 根据自身的属性进入对应的桶。
桶策略还有其他配置，比如桶中的最小/最大文件数、桶中文件的最小/最大 Size、桶的持续时间等等，一旦达到门限值，桶里面的 FlowFiles 会打包合并成一个 FlowFile 输出到下一组件。