Dinky 可视化读取 Paimon 元数据

Dinky开源 2024-10-01

导读：本文介绍了 Dinky 实时计算平台读取 Apache Paimon 元数据的基本操作。

社区公告：

问题反馈、代码提交、文章投稿与社区贡献请移步 Github issue。

Github issue #66 登记企业或组织生产使用，可邀请至企业支持群，获取团队技术支持与其他企业用户的经验分享。

GitHub 地址

https://github.com/DataLinkDC/dinky

https://gitee.com/DataLinkDC/Dinky

欢迎大家为 Dinky 送上小星星~

一、Docker 快速部署 Dinky

h2数据库无需安装，开箱即用，仅适合快速体验，重启后数据消失，如要正式使用，请切换为mysql。

docker run --restart=always -p 8888:8888 \
  -v opt/lib:/opt/dinky/customJar/ \
  --name dinky \
  dinkydocker/dinky-standalone-server:1.1.0-flink1.19
复制

这里我们外挂了一个 opt/lib 目录，这是专门用来放依赖的，后面我们下载的paimon和hadoop依赖都放到这个目录下面。

二、准备依赖

hadoop的shaded包：flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar

Paimon flink 1.19的依赖包，如果你不是1.19，请自行替换：paimon-flink-1.19-0.9.0.jar

上述依赖下载完成后，放到dinky的依赖目录下（dinky/extends 或者 docker部署的customJar下面）

三、初始化 Paimon 表

如果你已经有 Paimon 库了，可以略过此步骤。

Dinky 新建 Flink Sql 任务，写入一下代码。

CREATE CATALOG my_catalog WITH (
    'type' = 'paimon',
    -- 这里更改为你的hdfs地址
    'warehouse' = 'hdfs://namenode:8020/data/paimon/',
    -- 这里更改为你的hadoop配置路径
    'hadoop-conf-dir' = '/opt/data/hadoop/conf'
);


use catalog my_catalog;


CREATE TABLE my_table_1 (
    user_id BIGINT,
    item_id BIGINT,
    behavior STRING,
    dt STRING,
    hh STRING,
    PRIMARY KEY (dt, hh, user_id) NOT ENFORCED
) PARTITIONED BY (dt, hh);
复制

点击检查。（虽然是检查，但是Dinky在检查过程中会执行DDL语句）

检查成功，去HDFS上面看一眼表是不是建立了。(可以看到hdfs上面已经有表了)

hdfs dfs -ls data/paimon/default.db/                                                                                   
drwxr-xr-x   - root supergroup          0 2024-09-26 16:12 data/paimon/default.db/my_table
drwxr-xr-x   - root supergroup          0 2024-09-26 14:49 data/paimon/default.db/my_table_1


 opt/data/hive/conf
复制

四、注册 Paimon 数据源

前往注册中心-->数据源，新建数据源，选择 Paimon。

注意：虽然1.1版本HDFS选项被禁用了，但是没有影响，paimon只需要传参就能用，并无特殊逻辑配置，所以我们这里选择local，然后如图填写自定义相关配置。

warehouse 参数：表示数据在HDFS上面的存储路径，和我们上面sql里设置的一样即可。

hive-conf-dir 参数：本地hadoop配置路径。

点击测试，没问题后保存。

五、查看 Paimon 元数据

在数据开发页面左侧点击数据源，下拉列表选择我们刚刚建立的paimon数据源。

选择对应的表，即可看见元数据啦！

能看到非常多的内容，再也不用在sql cli内敲命令了！╰(°▽°)╯

六、S3/OSS/COS/OBS 的 Paimon

首先 S3/OSS/COS/OBS 都是兼容S3协议的，所以我们只需要创建时候选择S3类型就可以啦。

如上图所示，只需要填写相关配置，其余操作都一样。

七、读取 Paimon on Hive

其余操作都一样，数据源需要做如下修改：

参数	说明	示例
warehouse	hive的存储路径	hdfs://namenode:8020/hive/warehouse
metastore	指定元数据为 hive	hive
hive-conf-dir	Hive 配置文件路径	/opt/data/hive/conf
hadoop-conf-dir	Hadoop 配置文件路径	/opt/data/hadoop/conf