暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Dinky 可视化读取 Paimon 元数据

Dinky开源 2024-10-01
75
导读:本文介绍了 Dinky 实时计算平台读取 Apache Paimon 元数据的基本操作。
社区公告:

    问题反馈、代码提交、文章投稿与社区贡献请移步 Github issue。

    Github issue #66 登记企业或组织生产使用,可邀请至企业支持群,获取团队技术支持与其他企业用户的经验分享。

 

 GitHub 地址 
https://github.com/DataLinkDC/dinky
https://gitee.com/DataLinkDC/Dinky
欢迎大家为 Dinky 送上小星星~


一、Docker 快速部署 Dinky

h2数据库无需安装,开箱即用,仅适合快速体验,重启后数据消失,如要正式使用,请切换为mysql。

    docker run --restart=always -p 8888:8888 \
    -v opt/lib:/opt/dinky/customJar/ \
    --name dinky \
    dinkydocker/dinky-standalone-server:1.1.0-flink1.19
    复制
    这里我们外挂了一个 opt/lib 目录,这是专门用来放依赖的,后面我们下载的paimon和hadoop依赖都放到这个目录下面。



    二、准备依赖

    hadoop的shaded包:flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar

    Paimon flink 1.19的依赖包,如果你不是1.19,请自行替换:paimon-flink-1.19-0.9.0.jar

    上述依赖下载完成后,放到dinky的依赖目录下(dinky/extends 或者 docker部署的customJar下面)



    三、初始化 Paimon 表

    如果你已经有 Paimon 库了,可以略过此步骤。

    Dinky 新建 Flink Sql 任务,写入一下代码。
      CREATE CATALOG my_catalog WITH (
      'type' = 'paimon',
      -- 这里更改为你的hdfs地址
      'warehouse' = 'hdfs://namenode:8020/data/paimon/',
      -- 这里更改为你的hadoop配置路径
      'hadoop-conf-dir' = '/opt/data/hadoop/conf'
      );


      use catalog my_catalog;


      CREATE TABLE my_table_1 (
      user_id BIGINT,
      item_id BIGINT,
      behavior STRING,
      dt STRING,
      hh STRING,
      PRIMARY KEY (dt, hh, user_id) NOT ENFORCED
      ) PARTITIONED BY (dt, hh);
      复制

      点击检查。(虽然是检查,但是Dinky在检查过程中会执行DDL语句)

      检查成功,去HDFS上面看一眼表是不是建立了。(可以看到hdfs上面已经有表了)
        hdfs dfs -ls data/paimon/default.db/                                                                                   
        drwxr-xr-x - root supergroup 0 2024-09-26 16:12 data/paimon/default.db/my_table
        drwxr-xr-x - root supergroup 0 2024-09-26 14:49 data/paimon/default.db/my_table_1


        opt/data/hive/conf
        复制





        四、注册 Paimon 数据源

        前往注册中心-->数据源,新建数据源,选择 Paimon。

        注意:虽然1.1版本HDFS选项被禁用了,但是没有影响,paimon只需要传参就能用,并无特殊逻辑配置,所以我们这里选择local,然后如图填写自定义相关配置。

        warehouse 参数:表示数据在HDFS上面的存储路径,和我们上面sql里设置的一样即可。

        hive-conf-dir 参数:本地hadoop配置路径。

        点击测试,没问题后保存。



        五、查看 Paimon 元数据

        在数据开发页面左侧点击数据源,下拉列表选择我们刚刚建立的paimon数据源。

        选择对应的表,即可看见元数据啦!

        能看到非常多的内容,再也不用在sql cli内敲命令了!╰(°▽°)╯




        六、S3/OSS/COS/OBS 的 Paimon

        首先 S3/OSS/COS/OBS 都是兼容S3协议的,所以我们只需要创建时候选择S3类型就可以啦。

        如上图所示,只需要填写相关配置,其余操作都一样。



        七、读取 Paimon on Hive

        其余操作都一样,数据源需要做如下修改:

        参数说明示例
        warehousehive的存储路径hdfs://namenode:8020/hive/warehouse
        metastore指定元数据为 hivehive
        hive-conf-dir
        Hive 配置文件路径/opt/data/hive/conf
        hadoop-conf-dir
        Hadoop 配置文件路径/opt/data/hadoop/conf




        交流

        欢迎加入 Dinky 社区交流问题与分享经验。

        QQ社区群:543709668,申请备注 “ Dinky+企业名+职位”,不写不批。

        微信官方群:添加 wenmo_ai ,申请备注“ Dinky+企业名+职位”,不写不批谢谢。

               公众号:Dinky开源



        扫描二维码获取

        更多精彩

        Dinky开源




        文章转载自Dinky开源,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

        评论