暂无图片
伦少的博客
暂无图片
2022-07-18 加入墨天轮
暂无图片
暂无图片
伦少的博客
欢迎关注我的公众号:伦少的博客
关注TA
写留言
175
文章
15
粉丝
120K+
浏览量
个人成就
发布175次内容
获得2次点赞
内容获得5次评论
获得5次收藏
回答了0次问答
文章分类
hudi
(56)
数据库
(34)
spark
(28)
flink
(24)
apache
(24)
hive
(21)
源码
(18)
string
(17)
sql
(16)
大数据
(16)
jvm
(10)
parquet
(8)
展开
文章档案
2025年04月
(1)
2025年03月
(1)
2025年02月
(1)
2025年01月
(3)
2024年07月
(4)
2024年06月
(5)
2024年05月
(2)
2024年04月
(2)
展开
最新评论
如何使用 Spark SQL Hint 对 Hudi 进行增量查询、时间旅行...
这个是不是没有提交社区呢?能不能提交社区支持一下
-ℒ英超ℒ
Flink SQL操作Hudi并同步Hive使用总结
大佬 可以请教下 引入hudi-hadoop-mr-bundle-0.9.0.jar包,放到$HIVE_HOME/lib下 也都重启了 但是hive还是无法同步flinksql和sparksql创的hudi表是为啥QAQ
-手机用户3974
Hudi master 0.13.0-SNAPSHOT Win10 打包异常解决
我在centos7.9 编译也报这个错 不知道什么导致的
-Luminous
动态
文章 ·175
数说 ·0
问答 ·1
文档 ·0
关注
留言板·0
Flink 源码编译
Flink 源码编译
发布文章
3天前
Ollama 简介及安装部署
Ollama 简介及安装部署
发布文章
2025-03-03
Spark 源码 | 脚本分析总结
Spark 源码 | 脚本分析总结
发布文章
2025-02-12
Spark RPC 学习总结
本文从API层面学习总结Spark RPC,暂不涉及源码分析。
发布文章
2025-01-20
Netty 入门学习
学习Spark源码绕不开通信,Spark通信是基于Netty实现的,所以先简单学习总结一下Netty。
发布文章
2025-01-14
Hudi 源码 | 索引总结 - tag/tagLocation
本文总结源码 tag/tagLocation ,对应功能:根据索引信息判断记录是否存在,如果不存在,代表是新增数据,如果记录存在则代表是更新数据,需要找到并设置 currentLocation。
发布文章
2024-07-16
Apache Hudi从零到一:关于写入索引的一切(四)
本文将介绍索引 API,并探讨各种类型的索引。
发布文章
2024-07-12
Hudi 索引总结 - Parquet布隆过滤器写入过程
Parquet布隆过滤器写入过程
发布文章
2024-07-12
Hudi 写入流程(图)
1. 主要为之前总结的源码文章补充流程图。 2. 总结一下整体流程
发布文章
2024-07-08
Flink 重启策略和故障恢复策略
主要总结 Flink 重启策略
发布文章
2024-06-25
Hudi extraMetadata 研究总结
研究总结 Hudi extraMetadata ,记录研究过程。
发布文章
2024-06-14
Hudi CLI 安装配置总结
Hudi CLI 安装配置总结
发布文章
2024-06-11
Hudi Spark Sql Procedures 回滚 Hudi 表数据
总结 Hudi Spark Sql Procedures Rollback
发布文章
2024-06-05
记录一个 Hudi HBase 依赖冲突问题及解决方案
记录一个 Hudi HBase 依赖冲突问题及解决方案
发布文章
2024-06-03
Hudi Flink MOR 学习总结
之前很少用MOR表,现在来学习总结一下。首先总结一下 compaction 遇到的问题。
发布文章
2024-05-29
Spark Client 配置
Spark Client 配置
发布文章
2024-05-20
Hive 表添加列(新增字段)
记录总结一下 Hive 表如何添加新的字段以及遇到的问题。
发布文章
2024-04-23
集群管理命令总结
在多台服务器上并发执行相同命令
发布文章
2024-04-15
Spark Standalone 集群配置
平时工作中主要用 YARN 模式,最近进行TPC测试用到了 Standalone 模式,便记录总结一下
发布文章
2024-02-19
Linux 批量添加 known_hosts
Linux 批量添加 known_hosts
发布文章
2024-01-17
Apache Hudi 0.14.0版本重磅发布!
Apache Hudi 0.14.0 标志着一个重要的里程碑,具有一系列新功能和增强功能
发布文章
2023-12-22
Flink 日志总结
总结一下 Flink 项目代码打印日志的配置
发布文章
2023-12-22
Flink源码分析 | 读取HBase配置
Flink源码分析 | 读取HBase配置
发布文章
2023-12-19
Flink 源码阅读笔记(3)- Flink 底层RPC框架分析
对于Flink中各个组件(JobMaster、TaskManager、Dispatcher等),其底层RPC框架基于Akka实现,本文着重分析Flink中的Rpc框架实现机制及梳理其通信流程。
发布文章
2023-12-11
Flink 读写 HBase 总结
总结 Flink 读写 HBase
发布文章
2023-12-11
Flink 源码阅读笔记(2)- JobGraph 的生成
前面的 文章 我们介绍了 StreamGraph 的生成,这个实际上只对应 Flink 作业在逻辑上的执行计划图。Flink 会进一步对 StreamGraph 进行转换,得到另一个执行计划图,即 JobGraph。
发布文章
2023-09-08
Hudi Flink源码总结(二)-Transformation/Operator总结-StreamGraph/JobGraph
本文主要总结 Flink 的 Transformation、StreamOperator, 写Hudi与 Transformation、StreamOperator的关系, StreamGraph 和 JobGraph 的生成构建过程。
发布文章
2023-08-29
Flink中: 你的Function是如何被执行的
本文主要介绍Function 被调用的流程以及对应的方法如何被调用的
发布文章
2023-08-26
Flink 源码阅读笔记(1)- StreamGraph 的生成
Flink StreamGraph 的生成
发布文章
2023-08-26
记录几个Hudi Flink使用问题及解决方法
记录几个Hudi Flink使用问题,学习和使用Hudi Flink有一段时间,虽然目前用的还不够深入,但是目前也遇到了几个问题,现在将遇到的这几个问题以及解决方式记录一下
发布文章
2023-08-21
距离【中国数据库联盟·杭州行】开始还有9天,欢迎报名参会!
杭州的朋友看这里,这里有场活动邀请你参加
发布文章
2023-08-11
自适应批作业调度器:为 Flink 批作业自动推导并行度
对大部分用户来说,为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业,小的并行度会导致作业运行时间长,故障恢复慢,而不必要的大并行度会导致资源浪费,任务部署和数据 shuffle 开销也会变大。
发布文章
2023-08-01
Hudi Flink SQL源码调试学习(一)
本着学习hudi-flink源码的目的,利用之前总结的文章Hudi Flink SQL代码示例及本地调试中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段
发布文章
2023-08-01
FlinkSQL的字段血缘解决方案
FlinkSQL的字段血缘解决方案
发布文章
2023-07-07
Flink 读写Kafka总结
总结Flink读写Kafka
发布文章
2023-07-07
Hudi Flink SQL代码示例及本地调试
Hudi Flink SQL代码示例及本地调试
发布文章
2023-05-30
Flink Hudi DataStream API代码示例
前言 总结Flink通过DataStream API读写Hudi Demo示例,主要是自己备忘用
发布文章
2023-05-25
Flink用户自定义连接器(Table API Connectors)学习总结
结合官网文档和自定义实现一个flink-http-connector,来学习总结Flink用户自定义连接器(Table API Connectors)
发布文章
2023-05-25
数据湖知识体系解析
数据湖知识体系解析
发布文章
2023-04-17
Flink MySQL CDC 使用总结
学习总结Flink MySQL CDC,主要目的是同步MySQL数据至其他数据源如Hudi、MySQL等,本文主要以 MySQL2Hudi、MySQL2MySQL两个场景进行示例验证
发布文章
2023-04-06
Apache Hudi 0.13.0版本重磅发布!
Apache Hudi 0.13.0 版本引入了许多新功能,包括 Metaserver[1]、变更数据捕获[2]、新的 Record Merge API[3]、Deltastreamer支持新数据源[4]等。
发布文章
2023-03-06
Flink SQL Checkpoint 学习总结
学习总结Flink SQL Checkpoint的使用,主要目的是为了验证Flink SQL流式任务挂掉后,重启时还可以继续从上次的运行状态恢复
发布文章
2023-03-06
Grafana 绘制 Apache Hudi Metrics 仪表盘教程
本文主要叙述下如何将 Apache Hudi Metrics 接入 Prometheus,开发人员通过对监控指标的观察能够预判可能出现的问题,从而对潜在的不确定因素进行优化,使我们的数据湖任务运行更加健康。
发布文章
2023-02-17
Docker实战:Docker安装nginx并配置SSL
今天继续给大家分享Docker实战,Centos8环境下安装nginx并配置SSL
发布文章
2022-12-08
Lakehouse架构指南
你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求?数据湖包括哪些组件和功能?
发布文章
2022-12-08
Flink SQL增量查询Hudi表
前面总结了Spark SQL增量查询Hudi表和Hive增量查询Hudi表。最近项目上也有Flink SQL增量查询Hudi表的需求,正好学习总结一下
发布文章
2022-12-08
Docker实战:Docker安装nginx并配置SSL
今天继续给大家分享Docker实战,Centos8环境下安装nginx并配置SSL
发布文章
2022-12-01
如何使用 Spark SQL Hint 对 Hudi 进行增量查询、时间旅行...
本篇描述并实践了如何通过 Hint 将 hudi relation 使用的参数传递给指定的表,而不使用类似时间旅行的语法增强的方式将 hudi 的功能 sql 化,也可以达到表级别的参数设置
发布文章
2022-12-01