暂无图片
暂无图片
暂无图片
大数据及数据仓库
2020-12-03 09:25:21 234554
简介:DBA转大数据之路
大数据开发之Hive案例篇14:某个节点HDFS块比较多
TableofContents一.问题描述二.解决方案2.1查看节点安装的组件2.2排查HDFS配置2.3排查Yarn配置2.3.1首先查看下nodemanager的日志2.3.2查
只是甲
2023-06-30
245 浏览
StarRocks案例7:使用shell批量broker load导入hdfs数据
TableofContents一.问题描述二.解决方案一.问题描述近期需要进行补录数据,需要将hive的历史数据迁移到StarRocks,因为需要补录的数据较多,hive和StarRocks
只是甲
2023-06-20
325 浏览
StarRocks案例6: StarRocks同关系型数据库的绑定变量功能
TableofContents一.问题描述二.解决方案一.问题描述公司目前的业务是,实时和离线的数据,都导入StarRocks,然后后端根据前端传入的条件来拼接SQL语句。使用过关系型数据库
只是甲
2023-06-19
211 浏览
StarRocks案例5: hive外表报错starrocks [42000][1064] hdfsOpenFile failed
TableofContents一.问题描述二.解决方案一.问题描述StarRocks版本2.5.5现在需要使用hive外表,然后根据官网的的命令创建了hiveresourceCREATE
只是甲
2023-06-16
381 浏览
StarRocks案例4: Spark load第二次运行报错
TableofContents一.问题描述二.解决方案一.问题描述需求背景:CDH集群Spark版本2.4.0StarRocks版本2.5.5使用Spark2.4.0客户端会报错,j
只是甲
2023-06-15
277 浏览
大数据开发之Hive案例篇13:Hive SQL 常见参数调整
TableofContents一.问题描述二.解决方案一.问题描述hive的一些默认参数设置不适合一些复杂的数据需求场景,需要针对具体情况进行调整。二.解决方案以下是常见的调参:指定队
只是甲
2023-06-14
222 浏览
大数据开发之Hive案例篇12:HDFS rebalance 一例
TableofContents一.问题描述二.解决方案2.1增加节点2.2rebalance2.3rebalance引发的问题一.问题描述公司的离线数仓是CDH集群,19个节点,HDF
只是甲
2023-06-13
138 浏览
大数据开发之Hive案例篇11: 配置资源队列
TableofContents一.问题描述二.解决方案2.1CDH资源队列的配置2.2原生hadoop资源队列的配置参考:一.问题描述公司有一个hadoop的集群。但是A项目组经常做一些
只是甲
2023-06-08
260 浏览
大数据开发之Hive案例篇10-大表笛卡尔积优化
TableofContents一.问题描述二.解决方案2.1数据倾斜2.2SQL改写1:由分析函数改为常规写法2.3分析数据分布2.4SQL改写2:重写参考:一.问题描述需求描述:表概
只是甲
2023-06-07
276 浏览
大数据开发之Hive案例篇9-Not yet supported place for UDAF 'count'
TableofContents一.问题描述二.解决方案一.问题描述一个很简单的groupby和count()操作,然后居然报错了hiveSELECTcol1,
只是甲
2023-06-05
627 浏览
StarRocks案例3: 通过[broadcast] 优化慢SQL
TableofContents一.问题描述二.解决方案三.一些拓展一.问题描述最近在使用StarRocks的时候,发现一个问题tablea10W左右数据,通过where条件过滤数据后
只是甲
2023-06-02
404 浏览
StarRocks案例2: 升级后性能变慢
TableofContents一.问题描述二.解决方案2.1从慢查询定位2.2定位CPU解析时间就的问题一.问题描述20230518将StarRocks从2.3.0升级到2.5.5
只是甲
2023-06-01
348 浏览
StarRocks案例1: DBeaver执行SQL报unknown error
TableofContents一.问题描述二.解决方案一.问题描述在DBeaver上执行某些SQL语句的时候,直接报unknownerror二.解决方案首先命令行执行奇怪的是我直接用命
只是甲
2023-05-31
790 浏览
大数据开发之Hive案例篇8-解析XML
TableofContents一.问题描述二.解决方案2.1官方文档2.2XML格式不规范一.问题描述今天接到一个新需求,hive表里面有个字段存储的是XML类型数据数据格式:
只是甲
2023-05-26
291 浏览
大数据开发之Hive案例篇7- 笛卡尔积优化一例
TableofContents一.问题描述二.解决方案参考:一.问题描述今天遇到一个问题,一个大表join一个拉链表,获取对应的数据大表tbig,数量2kw左右小表tlalian,是拉
只是甲
2023-05-25
660 浏览
大数据开发之Hive案例篇6- MR任务shuffle过程中失败
TableofContents一.问题描述二.解决方案一.问题描述今天跑一个MR任务,数据量不大,跑了半个小时左右,遇到了超时的报错报错信息:Error:org.apache.hadoop
只是甲
2023-05-25
219 浏览
大数据开发之Hive案例篇5- count(distinct) 优化一例
TableofContents一.问题描述二.解决方案2.1调整reduce个数2.2SQL改写一.问题描述需求:卡在了reduce,只有一个reduceMRjob卡在了最后一个red
只是甲
2023-05-24
299 浏览
Hudi系列26: Spark处理Flink CDC同步的实时数据
TableofContents一.数据源准备二.FlinkCDC将MySQL源数据写入到Hudi并同步到Hive三.通过SparkSQL处理Hudi数据一.数据源准备建表:CREAT
只是甲
2023-05-24
160 浏览
Hudi系列25: Flink SQL使用checkpoint恢复job异常
TableofContents一.通过FlinkSQL将MySQL数据写入Hudi二.模拟Flink任务异常2.1手工停止job2.2指定checkpoint来恢复数据2.3整个yar
只是甲
2023-05-23
893 浏览
Hudi系列24: COW表初始化大表
TableofContents一.数据源准备二.FLinkSQL客户端操作三.查看运行情况一.数据源准备建表:CREATETABLEmysqlcdc(idint(11
只是甲
2023-05-23
243 浏览
专栏作者
暂无图片
近期活动
【开始报名啦】4月12日 TiDB社区活动在南京!传统技术栈替换和 AI 浪潮正当时,面向未来的国产数据库怎么选择?
04/12 14:00 0人报名
Apache Cloudberry™ (Incubating) Meetup · 杭州
04/19 14:00 0人报名
第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
04/25 08:30 0人报名