hdfs - 墨天轮

Hive默认使用MapReduce作为执行引擎，即Hiveonmr。实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为HiveonTez和HiveonSpark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。

ETL敏捷调度Taskctl

2024-11-12

349浏览

spark hive yarn hdfs hadoop

揭秘Hadoop集群高效运行的三大关键领域！

在大数据处理项目中，HDFS存储多目录、集群数据均衡和Hadoop参数调优是三个关键的领域，它们对于确保Hadoop集群的高效运行和数据管理至关重要。下面是对这三个领域的更详细的介绍：。HDFSBalancer：使用Hadoop的Balancer工具来自动重新平衡数据块，提高存储效率。对于参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。这个一般是Yarn的2个配置造成的，单个任务可以申请的最大内存大小，和Hadoop单个节点可用内存大小。总之，HDFS存储多目录、集群数据均衡和Hadoop参数调优是Hadoop项目中的重要环节，需要根据具体的业务需求和集群环境来进行细致的规划和调整。通过合理的设计和优化，可以大大提高Hadoop集群的性能和稳定性，为大数据处理提供坚实的基础。

ETL敏捷调度Taskctl

2024-11-05

110浏览

hdfs hadoop 集群技术内存参数 hadoop集群搭建

教育行业PyFlink整合FlinkML机器学习场景实践总结

本文记录如何使用conda构建Python虚拟环境、如何使用PyFlink整合使用FlinkML类库。

大数据从业者

2024-10-28

92浏览

机器学习 flink python机器学习 hdfs python

计算不停歇，百度沧海数据湖存储加速方案 2.0 设计和实践

AI和大数据一体化方案

百度智能云技术站

2024-10-21

6浏览

大数据 hdfs 对象存储 namespace 云计算

Dinky 可视化读取 Paimon 元数据

本文介绍了Dinky实时计算平台读取ApachePaimon元数据的基本操作。

Dinky开源

2024-10-01

88浏览

元数据大数据可视化 hdfs hive

数据平台：下一代大数据存储？Ozone

Ozone作为Hadoop的分布式对象存储系统，在大数据存储领域展现出强大的实力。它不仅具有易扩展和冗余存储的特点，还能够存储数十亿个不同大小的对象，为大规模数据存储提供了可靠的解决方案。

码奋

2024-09-28

2浏览

大数据数据存储元数据云计算 hdfs

数据工程师的数据管道之旅：收集、摄入、存储、计算与消费

数据工程师必备

虞大胆的叽叽喳喳

2024-09-22

27浏览

大数据 hdfs 数据存储 hive

HDFS文件系统权限

michaelliu

2024-09-10

41浏览

hdfs

实战指南：Apache DolphinScheduler优化Flink任务调度的技术细节

干货宜收藏！

海豚调度

2024-09-03

247浏览

hdfs flink apache

LLM训练的存储需求：训练数据和检查点

Andy730

2024-08-30

58浏览

大数据并行处理 hdfs

广东电网国产化数据平台替代实践

湖仓的灵活性、扩展性和高效性帮助电网企业更好地挖掘数据价值，实现业务创新和增长。

偶数科技

2024-08-16

244浏览

大数据 hdfs 数据库 oushudb hawq

HBase 实践 | AWS EMR HBase 超大表迁移、备份、还原、同步演练手册：全量快照 + 实时同步不停机迁移方案

1.背景介绍本文介绍的演练操作源于某真实案例，用户有一个80TB的HBase数据库，其中有一张超

大数据技能圈

2024-08-13

11浏览

aws hbase 数据迁移存储快照 hdfs

全面介绍 Apache Doris 数据灾备恢复机制及使用示例

引言ApacheDoris作为一款OLAP实时数据仓库，在越来越多的中大型企业中逐步占据着主数仓这样

大数据技能圈

2024-08-09

18浏览

apache hdfs hadoop mysqldump导出数据库 doris

洞见｜AI 时代下我们需要怎样的数据基础软件？

一文读懂AI如何影响以湖仓为核心的数据基础设施建设！

StarRocks

2024-07-25

82浏览

大数据 starrocks 数据库软件 hdfs 对象存储系统

字节跳动基于Parquet格式的降本增效实践

小文件合并、列级TTL两大应用场景

字节跳动数据平台

2024-07-25

66浏览

文件合并 hdfs parquet

Doris放大招：即将推出存算分离架构

Doris存算分离架构解析

大数据技能圈

2024-07-09

8浏览

架构 doris 元数据 hdfs

大数据技术概述

简单说就是海量、高增长率和多样化的信息资产。来源不同，格式不同，那么获取的技术肯定也是不同的。数据存储是大数据的基础，但是发展却没有CPU和内存快，这就导致了硬盘储存的速度不够，所以大数据平台的很多调优都是集中在磁盘I/O的调优。这就涉及到了Hadoop的分布式文件系统HDFS和分布式列式数据库HBase，大数据的离线和实时计算：离线计算需要掌握的技术有Hive、SparkCore、SparkSQL、FlinkDataSet；实时计算需要掌握的技术有SparkStreaming和FlinkDataStream。大数据的项目需求以数据为中心，大体会分为以下几个阶段：场景、概念、细节和界面的需求分析。

w83

2024-07-04

66浏览

大数据机器学习 flume hdfs

深入腾讯云TBDS：大规模HDFS集群优化实战

腾讯云TBDS是腾讯大数据能力的私有云产品化，结合内部实践和典型客户的具体情况，对HDFS做了系统的优化。

腾讯云大数据

2024-06-28

99浏览

优化元数据 hdfs

技术解读 | Klustron集群物理备份及恢复现已支持使用对象存储设施

KunlunBase 昆仑数据库

2024-06-25

39浏览

hdfs kunlunbase 集群服务器集群技术对象存储

HBase集群数据在线迁移方案探索

订单本地化系统目前一个月的订单的读写已经切至jimkv存储，对应的HBase集群已下线。由于这个集群目前仍在线上读写，本文从原理和实践的角度探索对HBase集群数据的在线迁移的方案，欢迎大家补充。HBase客户端支持所有常见的DML操作以及DDL操作，即数据的增删改查和表的日常维护等。HBase客户端访问数据行之前，首先需要通过元数据表定位目标数据所在RegionServer，之后才会发送请求到该RegionServer。如果集群RegionServer发生宕机或者执行了负载均衡等，从而导致数据分片发生迁移，客户端需要重新请求最新的元数据并缓存在本地。清理过期日志以及文件，Master会每隔一段时间检查HDFS中HLog是否过期、HFile是否已经被删除，并在过期之后将其删除。HBase中，每个列簇的数据都集中存放在一起形成一个存储单元Store，因此建议将具有相同IO特性的数据设置在同一个列簇中。HBase内部封装了一个名为DFSClient的HDFS客户端组件，负责对HDFS的实际数据进行读写访问。

京东云开发者

2024-06-12

57浏览

hbase 数据迁移集群技术快照技术 hdfs

标签贡献者排行