暂无图片
H
hdfs
标签共收录了280篇内容
关注
文章 (269)
文档 (11)
视频 (0)
问答 (0)
合辑 (0)
留言板 (0)
DolphinScheduler开发者必看!IDEA本地调试实战指南
本文整系统梳理了在IDEA中搭建ApacheDolphinScheduler本地调试环境的通用流程。
海豚调度
2025-04-23
18浏览
用Ambari安装DolphinScheduler,超简单!
本文将描述如何使用Ambari安装DolphinScheduler。
海豚调度
2025-02-11
26浏览
HBase深度历险
HBase的全称是HadoopDatabase,是一个分布式的,可扩展,面向列簇的数据库,是一个通过大量廉价的机器解决海量数据的
京东云开发者
2025-01-15
122浏览
DataNode安全模式问题处理
本文详细介绍DataNode安全模式问题的处理方法
IT那活儿
2024-11-28
70浏览
大数据系统设计全指南
大数据系统在当今时代具有至关重要的地位。随着信息技术的飞速发展,数据量呈爆炸式增长,大数据系统成为处理和分析这些海量数据的关键工具。
HMC开源
2024-11-17
118浏览
Spark与Hive的完美结合:如何在Spark上部署Hive
Hive默认使用MapReduce作为执行引擎,即Hiveonmr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为HiveonTez和HiveonSpark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。
ETL敏捷调度Taskctl
2024-11-12
349浏览
揭秘Hadoop集群高效运行的三大关键领域!
在大数据处理项目中,HDFS存储多目录、集群数据均衡和Hadoop参数调优是三个关键的领域,它们对于确保Hadoop集群的高效运行和数据管理至关重要。下面是对这三个领域的更详细的介绍:。HDFSBalancer:使用Hadoop的Balancer工具来自动重新平衡数据块,提高存储效率。对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。这个一般是Yarn的2个配置造成的,单个任务可以申请的最大内存大小,和Hadoop单个节点可用内存大小。总之,HDFS存储多目录、集群数据均衡和Hadoop参数调优是Hadoop项目中的重要环节,需要根据具体的业务需求和集群环境来进行细致的规划和调整。通过合理的设计和优化,可以大大提高Hadoop集群的性能和稳定性,为大数据处理提供坚实的基础。
ETL敏捷调度Taskctl
2024-11-05
110浏览
教育行业PyFlink整合FlinkML机器学习场景实践总结
本文记录如何使用conda构建Python虚拟环境、如何使用PyFlink整合使用FlinkML类库。
大数据从业者
2024-10-28
92浏览
Dinky 可视化读取 Paimon 元数据
本文介绍了Dinky实时计算平台读取ApachePaimon元数据的基本操作。
Dinky开源
2024-10-01
88浏览
数据平台:下一代大数据存储?Ozone
Ozone作为Hadoop的分布式对象存储系统,在大数据存储领域展现出强大的实力。它不仅具有易扩展和冗余存储的特点,还能够存储数十亿个不同大小的对象,为大规模数据存储提供了可靠的解决方案。
码奋
2024-09-28
2浏览
广东电网国产化数据平台替代实践
湖仓的灵活性、扩展性和高效性帮助电网企业更好地挖掘数据价值,实现业务创新和增长。
偶数科技
2024-08-16
244浏览
HBase 实践 | AWS EMR HBase 超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步不停机迁移方案
1.背景介绍本文介绍的演练操作源于某真实案例,用户有一个80TB的HBase数据库,其中有一张超
大数据技能圈
2024-08-13
11浏览
全面介绍 Apache Doris 数据灾备恢复机制及使用示例
引言ApacheDoris作为一款OLAP实时数据仓库,在越来越多的中大型企业中逐步占据着主数仓这样
大数据技能圈
2024-08-09
18浏览
洞见|AI 时代下我们需要怎样的数据基础软件?
一文读懂AI如何影响以湖仓为核心的数据基础设施建设!
StarRocks
2024-07-25
82浏览
字节跳动基于Parquet格式的降本增效实践
小文件合并、列级TTL两大应用场景
字节跳动数据平台
2024-07-25
66浏览
大数据技术概述
简单说就是海量、高增长率和多样化的信息资产。来源不同,格式不同,那么获取的技术肯定也是不同的。数据存储是大数据的基础,但是发展却没有CPU和内存快,这就导致了硬盘储存的速度不够,所以大数据平台的很多调优都是集中在磁盘I/O的调优。这就涉及到了Hadoop的分布式文件系统HDFS和分布式列式数据库HBase,大数据的离线和实时计算:离线计算需要掌握的技术有Hive、SparkCore、SparkSQL、FlinkDataSet;实时计算需要掌握的技术有SparkStreaming和FlinkDataStream。大数据的项目需求以数据为中心,大体会分为以下几个阶段:场景、概念、细节和界面的需求分析。
w83
2024-07-04
66浏览
深入腾讯云TBDS:大规模HDFS集群优化实战
腾讯云TBDS是腾讯大数据能力的私有云产品化,结合内部实践和典型客户的具体情况,对HDFS做了系统的优化。
腾讯云大数据
2024-06-28
99浏览
HBase集群数据在线迁移方案探索
订单本地化系统目前一个月的订单的读写已经切至jimkv存储,对应的HBase集群已下线。由于这个集群目前仍在线上读写,本文从原理和实践的角度探索对HBase集群数据的在线迁移的方案,欢迎大家补充。HBase客户端支持所有常见的DML操作以及DDL操作,即数据的增删改查和表的日常维护等。HBase客户端访问数据行之前,首先需要通过元数据表定位目标数据所在RegionServer,之后才会发送请求到该RegionServer。如果集群RegionServer发生宕机或者执行了负载均衡等,从而导致数据分片发生迁移,客户端需要重新请求最新的元数据并缓存在本地。清理过期日志以及文件,Master会每隔一段时间检查HDFS中HLog是否过期、HFile是否已经被删除,并在过期之后将其删除。HBase中,每个列簇的数据都集中存放在一起形成一个存储单元Store,因此建议将具有相同IO特性的数据设置在同一个列簇中。HBase内部封装了一个名为DFSClient的HDFS客户端组件,负责对HDFS的实际数据进行读写访问。
京东云开发者
2024-06-12
57浏览
近期活动
墨天轮数据库沙龙(行业洞察系列)-轨交核心领域应用实践
05/08 19:30 0人报名
搜索服务统一治理(跨引擎多个集群监控管理、流量管控、服务编排)【Workshop 第一期 -北京站】
05/15 13:30 0人报名
TiDB性能调优最佳实践,这些“绝招”让你事半功倍!5月29日,TiDB vs MySQL线上Meetup第四期,欢迎报名参与!
05/29 19:00 0人报名