暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
HBase简介.pdf
114
9页
3次
2023-06-18
免费下载
HBase 简介
1.Hbase 起源
HBase 是一个开源的非关系型分布式数据库,它参考了谷歌的 BigTable 建模,
现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行
HDFS 文件系统之上,Hadoop 提供类似于 BigTable 规模的服务。因此,
可以容错地存储海量稀疏的数据。
HBase 是一个高可靠、高性能、面向列可伸缩的分布式数据库,是谷歌 BigTable
的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase 的目标是处
理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过
10 亿行数据和数百万列元素组成的数据表。
1.1 关系数据库已经流行很多年,并且 Hadoop 已经有了 HDFS MapReduce,
什么需要 HBase?
Hadoop
线
HadoopMapReduce
编程框架的高延迟数据处理机制,使得
Hadoop
无法满足大规
数据实时处理应的需求。
HDFS
面向批量访问模式,是随机访问模式。
传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题
(分库分表也不能很好解决)。
传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间。
1.2HBase 与传统的关系数据库的区别主要体现在以下几个方面:
1
、数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式,
HBase
则采用了更加简单的数据模型,它把数据存储为未经解释的字符串。
2
数据操作关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接
HBase
操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等
因为
HBase
在设计上就避免了复杂的表和表之间的关系。
3
存储模式:关系数据库是基于行模式存储的。
HBase
基于列存储的,每个列族
都由几个文件保存,不同列族的文件是分离的
4
数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访
问性能。
HBase
只有一个索引
——
行键通过巧妙的设计,
HBase
中的所有访问方法,
或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来。
5
数据维护:在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧
值,旧值被覆盖后就不会存在。而在
HBase
中执行更新操作时,并不会删除数据旧
的版本,而是生成一个新的版本,旧有的版本仍然保留。
6
、可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,
HBase
BigTable
这些分布数据库就为了实现活的水平发的,能
轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。
2.Hbase 访问接
image.png
3.Hbase 数据模
Hbase 是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限
定符和时间戳。
每个值是一个未经解释的字符串,没有数据类型。用户在表中存储数据,每一行都
有一个可排序的行键和任意多的列。
表在水平方向由一个或多个列族组成,一个列族中可以包含任意多个列,同一个列
族里面的数据存储在一起。
列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义列的数量以及
类型,所有列均以字符串形式存储,用户需要自行进行数据类型转换。
HBase
中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧
的版本仍然保留(这是和
HDFS
只允许追加不允许修改的特性相关的)
of 9
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜