暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
Hbase简介.docx
120
6页
4次
2023-05-31
免费下载
HBASE 简介
1. Hadoop
1970 年开始,大多数的公司数据存储和维护使用的是关系型数据库。
大数据技术出现后,很多拥有海量数据的公司开始选择像 Hadoop 的方式来存储海量
数据。
Hadoop 使用分布式文件系统 HDFS 来存储海量数据,并使用 MapReduce 来处理。
Hadoop 擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。
2. Hadoop 的局限
Hadoop 主要是实现批量数据的处理,并且通过顺序方式访问数据。
要查找数据必须搜索整个数据集, 如果要进行随机读取数据,效率较低。
3. HBase NoSQL
NoSQL 是一个通用术语,泛指一个数据库并不是使用 SQL 作为主要语言的非关系型
数据库。
HBase BigTable 的开源 java 版本。是建立在 HDFS 之上,提供高可靠性、高性
能、列存储、可伸缩、实时读写 NoSQL 数据库系统。
HBase 仅能通过主键(row key)和主键的 range 来检索数据,仅支持单行事务。
主要用来存储结构化和半结构化的松散数据。
Hbase 查询数据功能很简单,不支持 join 等复杂操作,不支持复杂的事务(行级的事
务),从技术上来说,HBase 更像是一个「数据存储」而不是「数据库」,因为
HBase 缺少 RDBMS 中的许多特性,例如带类型的列、二级索引以及高级查询语言等。
Hbase 中支持的数据类型:byte[]
Hadoop 一样,Hbase 目标主要依靠横向扩展,通过不断增加廉价的商用服务器,
来增加存储和处理能力,例如,把集群从 10 个节点扩展到 20 个节点,存储能力和处
理能力都会加倍。
HBase 中的表一般有这样的特点
大:一个表可以有上十亿行,上百万列
面向列:面向列()的存储和权限控制,列()独立检索
稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。
4. HBase 应用场景
4.1 对象存储
不少的头条类、新闻类的的新闻、网页、图片存储在 HBase 之中,一些病毒公司的
病毒库也是存储在 HBase 之中。
4.2 时序数据
HBase 之上有 OpenTSDB 模块,可以满足时序类场景的需求。
4.3 推荐画像
用户画像,是一个比较大的稀疏矩阵,蚂蚁金服的风控就是构建在 HBase 之上。
4.4 时空数据
主要是轨迹、气象网格之类,滴滴打车的轨迹数据主要存在 HBase 之中,另外在技
有大一点的数据量的车联企业,数据都是存在 HBase 之中。
4.5 CubeDB OLAP
Kylin 一个 cube 析工具底层的数据就是存储在 HBase 之中,不少自己基
离线构建 cube 存储在 hbase 之中,满足在线报表查询的需求。
of 6
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜