目录
产品简介
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
发展历史
Impala项目于2012年10月宣布,其目标是为数据科学家提供SQL接口和商业智能工具。Impala支持多种HDFS文件格式,但它对Parquet进行了优化,Parquet是2013年初发布的一种面向列的文件格式。Impala于2015年12月2日被接受进入Apache孵化器。
产品优势
- Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。
- 省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。
- Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从而省掉不必要的shuffle、sort等开销。
- 通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。
- 用C++实现,做了很多有针对性的硬件优化,例如使用SSE指令。
- 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。
产品功能
- Impala可以根据Apache许可证作为开源免费提供。
- Impala支持内存中数据处理,它访问/分析存储在Hadoop数据节点上的数据,而无需数据移动。
- 使用类SQL查询访问数据。
- Impala为HDFS中的数据提供了更快的访问。
- 可以将数据存储在Impala存储系统中,如Apache HBase和Amazon s3。
- Impala支持各种文件格式,如LZO,序列文件,Avro,RCFile和Parquet。
所属公司
Cloudera
相关资料
官网:http://impala.apache.org
基本属性
产品名称 | Impala |
---|---|
所属国家 | 美国 |
最新版本 | 4.1.0 |
开源地址 | https://github.com/apache/impala |
db-engines得分 | 19.39 |
首发时间 | 2013-01-01 |
模型分类 | 关系型 |
商业模式 | 商业 ,开源 |
许可协议 | Apache v2 |
开发语言 | C++ |
隔离级别 | Read Uncommitted ,Read Committed |
视图 | 虚拟视图 |
表关联方式 | Nested Loop Join ,Hash Join ,Broadcast Join ,Shuffle Join |
索引类型 | 不支持 |
产品架构 | Shared-Nothing |
兼容性
操作系统 | Linux |
---|
其他特性
存储过程 | 支持 |
---|---|
外键 | 支持 |
文档 | https://impala.apache.org/impala-docs.html |
产品首页 | http://impala.apache.org |
厂商
厂商 | Cloudera |
---|---|
官网 | http://impala.apache.org |
用户评价
0
0
相关文章
Impala在数据湖中的性能优化
畅谈Fintech
7次阅读
2023-08-19 13:53:48
大数据Hadoop之——基于Hive的内存型SQL查询引擎Impala(Impala环境部署)
手机用户8105
1145次阅读
2023-04-16 07:04:43
TutorialsPoint impala 教程
yBmZlQzJ
177次阅读
2023-03-21 08:03:42
主流开源分析引擎梳理,看看你最中意谁?
ITPUB
188次阅读
2023-02-02 20:02:48
主流开源OLAP引擎大比拼
侦查一线
2655次阅读
2022-11-04 19:11:44
Impala(时间处理)
超越无限D
2562次阅读
2022-09-20 08:09:35
Impala查询缓慢问题发现与解决
碧茂大数据
897次阅读
2022-09-15 17:09:19
基于Impala的高性能数仓建设实践之虚拟数仓
网易杭州研究院
827次阅读
2022-08-25 09:08:00
Impala ODBC驱动的安装及配置
碧茂大数据
210次阅读
2022-08-09 16:08:38
基于Impala的高性能数仓实践之执行引擎模块
网易杭州研究院
1046次阅读
2022-07-23 08:07:49