暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片
兼容DB2和Oracle的Hadoop引擎Inceptor.pdf
146
6页
0次
2024-08-15
10墨值下载
Transwarp Inceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,基于Hadoop
Spark技术平台打造,加上8大创新的功能组件,有效的解决了企业级大数据数据处理和分析的各种技术
难题,帮助企业快速的构建和推广数据业务。
Transwarp Inceptor提供完整的SQL支持,支持主流的SQL模块化扩展,兼容通用开发框架和工具,支
持事务特性保证数据的准确性,允许多租户的隔离与管理,能够利用内存或者SSD来加速数据的读取,
支持与关系型数据库实时对接并做统计分析,辅以高性能的SQL执行引擎,从而能够给企业提供高性价
比和高度可扩展的解决方案。
SQL编译器 SQL 2003 Compiler
企业级数据仓库、数据集市等应用大多基于SQL来开发,而Hadoop业界的产品大部分对SQL的兼容程序
比较差,或者不支持SQL的模块化扩展,因而应用迁移的成本非常高,甚至是不具备可行性。
为了降低应用迁移成本,Transwarp Inceptor开发了完整的SQL编译器,支持ANSI SQL 92SQL 99
, 并且支持ANSI SQL 2003 OLAP核心扩展,可以满足绝大部分现有的数据仓库业务对SQL的要求,方
便应用平滑迁移。
除了更好的SQL语义分析层以外,Inceptor包含强大的优化器保证SQL在引擎上有最佳的性能。Inceptor
包含3级优化器:首先是基于规则的优化器,应用静态优化规则并生成一个逻辑执行计划,其次是基于成
本的优化器,通过衡量多个不同执行计划的CPUIO和网络成本,来选择一个更合理的计划并生成物理
执行计划;最后是代码生成器,对一些比较核心的执行逻辑生成更高效的执行代码或者Java Byte
Code,从而保证SQL业务在分布式平台上有最佳性能。
存储过程编译器 PL/SQL Compiler
国内现有的数据仓库应用大都基于SQL 2003,而且大量使用存储过程来构建复杂应用。因此除了SQL
译器以外,Transwarp Inceptor还包含存储过程编译器用于对存储过程的编译和执行。
Inceptor支持Oracle PL/SQL DB2 SQL PL两大主流SQL标准,包括完整的数据类型、流程控制、
Package、游标、异常处理以及动态SQL执行,并且支持在存储过程中做高速统计,增删改查与分布式
事务操作。因此,有了存储过程编译器的补充,Inceptor可以满足绝大部分数据应用的从关系型数据库
Inceptor平台的迁移。
除了SQL语法层面的支持,存储过程编译器包含一个完整的优化器,包含CFG OptimizerParallel
Optimizer,和DAG OptimizerCFG Optimizer对存储过程中的代码进行优化,完成循环展开,冗余代
码消除,函数内联等主要优化。Parallel Optimizer将一些原本串行的逻辑做并行化处理,利用集群的
计算能力来提高整体执行速度,对一些关键的功能如游标的性能提升非常明显。DAG Optimizer会根
据生成的DAG图二次优化,生成更合理的物理执行计划,重点降低了shuffle等任务开销。
为了有效的和其他数据库兼容,Inceptor支持通过不同的方言设置来隔离不同的SQL标准之间的差异,
从而避免数据计算和处理标准的二义性,因此保证数据处理的正确性。
事务管理单元 Transaction Manager
为了更好的满足数据仓库业务场景的需求,Inceptor提供完整的增删改SQL支持,允许从多数据源中加
工数据。同时为了有效的保证数据处理的准确性,Inceptor提供了分布式事务的支持,保证了处理过程
中数据的ACID,即原子性、一致性、隔离性和持久性。
Inceptor支持以Begin Transaction启动事务,以commit或者rollback来结束事务。事务管理单元通过两
阶段封锁协议和MVCC来实现一致性和隔离性的控制,支持Serializable Snapshot Isolation隔离级别,
因而可以保证并*况下的事务一致性。
Inceptor支持SQL 2003中关于增删改查部分的语义规范,支持InsertUpdateDeleteTruncate以及
Merge Into原语,支持单条或者从其他数据表以及嵌套查询中更新数据表,并且内置一致性检查功能以
防止非法改动。
通过SQL编译器的优化,增删改SQL执行计划通过分布式引擎在集群中并发执行,系统整体的吞吐率能
够达到关系数据库的数倍,能够满足批处理业务的高吞吐率要求。另外,通过合理的资源规划,
Inceptor在做数据的增删改的同时,允许租户对数据做高速的统计分析。
分布式内存列式存储 Holodesk
了加速交互式分析的速度,Inceptor推出了基于内存或者SSD的列式存储引擎HolodeskHolodesk将数
据在内存或者SSD中做列式存储,辅以基于内存的执行引擎,可以完全避免IO带来的延时,极大的提高
数据扫描速度。
除了列式存储加快统计分析速度,Holodesk支持为数据字段构建分布式索引。通过智能索引技术为查询
构建最佳查询方案,Inceptor可以将SQL查询延时降低到毫秒级。
Holodesk允许用户对多字段组合构建OLAP-Cube,并将cube直接存储于内存或者SSD上,无需额外的
BI工具来构建Cube,因此对于一些复杂的统计分析和报表交互查询,Holodesk能够实现秒级的反应。
除了性能优势,Holodesk在可用性方面也表现出色。Holodesk的元数据和存储都原生支持高可用性,
通过一致性协议和多版本来支持异常处理和灾难恢复。在异常情况下,Holodesk能够自动恢复重建所有
的表信息和数据,无需手工恢复,从而减少开发与运维的成本,保证系统的稳定性。
Inceptor重点优化了基于SSDHolodesk性能,使得基于PCIE SSD的性能达到全内存的方案的80%
上。因此结合使用低成本的内存/闪存混合存储方案,可接近全内存存储的分析性能,保证解决方案的高性
价比。
of 6
10墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜