深入云原生数据库的心脏：一本书读懂分布式数据库底层逻辑

异步图书 2024-12-16

140

关注我们丨文末赠书

Part.1

云原生数据库的心脏

云计算的迅猛发展正在改变传统数据库的管理和应用模式。云数据库以其高可用性、弹性伸缩、安全性等优势，逐渐成为企业数据存储和管理的首选。

分布式数据库是云原生数据库的心脏，负责将海量数据的脉搏跳动转化为有价值的信息流。

分布式数据库通过将数据分散存储在多个节点上，实现了数据的水平扩展和负载均衡，提高了系统的可用性和性能。

Greenplum 以其强大的性能和卓越的技术特点，成为分布式数据库的典型代表。

Greenplum 是一款基于 PostgreSQL 改造的开源数据库，主要用来处理大规模数据分析任务。

它采用了 MPP（大规模并行处理）架构，将数据分布到多个节点上来实现规模数据的存储，并通过并行查询处理来提高性能。

Greenplum 还能够与 Hadoop 和 Spark 等大数据处理平台无缝集成，使得用户可以在 Greenplum 中直接访问和分析存储在 HDFS 中的数据，或者利用 Spark 进行复杂的数据处理和机器学习任务。

《深入浅出 Greenplum 分布式数据库：原理、架构和代码分析》这本书就是基于 Greenplum, 帮助大家深入剖析分布式技术在工业级产品内的实现细节，透彻把握分布式数据库的底层逻辑。

▼点击下方，即可购书

我们现在来学习这本书，吃透强悍的 Greenplum 吧。

Part.2

这样吃透强悍的 Greenplum

《深入浅出 Greenplum 分布式数据库：原理、架构和代码分析》介绍了分布式数据库的基础理论和架构，对 Greenplum 进行了源码级的剖析，还探讨了数据库的发展趋势。本书可以分为三个部分，我们来具体学习。

01基础原理

这部分首先介绍了数据库的历史和发展，探讨了云计算对数据库的挑战以及云原生数据库的特点。

然后深入介绍了分布式数据库的基础理论和架构，包括经典的 CAP 理论、一致性算法和典型的分布式数据库技术（OLTP/OLAP/HTAP）。

CAP 理论

对于并发控制，详细介绍了基于锁的并发控制、基于时间戳的并发控制、基于验证法的乐观并发控制、MVCC 技术以及快照隔离技术等关键概念。

这些内容为理解 Greenplum 的实现提供了坚实的理论支撑。

02深入剖析Greenplum

这部分先是概述了 Greenplum 的总体架构，包括数据库通信协议和核心引擎。接着详细讨论了分布式事务的实现，包括事务隔离、两阶段提交，对 PostSQL 事务处理和状态机进行了细致说明。

Greenplum 内部逻辑

探讨了分布式计算的实现，涉及 Greenplum 的执行计划、运算执行器的算子、分布式快照、共享内存、哈希和重分布等内容。分析了分布式存储的实现，包括数据分布方式、高可用性和外部表存储。

这部分通过深入代码层级的分析，使读者能够理解分布式理论在工业实践中的应用。

03数据库和新技术

这部分先介绍了 Greenplum 在云原生数据库方面的尝试，以及 VMware 多云战略对 Greenplum 的影响。探索了 NVM 存储技术、虚拟化技术和容器等新技术给数据库带来的机遇。

Snowflake 的软件架构

这部分内容使读者能够把握数据库技术的最新发展趋势，并思考如何在新技术的推动下优化和发展数据库系统。

吃透了强悍的 Greenplum，你对云数据库的未来已经有了强大的把握。那么，在云计算及大数据领域，还有不少彪悍的数据库相关产品，而且我国的开源数据库系统表现也非常抢眼，我们来继续深入探索它们吧。

Part.3

深入云计算数据处理，还有更多好书

▼点击下方，即可购书

流式处理实时地处理一个或多个事件流。事件流是无边界数据集的抽象表示，具有有序、不可变和可重放的特点。这些事件流可以代表各种业务活动，例如信用卡交易、股票交易等。

《流式系统》这本书汇集了 Tyler Akidau、Slava Chernyak、Reuven Lax 三位专家的智慧。本书理论高度概括，讲解流式处理最核心的概念、特性、设计和方法。

书中内容可分为两大部分：

第一部分以 Beam 模型为核心，深入探讨了批处理与流处理数据模型，包括奠定流处理的基本概念，定义专业术语，评估流系统的功能，区分处理时间和事件时间，以及研究常见的数据处理模式等。

还阐释了处理乱序数据的核心概念，利用动画展示时间维度。探讨时间进度的度量、方法及其在流水线中的传递方式，并剖析实际案例中的水位线应用，延续对高级窗口技术和触发器的讨论。

第二部分深化了概念讨论，专注于 “流与表” 的流处理思维模式。阐释流和表的基本概念，构建普适的流表理论。探讨引入持久状态的动因，考察关系代数和 SQL 中的流式含义，对比 Beam 模型与经典 SQL 在表和流设计上的倾向，提出将流式语义整合入 SQL 的途径。

研究多样的连接类型及其在流式上下文中的行为，关注时间有效性窗口这一场景。最后纵览 MapReduce 数据处理系统家族的重大历史，探讨推进流式系统发展的重要贡献。

本书配套资源丰富，书中介绍的许多概念都配有详细的动画，且提供了代码和伪代码示例来阐明关键点。

书中提供有本书全部代码的 GitHub 链接地址。此外，还提供了书中动图、中文版全书彩图以及流式系统等免费资源。

大数据系统爱好者、相关专业学生、数据工程师、数据科学家和开发人员等，都可以在书中收获宝贵的知识与经验。

▼点击下方，即可购书

Apache ShardingSphere 是 Apache 顶级开源项目，它解决了云原生数据库管理的难题。

该项目社区活跃，目前在 GitHub 星标超过 19.8k，它提供了标准化的数据分片、分布式事务和数据库治理功能，适用于多种应用场景。

本书从理论入门到安装应用可以分为三部分。读者在学习前要预备一些基础知识，包括了解数据库产品的基本操作，会使用 SQL 语言。

第一部分先是说明了数据库管理系统（DBMS）在现代生产环境中面临的挑战，以及数据库开发人员角色的演变。通过深入探讨 DBMS 的未来发展方向，读者可以了解到 ShardingSphere 生态及其核心概念。

书中还详细介绍了 ShardingSphere 的架构，包括其分布式数据库架构、Database Plus 理念、部署架构和插件平台，为读者提供了坚实的理论基础。

第二部分专注于 ShardingSphere 的安装与配置。该部分详细介绍了 ShardingSphere-JDBC 和ShardingSphere-Proxy 的安装步骤，以及如何配置它们以满足不同的应用场景。

无论是通过二进制包、Docker，还是通过 YAML 配置，读者都可以获得清晰的指导，确保能够顺利地在现有基础设施中部署和配置ShardingSphere。

第三部分重点介绍 ShardingSphere 的应用与测试。书中介绍了利用 ShardingSphere 进行分布式数据库解决方案的构建、数据库安全加固、全链路监控和数据库网关配置，还提供了丰富的测试场景，包括分布式数据库、读写分离、影子库等。

作为权威指南，本书理论基础非常扎实，详细解释了分布式数据库的核心技术和概念，提供了对 ShardingSphere 工作原理的深入分析。

本书内容全面，涵盖了 ShardingSphere 生态中几乎所有关键的技术点。

作者团队将书中所有代码发布在 GitHub 平台上，并且对代码保持更新，确保读者能够获取到最新的技术资源。读者在书中可以找到 GitHub 代码示例地址。

想要简化数据库管理且专注于业务的开发人员，寻求强大分布式数据库管理解决方案的 DBA、计算机科学、软件工程等相关专业的学生和研究人员，以及感兴趣的朋友们，都可以从这本书中收获宝贵的知识与应用技能。

▼点击下方，即可购书

openGauss 是一款由华为公司基于多年数据库领域研发经验开发的开源数据库产品，专为企业级场景需求设计。

它以其高性能、高可用性和高安全性的特点，在数据库领域占据了重要的地位。

openGauss 支持广泛的企业级功能，包括分布式架构、高并发处理，以及丰富的数据类型和存储引擎，使其成为企业数据管理和分析的理想选择。

本书全面深入地介绍了基于 openGauss 数据库进行开发的过程。

内容涵盖了 openGauss 数据库的安装配置、体系结构、运行机制、GUC参数、用户管理和审计、数据类型、表和索引、SQL基础、常用函数、过程化 SQL 程序设计，以及数据库的备份与恢复等多个方面。

书中的内容由浅入深，逐步引导读者学习从 openGauss 的基础知识到高级应用，适合不同层次的读者学习和参考。

本书的特点是结构清晰、案例丰富，不仅提供了 openGauss 数据库的理论知识，更重要的是通过大量的实战案例，使读者能够将所学知识应用于实际工作中。

对于初学者来说，本书提供了一个全面的入门指南；对于有经验的专业人士来说，它则是一个强大的参考手册，能够帮助他们在实际工作中解决复杂的数据库问题。

数据库管理员、程序开发人员和系统架构师等，都可以从书中深入了解 openGauss 数据库的运行机制，提升自己在数据库开发和管理方面的技能。

▼点击下方，即可购书

在应用广泛的物联网以及工业互联网环境中，有着大量的实时数据，而且数据格式复杂，谁能做好实时数据的处理，谁就能得天下。

TDengine 就是一款世界级水准的国产开源时序大数据平台，目前在 GitHub 上已经获得 23.4k 星标。

TDengine 是专为处理时间序列数据而设计的高性能时序数据库。它不仅能够应对数据采集的复杂性，还能提供高效的数据存储和实时分析能力，使其成为 AI 时代的数据发动机。

本书从理论至实践，由浅入深地阐述了 TDengine 的基本知识、运维管理、技术内幕以及行业应用。书中知识可以分为五部分来学习。

第一部分是基础知识，对于零基础小白来说，要在这一步掌握时序数据的基础知识，知道 TDengine 的核心特性，包括数据模型、数据写入、数据查询、数据订阅和流计算等。

第二部分是运维管理，主要是TDengine 的功能使用与配置。书中详细介绍了 TDengine 的日常运维管理，包括安装部署、资源规划、图形化管理、数据安全等关键内容。

第三部分深入讲解如何利用 TDengine 进行应用开发，介绍了包括 Java 在内的多种编程语言的连接器使用、订阅数据方法，以及使用 C 语言与 Python 开发自定义函数等高级功能，并说明 TDengine 与 Grafana、Power BI 等第三方工具的集成方法。

第四部分是透彻理解核心技术原理，这是全书的关键内容，书中揭示了 TDengine 的内核设计，详细介绍了从分布式架构到存储引擎、查询引擎、数据订阅，再到流计算引擎的知识。

第五部分是实践案例，书中精心挑选了一系列典型应用场景案例，包括车联网、新能源、智慧油田、智能制造、金融等领域，展示了 TDengine 在实际业务中的具体应用。

本书讲透了 TDengine 的核心设计，深入剖析其架构设计，包括分布式架构、存储引擎、查询引擎、数据订阅和流计算引擎等，使读者能够洞察其内部工作机制。

TDengine 的核心功能的代码已经在 GitHub 上开源，读者可以直接下载，结合书中的示例学习，加深对 TDengine 实践操作的理解。并且 TDengine 拥有活跃的社区，读者在学习过程中遇到问题，在社区里都能得到热心的解答。

需要使用 TDengine 进行大数据处理的开发者、架构师和产品经理等技术人，都可以通过本书掌握核心知识，解决工作中的实际问题。

读透这些数据库技术领域的权威经典书，就能在云计算时代轻松玩转数据！

—END—

分享你对分布式数据库的理解

在留言区参与互动，并点击在看和转发活动到朋友圈，我们将选1名读者获得e读版电子书1本，截止时间12月30日。

分布式数据库大数据 greenplum 云数据库关系逻辑

文章转载自异步图书，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

深入云原生数据库的心脏：一本书读懂分布式数据库底层逻辑

评论