暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

在 PostgreSQL 15 上使用 postgres_fdw 进行事务的并行提交

原创 Bigbig 2022-07-15
1305

像使用另一个本地表一样将来自远程外部数据库的数据使用到我们的本地数据库中是一个很棒的功能,它为数据库解决方案的设计增加了极好的灵活性。

此选项存在于许多数据库产品中。Oracle (DBLINK)、MySQL (FEDERATED Engine),显然 PostgreSQL (dblink, postgres_fdw) 都支持它。PostgreSQL 支持多个外部数据包装器。但在本博客中,我们将回顾在新版本 15 中添加的特定功能 。

postgres_fdw 的工作原理

假设您有一个本地和一个远程 PostgreSQL 服务器。第二个有一个表,您使用本地服务器的应用程序需要访问该表。您可能会想到以下任何一种解决方案:

  1. 将您的应用程序配置为能够连接两个服务器。
  2. 设置一些后台作业以不时地执行复制。
  3. 配置两台服务器之间的逻辑复制,以便本地表与远程表同步。

以上任何一种都有其自身的优点和缺点。对于第一个,您可能需要配置网络并授予两个数据库服务器的访问权限。所有这些可能会增加复杂性并为一些安全问题打开大门。第二个选项将在两台服务器上增加额外的负载。数据不会实时更新,因此可能会发生一些读取不一致的情况。第三个实际上可能是一个不错的选择。但是,如果您打算修改同步数据,那么您可能会遇到一些冲突。

那么解决方案可能会在Foreign Data Wrapper中中继。在官方文档中,从远程 PostgreSQL 服务器访问数据需要以下步骤:

  1. 使用CREATE EXTENSION安装扩展。postgres_fdw
  2. 使用CREATE SERVER创建一个外部服务器对象,以表示您要连接的每个远程数据库。指定连接信息,除了用户和密码,作为服务器对象的选项。
  3. 使用CREATE USER MAPPING为您希望允许访问每个外部服务器的每个数据库用户创建一个用户映射。指定要用作用户映射的用户和密码选项的远程用户名和密码。
  4. 使用CREATE FOREIGN TABLE或IMPORT FOREIGN SCHEMA为您要访问的每个远程表创建一个外部表。外部表的列必须与引用的远程表匹配。但是,如果您将正确的远程名称指定为外部表对象的选项,则可以使用与远程表不同的表和/或列名称。

你会以这样的方式结束:

image.png

所以现在,有了适当的权限,您的应用程序就可以像访问另一个本地表一样访问远程表中的数据,您可以在其上选择甚至执行 DML 语句。

PG15有什么变化?

所描述的功能在 PostgreSQL 版本中已经存在了一段时间,并且将在版本 15 中提供的新增强功能是使用. 当您的解决方案设计依赖于拥有多个远程服务器(例如分布式 PostgreSQL 数据库)时,这尤其有用。 postgres_fdw

从事务管理文档中,我们知道“在引用外部服务器上的任何远程表的查询期间,如果尚未打开与当前本地事务相对应的远程服务器上的事务”,在我们本地的情况下事务引用来自不同外部服务器的多个远程表,然后在每个远程服务器上打开一个(子)事务。postgres_fdw

直到版本 14,当有多个(子)事务绑定到本地事务并且事务在本地提交时,会一一(按顺序)提交每个远程(子)事务。这种行为仍然是版本 15 的默认行为,但现在我们可以选择为每个绑定到本地事务的外部服务器启用该选项,在这种情况下,当本地事务提交时,所有远程(子)事务将提交一次(并行)。 postgres_fdwparallel_commit

实验室案例

我建立了一个实验室来测试顺序和并行远程(子)事务提交并捕捉差异。

我决定使用pgbench工具进行基准测试和为表创建分区的选项,我将这些分区调整为外部表,正如 Percona关于 PostgreSQL 上的 Sharding的非常有趣的博客中所描述的那样,值得一看最后一个。最后,我创建了一个分区表,其中有 70 个分区,分布在 7 台远程服务器上,每台都连接到一台外部服务器。 pgbench_accountspostgres_fdw

下图给出了一些见解。
image.png

Pgbench 执行

为了测试新功能,我尝试了两种不同的负载,禁用选项(默认),然后启用:parallel_commit

我运行“正常”的 pgbench 工作负载。每个事务访问一行,这意味着每个本地事务只打开一个远程(子)事务。
我运行了一个 pgbench“自定义”脚本来检索每个事务 100 行。在这种情况下,每个本地事务都会打开多个远程(子)事务。
针对 PG15 服务器运行常规pgbench 负载不超过:

pgbench --progress-timestamp -c 16 -j 4 -T 3600 -P 2 \
  -h pg15 -U pgbench pgbench

获得结果后,我通过以下方式在每个外部服务器上启用了该选项:parallel_commit

LTER SERVER remote_server<N> OPTIONS (ADD parallel_commit 'true');

并重复 pgbench 加载。结果如下。
image.png

我们发现并行选项设置为 OFF 或 ON 的负载之间没有太大区别。这是意料之中的,因为在常规pgbench 加载中,每个本地事务只打开一个远程事务。

对于第二个测试场景,我使用自定义pgbench 脚本在每个事务上执行 100 行,如下所示:

$ cat pgbench_custom.sql
\set v1 random(1, 100000 * :scale)
\set v2 :v1 + 100

BEGIN;
  SELECT abalance FROM pgbench_accounts
  WHERE aid BETWEEN :v1 AND :v2;
END;

在运行负载之前,我禁用了为每个执行下一个的外部服务器的选项:parallel_commit

ALTER SERVER remote_server<N> OPTIONS (DROP parallel_commit);

然后我以下一个方式运行没有并行提交的自定义加载:

pgbench --progress-timestamp -c 8 -j 4 -T 3600 -P 2 \
  -h pg15 -U pgbench -f pgbench_custom.sql pgbench

然后我使用之前使用的命令在每台外部服务器上启用它并再次运行自定义加载。接下来是结果。

image.png

现在我们看到使用启用的选项时有了明显的改进。当启用该选项时,测试期间 TPS 的数量始终较高,显示了如何提高性能。parallel_commit

总的来说,与常规pgbench 负载相比,TPS 下降了。细节超出了这篇博文的范围,这里的目标是了解如何在类似条件下使用新选项来提高性能。 parallel_commit

结论

PostgreSQL 数据库所具备的功能早已为人所知,并且多种系统设计都利用了这些功能。 postgres_fdw

在 PostgreSQL 15 中使用时添加的新选项为提高我们的数据库的性能带来了一个很好的机会,如果它们被设计为分布式系统并且我们的本地事务将与多个远程(子)事务相关联。每个解决方案和系统设计都需要自己的分析。这篇博文只打算展示新选项,以及我们如何通过启用新选项在相同条件下提供更高的吞吐量。 parallel_commitpostgres_fdwparallel_commit

原文标题:Parallel Commits for Transactions Using postgres_fdw on PostgreSQL 15
原文作者:David Gonzalez
原文地址:https://www.percona.com/blog/parallel-commits-for-transactions-using-postgres_fdw-on-postgresql-15/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论