暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据库管理-第253期 SACC:对齐概念(20241019)

原创 胖头鱼的鱼缸 2024-10-19
140

数据库管理253期 2024-10-19

数据库管理-第253期 SACC:对齐概念(20241019)

作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Pro: Database(Oracle与MySQL)
PostgreSQL ACE Partner
10年数据库行业经验,现主要从事数据库服务工作
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP、年度墨力之星,ITPUB认证专家、专家百人团成员,数盟会长老会成员,OCM讲师,PolarDB开源社区技术顾问,HaloDB外聘技术顾问,OceanBase观察团成员,青学会MOP技术社区(青年数据库学习互助会)技术顾问
圈内拥有“总监”、“保安”、“国产数据库最大敌人”等称号,非著名社恐(社交恐怖分子)
公众号:胖头鱼的鱼缸;CSDN:胖头鱼的鱼缸(尹海文);墨天轮:胖头鱼的鱼缸;ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭

演示文稿1_01.png
今天在成都,成功举办了有ITPUB举办的2024SACC中国系统架构师大会成都站活动,本人有幸受邀参与其中,在上午协助会务组打杂,中午宴席期间还成为了首批数据库联盟专家委员会(数盟会)的长老会成员,数盟会西南区成立,其他地区正在筹建。
836ca9f999b4e7e2f5b5bc92df36d41.jpg
8cf14e86dac86cc28980f1ae61b1cd9.jpg
在下午的『数据管理』专场中,则是我担任主持人,本期文章的主题内容发生在最后的闭门圆桌讨论阶段的第三个讨论议题,即“对于多源异构数据的存储,分布式比集中式是否更有优势?”。

1 带偏

image.png
其实这个议题是带有一点倾向性的,分布式是否更有优势。但是从进入这个议题一开始我就似乎把议题带偏了,首先提出了一个问题,什么是分布式,什么是集中式。
现场我举了一个对比的例子,以比较出名原生分布式数据库:存算一体分布式数据库OceanBase和存算分离分布式数据库TiDB为例。OceanBase需要对表数据进行横向拆分即数据分片;而TiDB则是存储分布式,客户端连接到TiDB节点是不需要考虑数据分布的,对于应用来说就是和传统集中式数据库一样的。那么对于数据库的数据使用者来说,OceanBase就是一个比较纯粹的分布式数据库,而TiDB则更像一个非传统的集中式数据库。
然后又举了个例子,以Oracle RAC为例,很多人理解的需要的共享存储,是集中式存储,但是只要是能够共享使得左右RAC节点能够访问到的存储RAC即可使用,那么分布式存储RAC也是可以使用的。这里又不得不提到Oracle Exadata一体机,它的存储就是高性能多副本分布式存储。那么对于大多数人来说,即便是运行在Exadata中的RAC集群,也会看作是一个集中式数据库。
我的这两个例子就成功将话题带偏了,来到了讨论什么是分布式,什么是集中式上面了。

2 Scale-Up/Out

Scale-Up(纵向扩展)和Scale-Out(横向扩展)是IT架构中很常见的两个概念,在现场的讨论中,来自于OPPO的DBA负责人刘晓军老师也提出了他的观点,讨论集中式和分布式数据库,需要先对齐其概念,对齐概念之后才能更加深入讨论。刘老师也提出他的观点:一个能够Scale Up的数据库架构是集中式,而能够Scale Out的则是分布式。
那么还是回到Oracle RAC架构,RAC节点(计算节点)是可以通过增加节点来增加计算能力的。如果是使用集中存储来当做共享存储,那么存储机柜是可以并联扩展的,IO能力也能随之扩展;同理分布式存储也能扩展。但是为什么还将RAC看作集中式数据库呢,讨论中大家就提出了另一个论点,Oracle RAC架构节点多了之后成本上升更加明显(除服务器、网络成本外,存储扩展成本是非常可观的,而且IO提升往往还需要已有服务器的一定扩展,这个则回到了Scale-Up)。而能够Scale-Out的分布式数据库,仅需增加对应服务器即可实现扩展,成本也仅限于服务器成本(偶尔会出现一些网络成本),从这个角度来看,TiDB就算是分布式数据库了。
但是Scale Out也并不是能够无限扩展的,也不可能无限扩展,这不仅仅受限于网络传输规模与链路复杂度,也体现维护的难度上,毕竟稍微复杂一点的数据库架构,技术实力稍微差一点就很难把控了,更别说海量服务器规模的数据库集群了。

3 从实际出发

作为主持人,我还是继续“带偏”节奏,我认为,如果一个企业数据量不大,那么使用单机数据库加上主备也能满足性能、高可用等方面的需求;还有一点就是,一些数据的结构,比如我常说的有海量数据量的树形网状结构的数据,并且上下级关系是可能是实时变化的,这种就天生不适合数据分片,但这种数据在硬件规格好一点的RAC(包括使用分布式存储的)上能跑的不错,相信在良好的应用设计下类似的架构也能解决问题。
讨论中,大家认为,无论集中式和分布式数据库是怎样判定的,数据库是要与业务需求和数据结构特性相匹配的。在一些业务相对单一,数据关联性较少(几乎是点查类业务)且压力比较大的业务中,使用基于表分片的分布式数据库就很适合。

4 瞎扯一下

在这里呢瞎扯一下,我在第251其中讲了下NUMA,其实仔细想一想,现代的多核心CPU,特别是AMD的多CCD架构中,一个CPU socket内是不是也是分布式的。而我们现在讨论的分布式数据库,算不算是将本来在CPU内部或跨Socket的在电路中的数据交互换到了网络上。

总结

对齐概念,才能厘清一些事情。
老规矩,不知道些了些啥。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论