暂无图片
数据库的发展和腾讯云分析型数据库TDSQL-A演进,有没有大佬知道具体的?
我来答
分享
暂无图片 匿名用户
数据库的发展和腾讯云分析型数据库TDSQL-A演进,有没有大佬知道具体的?

2

我来答
添加附件
收藏
分享
问题补充
1条回答
默认
最新
暂无图片
腾讯云数据库

1858年,美国企业家菲尔德用4艘巨轮将上万吨电报铜缆铺设到大西洋底,实现了人类第一次洲际通信,当时的传输速率每秒不到1个比特。到了2017年,跨大西洋高速海底光缆成功铺设,每秒可以稳定地传输160Tbit(太比特),比一个半世纪前快了万亿倍。

1946年,世界上第一台电子计算机ENIAC的运算速度为每秒5000次,今天,现有的超级计算机运算速度大都可以达到每秒万亿次以上。

对信息的处理效率提升是人类文明进步的重要路径和推动力量之一。互联网、云计算、物联网的相继诞生,信息技术更加成为推动生产效率的主线。

国际权威机构Statista统计和预测数据指出,到2035年,全球数据产生量增长预计将达到2142ZB(1ZB约1万亿GB))。我们如何从数据爆炸中更快速地获取信息价值,可见将是未来核心竞争力之一。

能够对海量数据进行实时查询分析的底层技术——分析型数据库应运而生。

数据库的发展

随着计算机和网络技术的诞生,数据库最早从 20 世纪 60 年代初诞生。至今,数据库已经发生了翻天覆地的变化。最初,人们使用分层数据库(树形模型,仅支持一对多关系)和网络数据库(更加灵活,支持多种关系)这样的导航数据库来存储和操作数据。20 世纪 80 年代,关系数据库开始兴起,并一直到今天都占据主流的位置。

技术推动社会的发展,社会的需求也在引导技术的前进。随着信息化越来越在社会生产中渗透,信息系统的场景、信息数据的规模、对信息数据处理的时效等各方面,对信息技术提出更多、更高的要求。

到了大数据时代,数据库作为支撑各类 IT 系统架构的基础软件技术,其整个技术形态也随之出现各类新的应用实现,包括大量的 NoSQL 实践,以及存储领域有传统的 B+ Tree、现在的 LSM Tree,和涌现出针对大数据分析场景的数据仓库、分析型数据库等产品,包括行业开源产品,以及互联网公司基于开源产品等改造的数仓、分析型数据库产品。

在这个过程中,腾讯分析型数据库产品也在逐步孵化、打磨。而和行业绑定大数据平台产生的产品不同的是,TDSQL-A从实际需求驱动出发,结合底层数据库的能力,坚持寻求成为一款完善的分析型数据库引擎产品。

腾讯云分析型数据库TDSQL-A演进,源自业务、归于业务

TDSQL-A是TDSQL OLAP能力引擎,主打实时在线数据分析场景。

TDSQL-A是从TDSQL-PG的OLTP引擎发展过来,而2014年的机缘巧合之下,技术团队发现了新技术方向的端倪。“2014年,当时我们接触的一些业务团队,业务本身是OLTP场景,而在使用落地过程中,却发现有些SQL的执行效率不高,深入了解后才发现,其实业务场景里面有相当的复杂分析需求。”TDSQL-A研发负责人jasonysli表示。

jason进一步分析发现,当时腾讯公司内部部分业务对数据库不仅仅要求纯交易型(OLTP)的能力,还需要比如复杂的关联查询、或者按天汇总等偏分析的场景支持。但是这类业务又不至于需要采用类似Hadoop/MapReduce这种纯分析性体系,PostgreSQL比较契合这种场景。因此,从2014年开始,TDSQL-PG数据库(原TBase)团队,基于PostgreSQL开源生态体系,开始正式探索在OLTP型引擎中加入OLAP能力。

而到了2015年,在与外部客户某省公安厅接触中,客户提出一个新的需求,“能不能直接把TDSQL-PG(原TBase V2)用作数据仓库?”

这一下让当时的TDSQL-PG团队犯了难。

从满足客户需求的角度出发,这是必须要做的。然而,当时市场上已经不乏专门针对数据仓库场景的产品,以及互联网云厂商基于开源生态改造的同类产品。

“我们要做一个一样的东西出来吗?在如此成熟的技术领域我们如何才能占有一席之地?”jason思索着。

“数据仓库不是很新的技术,它已经相当的历史。在数据高速增长、云计算、大数据快速发展的当下,业务对在线数据仓库的

需求和以前会有什么不同?”,jason在思考。云计算发展的背景,促使大家在架构设计、技术路线上进行重新的深入思考和研发。

很快,大家逐渐发现,传统数据仓库而言,难以应对超大规模存储的场景,很多系统限制的服务器上限为100到200台,继续扩大规模性能就会遇到瓶颈,这限制了存储的数据规模;其次系统因为架构问题,对高并发的查询扩展性不好,很难应对现在大规模的高并发处理;此外,许多数据仓库产品为了追求数据分析的效能,而舍弃了部分数据库基础能力,如事务的数据一致性保障等。

针对以上问题,TDSQL-PG团队基于在关系型数据库领域的积累,开始进行列式存储、优化器、执行器等核心关键组件的自主研发,布局安全可控的分析型数据库研发,以充分解决未来数据规模暴涨、实时数据查询时效等业务挑战,成为能够经受各类实时在线分析场景的业务考验。这就是后来的分析型数据库——现在的TDSQL-A。

TDSQL-A :支持单体实例百PB级实时查询场景

2021年5月18日,TDSQL-A正式上线腾讯公有云发布,将能力向社会产业更广泛地开放,同时填补了腾讯云数据库产品服务体系中关于分析型数据库产品的空白,助力行业更加高效、低成本推进数字化进程。

全新的全并行无共享架构、具有全自研列式存储引擎、全自研向量化执行引擎、支持行列混合存储,这些特性让其适应于海量OLAP在线分析查询场景,具备强大的海量数据实时分析能力;

全面兼容PostgreSQL语法、高度兼容Oracle语法,同时具备行高安全、高可用、超大规模集群支持和完整事务能力等产品特性;

完整的分布式事务处理能力,可实时保障系统多平面数据全局读一致性、可靠性;

支持多级容灾以及多维度资源隔离,提供强大的多级安全体系,提供完善的企业级管理能力,为用户提供容灾、备份、恢复、监控、安全、审计等全套解决方案;

提供弹性扩缩容能力,适用于 GB ~ 10PB 级的海量 OLAP 场景,是市场领先的企业级分析型数据库引擎产品。

总的来说,TDSQL-A如果说最突出的几个地方,可以说是以下几点,这也是针对未来技术趋势而作出的回应:

支持超大规模存储,达到单数据库集群百PB级以上,相比传统的百TB级架构产品提升1000倍以上。可做到面对2000台服务器以上性能不受影响。

在超大规模存储的基础上,基于扩展性技术,保持OLAP性能能够持续提升。

不舍弃基础数据库底层能力,具备完整的分布式事务能力,能够保障系统全局读一致性。

事实上,在本次公有云发布前,TDSQL-A已经在内部以及腾讯云私有云场景中历经丰富实际场景的检验。随便举几个例子,都是能打的:

在刚刚结束的第七次全国人口普查项目中,TDSQL-A支持了十亿级用户数据,以及海量超级大表关联高并发统计查询的场景要求。从普查开始第一天开始,系统每秒查询率(QPS)就猛增到7万,峰值一举达到了11万左右。项目中涉及的多张超级大表关联高并发统计查询,每张表中存放了超过20亿+条记录。打个比方来说,如果其中一个表单用来存放平均50万字的书籍,可以放下超过1000万本,一个人终其一生也读不完。

还有,和我们日常生活息息相关的文化娱乐和金融政务场景下,TDSQL-A也在默默承受着所有。其中,在数字广东民生政务应用中,TDSQL-A支持系统承载了6000+各类加密表查询,让9300万人办事少跑一趟。在某政务场景下实现亿级记录关联秒级返回,构建起实时点查的智能模型。

结语

TDSQL-A引擎和分布式数据库TDSQL(MySQL/PG)、云原生数据库TDSQL-C两个引擎,组成了完善的企业级分布式数据库产品矩阵体系,可满足未来社会产业的各类数据库需求。

与此同时,也可以分享一个腾讯云数据库的产品服务理念:我们认为,未来数据库还将是全新的抽象接口形态,降低上层应用门槛。

因为,多种多样的引擎产品,在大多数情况下不会独立存在来服务于一个企业或系统。One size fits none。从技术角度看,极致的性能成本与通用性有着天然的矛盾,因此,在多样化场景下,一定会是多引擎共存,充分发挥各种引擎的特点与优势,才能实现极致与通用的兼得。

但是不是作为云数据库服务厂商,我们把这些各类引擎产品都暴露给客户、开发者自行选择呢?从产品服务体验的角度看,必然不是。多模态技术引擎的现状必然对开发者选型带来选型、开发应用上的困难——即如何能够在保证适应不同的场景下,同时获得足够高的性能表现,这也是当前数据库发展面临的一个困境。为了解决这个问题,未来我们希望是不需要用户来进行这些复杂的选择,而是系统基于 AI 智能调度、serverless 等解决方案,来彻底实现多引擎的统一标准化服务。从底层的角度看,未来开发者无需感知具体的产品选型,而比如在做数据分析的时候,系统能够自动帮助调度性能最好、事务交易一致性得到保障的方案。

在此基础上,腾讯云数据库服务还将推动不管是趋势还是交付方式的融合,包括软硬件一体化、私有云与公有云平台融合等多种产品和服务交付方案,能够让客户在敏感业务和运营成本之间实现更加精细化管理。

暂无图片 评论
暂无图片 有用 0
打赏 0
回答交流
Markdown


请输入正文
提交
相关推荐
tdsql水平扩展的原理是什么?影响业务吗?
回答 1
tdsql水平扩展,是由mysqlagent从备机拉取备份,并与主库保持同步。待数据完全同步后,切换路由。切换路由时只有秒级只读影响,之后新增加的节点开始承担业务。两个set共有的数据部分开始慢慢删除
ERROR 658(HY000) : Proxy ERROR: Join internal error: Join on database 'information_schema' is not supported!
回答 1
这个是TDSQL的功能限制
tdsql for mysql最小化配置需要啥配置
回答 3
可以看我这篇博客就好,里面有tdsql的配置https://www.modb.pro/db/1839338685288951808
TDsql安装,赤兔页面创建非分布式实例失败,报错create set failed! because get resource failed: no valuable host!
回答 1
机器资源充足的话,在资管管理页面调大机器的剩余CPU、内存、磁盘剩余数量。
tdsql集群同一set的主备,端口必须是一样的吧?
回答 1
是的,同一set内部实例端口默认都是一样的
tdsql--sharekey 如果不是主键,因为我的主键是UUID,例如根据其他分片规则,例如时间,如何指定分片?
回答 1
可以把pk,shardkey做联合主键
tdsql 当从库不与主库同步了,怎么办呢?
回答 1
看具体什么原因,具体原因具体分析:如果是大事务导致的,主从延时过长,可以优化业务把大事务进行拆分。如果是慢查询导致的,就要对相应的sql进行优化。如果延迟时间过长,或者无法恢复,赤兔操作界面里有一个重
tdsql sharekey 如果不是主键,因为我的主键是UUID,例如根据其他分片规则,例如时间,如何指定分片?
回答 1
可以把pk,shardkey做联合主键
tdsql水平扩容的时候SET1的数据是怎么迁移到SET2上的?
回答 1
建立SET2,dumpSET1全量数据,复制到SET2,然后挂主从,最后切换路由,各自删除切换后不属于本分片的数据
tdsql shard分片后还可以进行分区表吗 ?
回答 2
可以,TDSQLMySQL版目前支持Range和List两种格式的二级分区,具体建表语法和MySQL分区语法类似。https://cloud.tencent.com/document/product/
问题信息
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~