
近日,在甲骨文全球云大会(Oracle CloudWorld 2022)上,甲骨文公司宣布推出 MySQL HeatWave Lakehouse,这款产品能够帮助客户处理和查询对象存储中数百 TB 量级的数据,支持各种文件格式,包括 CSV、Parquet 以及 Aurora 和 Redshift 备份格式。MySQL HeatWave Lakehouse 是 MySQL HeatWave 产品组合的新产品,能够将事务处理、分析、机器学习和基于机器学习的自动化结合在单一 MySQL 数据库中。
MySQL HeatWave Lakehouse 采用大规模并行横向扩展 MySQL HeatWave 架构,根据行业标准基准测试的结果,在运行查询和加载数据性能方面表现出色。此外,客户可以通过单个查询在 MySQL 数据库中查询事务处理数据,并使用标准 MySQL 语法将其与对象存储中的数据组合。甲骨文还宣布推出新的 MySQL Autopilot 功能,可提高性能并让 MySQL HeatWave Lakehouse 方便易用。MySQL HeatWave 现推出了 Lakehouse 的 Beta 版供客户试用,正式版将于 2023 上半年发布。
甲骨文公司首席企业架构师 Edward Screven 表示:“MySQL HeatWave 是多年研究和开发的成果,我们正在将其转化为突破性创新,以应对 MySQL 客户面临的更大挑战。事实上,MySQL HeatWave Lakehouse 是我们今年就 MySQL HeatWave 的第三个重大发布。存储在数据库之外的数据急剧增长,借助 MySQL HeatWave Lakehouse,客户可以利用 HeatWave 在各方面的优势,处理驻留在对象存储中的数据。MySQL HeatWave 目前在多个云平台上提供一项集成服务,用于事务处理、跨数据仓库和数据湖的分析以及无需数据仓库技术 (ETL) 的机器学习。这样的组合有助于在性能、自动化和成本方面实现大幅度改进,因此进一步加大了 MySQL HeatWave 相较于其他云端数据库服务的优势。”
甲骨文公司还发布了新的 Lakehouse 基准测试,并为 MySQL HeatWave Lakehouse 和 MySQL Autopilot 引入了多项创新功能(自动模式推断、自适应数据采样、自动加载以及自适应数据流),以及覆盖机器学习到 VS 代码插件的多项其他增强功能。MySQL HeatWave 的数据库内机器学习功能也已得到进一步增强,添加了对于预测模型的支持。新的多引擎 Hypergraph 查询优化程序可进一步提高复杂查询的性能,并且不再需要指定联接顺序。
在这之前,甲骨文公司发布了可基于亚马逊云科技 (AWS) 运行的 MySQL HeatWave,以支持开放式的多云基础架构战略。MySQL HeatWave 能够在单一 MySQL 数据库中整合联机事务处理(OLTP)、分析、机器学习和基于机器学习的自动化功能。现在,AWS 用户可以在一个服务中运行事务处理、分析和机器学习工作负载,而无需在不同的数据库之间进行耗时的 ETL 复制,比如在用于事务处理的 Amazon Aurora 和用于分析的 Amazon Redshift 之间,或在用于分析的基于 AWS 的 Snowflake 以及用于机器学习的 SageMaker 之间进行 ETL 复制。
此外,MySQL HeatWave 支持多种云平台,包括 Oracle 云基础设施远程服务 (Oracle Cloud Infrastructure, OCI) 、AWS 和 Microsoft Azure。对于不愿将数据库工作负载迁移到公有云的企业,MySQL HeatWave 可作为 Oracle 专用区域的一部分进行本地部署。客户还可以将数据从本地 MySQL OLTP 应用复制到 MySQL HeatWave,以实现近乎实时的分析。MySQL HeatWave 始终基于新版本的 MySQL 数据库。
借此消息宣布之际,InfoQ 有幸采访到了甲骨文公司副总裁及中国区技术顾问总经理谢鹏博士,请他来和我们聊一聊当下企业全面上云时代,有关云和数据库融合发展的一些话题。
谢鹏博士
甲骨文公司副总裁及中国区技术顾问总经理
InfoQ
现在数据库上云已经成为大家普遍的共识,据 Gartner 预测,到 2023 年全球差不多有 3/4 数据库都会跑在云上,Oracle 该如何应对这一趋势?
“
谢鹏博士
在拉斯维加斯举行的 2022 Oracle CloudWorld 上发布的 MySQL HeatWave Lakehouse (beta) 就是云数据库的扩展。从 MySQL 到 MySQL Cloud Service,再到 MySQL HeatWave,进一步到 MySQL HeatWave Lakehouse 三次发布实现了 MySQL 的三级跳:即先提供了 MySQL 的云服务,接着实现了 MySQL 一个数据库对 OLTP 和 OLAP(联机分析处理)的混合负载支持,现在MySQL HeatWave Lakehouse 使客户可以处理和查询对象存储中数百 TB 量级的数据,支持各种文件格式,包括 CSV、Parquet 以及 Aurora 和 Redshift 备份格式。
回到您提到的数据库上云的趋势,无论从应用层到数据库,还是到基础设施,云计算都是一个非常重要的推动因素和变革因素。首先,从应用层看,如果是 SaaS 平台,其应用一定也是要部署在既定数据库上。第二是从云数据库自身来看,无疑企业级负载向云迁移推动了这个进程。但是如果我们细看一下,这个趋势也非单极和终级的趋势,做为企业的基础设施,都应是多云和混合云环境,我觉得这既是现实也会是常态。混合云即是将公有云、私有云和本地计算统一构建到企业的IT基础架构,通过跨多个架构扩展的Kubernetes 集群实现服务的使用、管理和编排,从而企业能够构建单一、统一且高效的 IT 基础架构。混合云成为大多数商业系统合理的选择,一是公共云和私有云环境的有机结合,二是对既有 IT 投资的利用,三是可以满足合规、安全的需要。对数据库部署来说,混合架构也是现实及合理的选择,尤其对企业级的关键应用更是如此。Oracle 可以高性价比地提供包括公有云、私有云和专属云的混合架构服务,数据库层也是如此。
在总的趋势下,再看差别,进程的差别可以从以下两个方面看:
一是行业的因素。在不同的行业中趋势会不太一样。比如说交通、能源、邮电通讯、供水供电和公共事业,还包括金融,同时还有核心制造业。这些行业有着上述大趋势的情况下,相对来说向云数据库迁移会是审慎的,而且需要有一个成熟的过度阶段。如果以互联网为代表的行业,显然这个趋势是显著的,而且是在加速的。这是所说的行业因素。
二是要看工作负载。向云数据库迁移时, 工作负载(Workload)是什么?如果你要去看事务型的处理,在同样的云化大趋势下,很多企业级的关键型任务(mission critical system)并没有显现大规模迁移。但是如果要去看分析型的事务,YES!也就是 OLTP 和 OLAP 要分开去看,这是从事务负载的角度,但两者又是相辅相成的,有着技术和业务的强关联性。这也是 Oracle 推出 MySQL Heatwave 的意义就在于 MySQL 也支持 OLAP了,在一个数据库实例中实现混合计算负载(HTAP)。简单说 HeatWave 是 MySQL Analytic Engine 服务中的分析执行引擎。
云计算无疑是一个推动变革的因素,这一点是毫无疑问的。但在变革的过程中,就数据库而言,受制于行业因素和负载类型的影响。Oracle 在这个变革趋势中,我们仍然是处于技术领先的位置。Oracle 也及时洞察到技术和需求的趋势,在不断地变革自己。技术研发上,Oracle依托两个主流数据库:Oracle DB 和MySQL,两者近几年都有持续的新功能发布和性能的极致提升。上面提到的HTAP混合负载外,数据库的另一个发展方向是多模,Oracle DB也在积极地去应对市场对多模数据管理的新要求,早已实现单一数据库对多模数据的管理(Single Database with Multiple Models),包括关系型数据、文档数据(Document ,JSON/XML)、键值(Key/Value)图形数据(Graphs)、Free Text (PDF,Doc…) 和空间地理信息(Spatial Data)。进一步,在21c实现了对原生区块链的支持(Native Blockchain Tables)。近日 Oracle 2022 CloudWorld上也透露 Oracle 云基础设施远程服务 (Oracle Cloud Infrastructure, OCI) 支持 MongoDB 兼容的数据库服务即将发布。19c 是 Oracle DB 自 12c 后的成熟、稳定和长期支持的集大成版本,这也是企业紧跟技术变革,分享 Oracle 持续研发投入成果的很好途径。
最后,每个企业都有自身的现状,云变革对一些企业而言是一个旅程,不可能一步到位公有云又如何办呢?Oracle Exadata 专有云数据库一体机 (Oracle Exadata Cloud@Customer, ExaCC) 提供了支持,它可以使企业拥有云底座,方便实现弹性计算能力扩展和自治的运维,又可以保证数据和应用的自主可控。
InfoQ
其实金融行业也算是比较偏传统的行业,但是现在很多金融企业他的数据库也在逐渐上云。金融领域对数据库的要求是非常苛刻的,对高可用、低延迟的要求是非常高的。现在很多企业依然选择上云,他们都把核心系统迁移到了云上,是因为他们认为现在云上的数据库也变得很安全了、高可用了。对这样的趋势您是如何看待的呢?Oracle 是否流失了一部分传统行业的客户?
“
谢鹏博士
您讲的在金融行业观察到的现象,我们也注意到了,的确有这样的情况。金融行业也是我刚才讲的 mission critical 业务较为典型的行业之一,对高可用性,数据的强一致,有着非常高的要求,金融企业上云的态势如果从更细分业务层面去看,就会发现,上云速度比较快的是金融行业中的一些像互联网业务、渠道业务、支付业务这样的领域。但是核心业务和核心系统,相对来讲就非常审慎了。
互联网业务、渠道、会员管理等等,还有在支付方面,它们的业务性质决定了上云的迫切性和合理性。这些变革背后,是技术和需求的叠加有力地驱动了互联网金融的变革,比如说像支付,大家会知道每到不同的购物节,基本上可以说每秒要达到百万级别的交易,所以当强需求遇到对的技术,变革就水到渠成了。
但是在核心业务里面,我们要分解去看,它又呈现出不同的状态。回到 Oracle,金融行业继续是 Oracle 非常重要的领域,许多企业也依然是 Oracle 的重要客户。我们和客户一起会评估并选择对客户是合适的基础设施和平台,包括数据库,一样在上面提到的混合架构下考量。在其核心业务系统的这一块,我们与包括银行在内的许多金融服务企业,以及所有关键业务重要的企业都在紧密合作,而且这个合作在持续深入,已从数据库方面深入到业务连续性和安全方面。
InfoQ
我们看到国内市场差不多有 200 多家数据库厂商,Oracle 是如何看待国内市场这么多家数据库的现象?
“
谢鹏博士
我们要稍微拉开一点看,数据库是属于 IT 中的基础设施的基础之一,而且是非常关键的基础,就像 Database 本身的含义一样。但有时候我们往往忽略对数据库认知的升级。进入数字化时代,当万物皆为数字,历史和现实都要装入数据库的背景下,无论数据和库这三个字的内涵与外延都大大拓展了,数据不仅是原来的数据,库也已不仅是存储和管理数据的集合。因此,数据库自然要被重新定义。依托自治管理(Autonomous)实现融合数据库 (Converged Database) 并进一步实现融合数据平台 (Converged Platform) 就是 Oracle 对变化万千的数据管理挑战的重新定义。
回到您刚才的问题,我觉得这么多款数据库一方面有它存在的合理性和推动力的。当进入了大数据、互联网时代以后,它产生了对数据库分布式的要求。分布式系统的要求来自于互联网对大数据存储、高并发和快响应的需求。当互联网和大数据规模急剧膨胀后,在成本上单机数据库很难承受,所以就需要分布式数据库来分担一些压力,这是一个商业的因素。一个是从市场需求,一个是从商业的因素,这两方面的推动,就产生了很多数据库投资者或者是有很多技术创新的想法进入了数据库投资和研发的市场。它带来的一个好处就是使不同的应用都可以找到更适合它的数据库,从这个角度看是有积极面的。
但从另一个方面看,即刚才说数据库是关键的基础设施之一,这个关键就体现在对高可用性和稳定有极高的要求。在这种情况下,一款数据库能否最终走向商用,才是生存下去的根本。但是如果要迈过商用这条槛,实际上对于数据库来讲,重要的就是你能不能通过长期大量的场景验证,在高可用性和稳定性上面得到验证并有体系性的保证。数据库百家争鸣这个局面是现实,我们也希望能够看到更优秀的数据库产品可以脱颖而出。但是大部分距离成熟化的商用,应该一段路要走。我们要去看过去关系型数据库,实际上发展都有长达五六十年的历史。如果没有这样长时间的沉淀,很难在成熟应用上得到足够的验证。
InfoQ
您之前说过,数据库从研发到走向商用要经过五六十年研发的沉淀,才能最终走向商用。在没有经过很长时间沉淀的时候,这个市场上这样的现象只是一个局面。我们真正能够走向商用,还要再经过几十年的时间来验证这个事吗?我们需要多久才能看到结果?
“
谢鹏博士
产品从研发到投入应用,并不需要几十年的周期。数据库它是在技术和应用场景的不断迭代中发展和进化的,然后再投资、再迭代,再继续成熟和发展。如果我们把产品成熟度打分是从 1 到 5 制,不是说一定达到 5 才可以投入应用。它要看满足不同的场景的成熟读度。而在某特定应用场景下,对数据库的要求就可以取得折中和平衡,或者说在平衡的前提下达到可用。比如,它可能在某些实时分析上做得很好,可能在这个场景中就会被有高性能实时分析需求的客户在这个应用所采用。这也是这么多数据库可以存在的原因,它有各自适合的应用场景。
谈到这里, 必须谈到的一个问题就是, 微服务架构下自带数据库是解决了不同数据库对不同场景的需求满足,但是带来了新的问题,即数据一致性无法完全由数据库保证,而得由服务调用解决数据的共享。构建数据中台的需求即由此而产生,回到了追求 One data, One service。至此,我们可以思考一下这是我们的初衷吗?
InfoQ
是不是我可以理解为,这个数据库能不能商用已经成为了整个数据库市场洗牌的关键,能商用的可能会留下,不能够最终走向商用的可能被淘汰掉?
“
谢鹏博士
这个话题就不是纯技术的话题,我们要从两个角度去看。因为我们从技术的角度,像一些开源的,它总能在开发者社区的参与下不断地去迭代出新版本;但如果从投资的角度和估值的角度去看,需要解决如何平衡开源路线和商业化,一个是精神,一个是未来。
InfoQ
因为现在很多企业出海,大家想去海外淘金。目前有的企业像华为云、阿里云、腾讯云都可以为国内的出海企业提供服务,Oracle 在这上面有没有布局呢?Oracle 相对于其他的厂商有什么区别呢?我们怎么样服务中国客户?
“
谢鹏博士
Oracle 为中国的出海业务提供云服务是非常明确的策略,也是 Oracle 云平台的优势所在。从任务类型看:Oracle 云基础设施远程服务 (Oracle Cloud Infrastructure, OCI) ,既支持Oracle工作负载,也支持 Non Oracle 工作负载。在数据库方面,除支持基于Oracle DB的工作负载、数据湖仓一体和MySQL Heatwave 及 MySQL Heatwave Lakehouse 云服务外,更重要是支持各种云原生的应用和服务,用户可在Oracle 云基础设施远程服务 (Oracle Cloud Infrastructure, OCI) 上构建云原生应用,支持基于标准的 Kubernetes 开源平台。从行业方面,特别聚焦在出海电商, 另外有游戏、HPC 和 IOT 等等。
当国内的业务需要有一个支撑业务全球发展的平台,这个时候云平台实际上方便地满足了原来 On-premise(本地部署)不能达到一些需求。在企业出海时,选择Oracle 云平台有两个主要的好处:第一是我们提供更低的成本让客户去获得所需的云服务且全球一致。第二是提供给企业一个全球合规的云平台和数据的安全保证。
Oracle Privacy Assurance 保护客户的数据主权和管控数据不会离开Trust Boundary,同时,Oracle 云基础设施远程服务 (Oracle Cloud Infrastructure, OCI) 目前在全球已拥有40个数据中心保证更经济、更快速和更合规地扩展海外业务。另外,在双引擎的数据库云服务上(Oracle DB和MySQL Heatwave Lakehouse)可以获得超越其他云厂商的出色性能。同时,面向 Microsoft Azure 的 Oracle 直连服务为企业提供了多云环境(包括 Oracle Exadata 数据库服务、自治数据库和 MySQL Heatwave 等 Oracle 数据库功能)的简单迁移之路。近日发布的 MySQL Heatwave on AWS又将 OLTP、分析、机器学习和基于机器学习的自动化融合到了单个 AWS 实例中。
InfoQ
在这个数字化转型的过程中,您觉得 Oracle 在国内助力企业数字化转型的过程中起到了什么样的作用?
“
谢鹏博士
数字化是一个非常大的题目,而且会比较持久,可能要另谈。这个趋势是不会改变的,且未来已来,整个世界正在向一个数字化的社会演进。现在来讲,我们看到了一些主要的推动的技术因素,包括云、IoT、5G、AI、虚拟现实、实时互动、数字孪生等等。这些都是目前显现出来的一些推动因素,必然还有一些不断新出现的技术会给企业带来很多的新创新方向。不过,具体到一个企业在做未来规划时要更加具体、聚焦。另外,在数字化转型过程中,除了技术,企业要有数字化转型的思维,要建立数字文化,还要培养数字化人才,这些往往是容易忽略的因素。
* 文章修改自 InfoQ 《对话甲骨文副总裁谢鹏博士:全面数智化大背景下,云和数据库该怎样融合发展?》

错过直播,没关系!
11 月 22 日,甲骨文云技术嘉年华将集中本地化的呈现甲骨文全球云大会 (Oracle CloudWorld) 精华内容给大家。届时,甲骨文中国高管和技术大咖将携手本地优秀客户和合作伙伴为您抽丝剥茧深度解读全球云大会中的前瞻技术成果、云战略布局、创新数据库、极简开发,及如何将客户复杂问题简单化的全球经验。
大咖云集,思想碰撞,一起来探索云端精彩实践。
扫码提前关注甲骨文云技术嘉年华

相关文章阅读

走进 OCW | 甲骨文宣佈推出 MySQL HeatWave Lakehouse

点击“阅读原文”,了解更多信息
评论

