一国内客户搭建了Oracle数据库RAC环境,2个服务器节点,一是为了满足业务的高性能要求,一是为了满足业务的连续性。在生产环境中运行了8个月的时间一直很稳定,但后来客户反映出现不能将负载切换到另外一台服务器的情况,并且每周都出现几次,严重影响业务正常进行。客户CTO非常着急,召集了软、硬件厂商一块查找原因、解决问题,厂家派去了技术专家,但3天过去了,各厂家都声称经过详细检查自己的硬件或软件没有什么问题,但问题依然存在。Oracle同事将问题反映到公司,让大家帮忙分析,做管理云的同事建议通过Oracle管理云的Log Analytics分析原因,客户马上同意,将RAC环境的日志信息上传到Oracle管理云(Oracle Management Cloud Service,简称OMC),通过智能化分析,很快出了分析结果,并以图形化展现,其中比较频繁出现的一个error信息是,两台服务器的之间的网络有时会发生闪断,再查看详细信息,是RAC的2台服务器之间用于保持心跳的网络不稳定。客户联系硬件厂家,经检查后发现是用于心跳的一块网卡有问题,更换网卡后,问题顺利解决。

人工几天不能解决的问题,Oracle管理云几分钟就分析出了原因。Oracle管理云为什么如此神奇呢?其中一个重要原因是应用了机器学习的强大能力,Oracle在不同行业的几十万客户的知识积累,机器学习基于这个强大的知识库,进行智能化的分析并将新的问题解决方案添加到这个知识库。有关Log Analytics相关信息,大家可以参考我们以前的文章将日志上传到Oracle 管理云做全面分析。
基于机器学习,Oracle云服务具有了全面自治的能力。Oracle自治服务云的几个典型云服务如下图所示,

自治数据库云,Autonomous Database(简称:ADB),是全球第一款完全自治数据库。

ADB有如下典型特色:
简单
完全自治的Oracle 18c/19c数据库
自动供应、修补和升级
自动备份
自动性能调优
快速
基于Exadata:卓越的性能、可扩展性和可靠性
基于Oracle 数据库关键功能:并行处理、列处理、压缩
弹性
弹性伸缩计算和存储资源,并且无需停机
只需为使用的资源付费
完整
与一整套Oracle 集成云解决方案中的各种业务分析、数据集成和物联网服务直接集成。
自动驾驶—— 成本更低、生产率提高
去除了配置、安全、监控、备份、恢复、故障排除和调优的人工成本
运行时自动升级、打补丁,测试自动化确保变更安全
零停机弹性扩展和收缩计算或存储,按照用量付费
自动安全—— 风险更低
防范外部攻击和内部恶意用户操作
零停机自动应用最新的安全补丁
自动加密所有静态数据
使用预防性控制措施来自动拦截所有数据存储中的数据泄露
数据库客户端使用互相验证的SSL/TLS 1.2 加密连接。
自治修复—— 更高的可用性
自动防止停机,自动消除管理员错误
每个组件都具备高可用性,并且备份完全自动执行。
高达99.995%的可用性,包括计划维护时间在内,每月停机时间少于2.5 分钟
从下图示可以比较直观看出机器学习在自治修复中所起到的关键作用,

ADB根据业务需求可以选择ADW(Autonomous Data Warehouse, 自治数据仓库云)或ATP(Autonomous Transaction Processing, 自治事务处理云),

ADW和ATP的适用场景及特性对比如下,

除了前面介绍的实际业务场景的Oracle管理云融入了机器学习外,还有很多云服务(或产品功能)中融入了机器学习,如,
数据库云服务中的Advanced Analytics
通过机器学习,使用推荐的图表进行数据展现及做趋势预测,

自治数据仓库云中的Oracle Machine Learning SQL Notebooks
Oracle Machine Learning提供了一个为高级SQL用户设计的笔记本式应用程序,并提供交互式数据分析,使您能够基于复杂的分析和数据模型开发、记录、共享和自动化报告。

数据分析云利用机器学习发现数据洞察力
机器学习分析数据以识别数据集中的模式和趋势,以提供直观的见解和增强的统计分析。

从上面的介绍可以看出,Oracle云服务的管理、监控、维护借助于机器学习,实现了全面自治;Oracle云服务的具体功能中,也广泛通过机器学习实现智能化数据分析、展现及趋势预测。
Oracle自治云服务在不断的发展和更新中,相信以后的自治功能将会更加强大和完善。
感谢您的耐心阅读。




