暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

ORA-07445 [kghalp] in 11204 报错处理

原创 lu9up的数据库笔记 2025-02-07
81

1 说明

月初值班的时候应用反馈跑报表有报错,某个进程出现 No more data to read from socket错误:

这个错误通常与网络连接异常有关,导致数据库无法从socket中读取更多数据。由于该问题影响了报表的生成,因此需要尽快排查并解决。

2 问题分析

2.1 以往经验

依据过往处理类似问题的历史经验,socket 相关报错大多是由网络原因致使连接异常。在以往的案例中,当出现此类 socket 报错时,重跑程序任务通常能够解决问题。这是因为网络的短暂波动或连接的临时不稳定,在重跑程序后,重新建立的连接有可能恢复正常,从而使程序能够顺利执行。

2.2 根因排查

一、检查alert日志

比较有迷惑性的是,因为应用给的程序报错截图没有返回ORA相关错误,一开始以为不是数据库层面的原因,但出于谨慎还是查了alert日志,发现对应时间点有ORA-07445错误:

二、检查trace文件

查看xxx_i2479149.trc文件信息。

11:48:50数据库出现1次报错,进程号是am_balance_solid_999:

相关sql类似如下:

与应用反馈的表一致,5个线程同时执行以上sql,其中一个sql报no data found,对sql在执行计划、索引使用、数据量等方面的情况进行性能分析,确定该 sql 没有性能问题。

call stack信息如下:

从上面call stack可以看出,sql触发了sql monitor,然后在分配内存时报错。

三、查找问题解释

在官网找到相关问题解释,此问题应该是由于 Bug 21157342 - dump on kghalp/_intel_new_memcpy with SQL Monitoring enabled (default):

由于sql超过5秒触发sql monitor时,sql monitor在分配内存时暂时无法请求到。

可以考虑通过关闭sql monitor功能:

alter system set "_sqlmon_threshold"=0;

或者调大默认的5秒阈值:

--1分钟 alter system set "_sqlmon_threshold"=60;

3 总结

当应用程序遇到 socket 相关问题时,从经验角度出发,可以先建议应用尝试重跑操作。一般情况下,重跑都能够使程序正常运行,解决因网络临时波动等原因导致的问题。
然而,如果该问题频繁出现,或者应用重跑所耗费的时间成本过高,严重影响业务效率时,就必须优先查找问题的根本原因。在此案例中,所遇到的 ORA - 07445 [kghalp] 错误,可以通过关闭 sql monitor 功能或调大阈值的方式去规避。在实际操作中,需要根据业务对性能监控的需求以及系统的实际运行情况,谨慎选择合适的解决方案,以确保系统的稳定运行和业务的高效开展。同时,后续还应持续关注类似问题的出现,建立问题预警机制,以便在问题发生时能够更快速、有效地进行处理。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论