ORA-07445 [kghalp] in 11204 报错处理

原创 lu9up的数据库笔记 2025-02-07

1 说明

月初值班的时候应用反馈跑报表有报错，某个进程出现 No more data to read from socket错误：

这个错误通常与网络连接异常有关，导致数据库无法从socket中读取更多数据。由于该问题影响了报表的生成，因此需要尽快排查并解决。

2 问题分析

2.1 以往经验

依据过往处理类似问题的历史经验，socket 相关报错大多是由网络原因致使连接异常。在以往的案例中，当出现此类 socket 报错时，重跑程序任务通常能够解决问题。这是因为网络的短暂波动或连接的临时不稳定，在重跑程序后，重新建立的连接有可能恢复正常，从而使程序能够顺利执行。

2.2 根因排查

一、检查alert日志

比较有迷惑性的是，因为应用给的程序报错截图没有返回ORA相关错误，一开始以为不是数据库层面的原因，但出于谨慎还是查了alert日志，发现对应时间点有ORA-07445错误：

二、检查trace文件

查看xxx_i2479149.trc文件信息。

11:48:50数据库出现1次报错，进程号是am_balance_solid_999：

相关sql类似如下：

与应用反馈的表一致，5个线程同时执行以上sql，其中一个sql报no data found，对sql在执行计划、索引使用、数据量等方面的情况进行性能分析，确定该 sql 没有性能问题。

call stack信息如下：

从上面call stack可以看出，sql触发了sql monitor，然后在分配内存时报错。

三、查找问题解释

在官网找到相关问题解释，此问题应该是由于 Bug 21157342 - dump on kghalp/_intel_new_memcpy with SQL Monitoring enabled (default)：

由于sql超过5秒触发sql monitor时，sql monitor在分配内存时暂时无法请求到。

可以考虑通过关闭sql monitor功能：

alter system set "_sqlmon_threshold"=0;

或者调大默认的5秒阈值：

--1分钟
alter system set "_sqlmon_threshold"=60;

3 总结

当应用程序遇到 socket 相关问题时，从经验角度出发，可以先建议应用尝试重跑操作。一般情况下，重跑都能够使程序正常运行，解决因网络临时波动等原因导致的问题。
然而，如果该问题频繁出现，或者应用重跑所耗费的时间成本过高，严重影响业务效率时，就必须优先查找问题的根本原因。在此案例中，所遇到的 ORA - 07445 [kghalp] 错误，可以通过关闭 sql monitor 功能或调大阈值的方式去规避。在实际操作中，需要根据业务对性能监控的需求以及系统的实际运行情况，谨慎选择合适的解决方案，以确保系统的稳定运行和业务的高效开展。同时，后续还应持续关注类似问题的出现，建立问题预警机制，以便在问题发生时能够更快速、有效地进行处理。

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

文章被以下合辑收录

oracle（共24篇）

oracle上大分