KB 122160 通用方案:pai 集群容器产生僵尸进程的修复方法
1. 概述
本文主要介绍专有云环境中,pai 集群容器产生僵尸进程的修复方法。
1.1. 适用范围
专有云 V3,云监控
说明:
o 仅适用于专有云 V3.8 以下版本,不包含专有云 V2 版本。
o 专有云 V3.8.0 的 Hotfix 已经彻底修复此问题。
1.2. 风险说明
重启容器时,需要灰度重启,每个容器重启后都要确认到达终态,再重启下一个容器,这
样操作风险低。
1.3. 用户告知
参见本文内容时,请注意以下两点:
超过或包含 200 个僵尸进程则是大量僵尸进程的情况,少于 200 个僵尸进程则是
没有大量僵尸进程的情况。
本方案为临时解决方法,最终解决方法需要等待 Hotfix。
2. 问题描述
pai 集群 PaiJcs#服务角色的 pai_jcs 容器和 PaiCap#服务角色的 pai_cap 容器产生大量僵
尸进程,导致宿主机无法创建新的进程,影响宿主机上其他容器。如果发现有 pai_jcs 和
pai_cap 容器,则按照以下临时解决方法,修复并预防问题,具体方法请参见实施步骤。
宿主机有大量僵尸进程的情况:先重启容器,然后修改容器内计划任务。
宿主机没有大量僵尸进程的情况:修改容器内计划任务。
3. 解决方案
3.1. 环境检查
注意:如果不存在大量僵尸进程,则从备份计划任务开始执行。
评论