华为GaussDB A 硬件瓶颈——CPU

墨天轮 2019-10-12

1187

CPU

通过top命令或Database Manager工具查看集群内各节点CPU使用情况，分析是否存在由于CPU负载过高导致的性能瓶颈。

查看CPU状况

查询服务器CPU的使用情况主要有以下两种方式：

在所有存储节点，逐一执行top命令，查看CPU占用情况。执行该命令后，按“1”键，可查看每个CPU核的使用率。

top - 17:05:04 up 32 days, 20:34,  5 users,  load average: 0.02, 0.02, 0.00
Tasks: 124 total,   1 running, 123 sleeping,   0 stopped,   0 zombie
Cpu0  :  0.0%us,  0.3%sy,  0.0%ni, 69.7%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu1  :  0.3%us,  0.3%sy,  0.0%ni, 69.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu2  :  0.3%us,  0.3%sy,  0.0%ni, 69.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu3  :  0.3%us,  0.3%sy,  0.0%ni, 69.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8038844k total,  7165272k used,   873572k free,   530444k buffers
Swap:  4192924k total,     4920k used,  4188004k free,  4742904k cached

   PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                      
 32893 omm  20   0 41416 1648 1196 S   10  0.0  23:46.14 om_monitor                                                                                                                                                                    
 34874 omm  20   0  169m 4104 1664 S   20  0.1  20:23.48 cm_agent                                                                                                                                                                      
 35184 omm  20   0  822m 421m 128m S    0  5.4   5:28.15 gaussdb                                                                                                                                                                       
     1 root      20   0 13592  820  784 S    0  0.0   1:16.62 init


分析时，请主要关注进程占用的CPU利用率。
其中，统计信息中“us”表示用户空间占用CPU百分比，“sy”表示内核空间占用CPU百分比，“id”表示空闲CPU百分比。如果“id”低于10%，即表明CPU负载较高，可尝试通过降低本节点任务量等手段降低CPU负载。

Database Manager工具支持对集群或者单个节点进行监控。在“集群资源监控”页面上专门有对CPU使用情况监控的界面。


性能参数分析
使用“top -H”命令查看CPU，显示内容如下所示。
    14 root top - 14:22:49 up 5 days, 21:51,  2 users, Tasks: 312 total,   1 running, 311 sleeping, Cpu(s):  1.3%us,  0.7%sy,  0.0%ni, 95.0%id, Mem:   8038844k total,  5317668k used,  2721176k free, Swap:  4192924k total,        0k used,  4192924k free,

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM  54952 omm  20 3105 root      20   0 50492  11m 2708 S 54775 omm  20   0  684m 423m 131m S 4015 gdm       20   0  232m  23m  11m S 51001 omm  20   0 12140 1484  948 R 54716 omm  20   0  234m 3412 1528 S 54885 omm  20   0  615m 396m 116m S 54759 omm  20   0  684m 423m 131m S 52975 omm  20   0  752m 439m 133m S 54894 omm  20   0  752m 443m 133m S 55216 omm  20   0  752m 443m 133m S 52976 omm  20   0  752m 443m 133m S 118814 omm  20   0 41416 1680 1184 S 1 root      20   0 13592  944  792 S

20   0     0    0    0 S    0  0.0   0:16.41 events/3 load average: 0.08, 0.08, 0.06 0 stopped,   0 zombie 2.4%wa,  0.5%hi,  0.2%si,  0.0%st 180268k buffers 2886860k cached TIME+  COMMAND 0  684m 423m 131m S    4  5.4   0:07.51 gaussdb 3  0.1  22:22.56 acc-snf 1  5.4   0:00.30 gaussdb 0  0.3  11:34.70 gdm-simple-gree 0  0.0   0:00.94 top 0  0.0   1:35.35 cm_agent 0  5.1   0:09.44 gaussdb 0  5.4   0:00.02 gaussdb 0  5.6   0:00.01 gaussdb 0  5.6   0:02.94 gaussdb 0  5.6   0:00.30 gaussdb 0  5.6   0:00.01 gaussdb 0  0.0   4:02.38 om_monitor 0  0.0   0:08.54 init          
根据查询结果中“Cpu(s)”分析是系统CPU（sy）还是用户CPU（us）占用过高。
如果是系统CPU占用过高，需要查找异常系统进程进行处理。
如果是“USER”为omm的GaussDB 200进程CPU占用过高，请根据目前运行的业务查询内容，对业务SQL进行优化。请根据以下步骤，并结合当前正在运行的业务特征进行分析，是否该程序处于死循环逻辑。使用“top -H  -p pid”查找进程内占用的CPU百分比较高的线程，进行分析。top -H -p 54952

查询结果如下所示，top中可以看到占用CPU很高的线程，下面以线程54775为主，分析其为何占用CPU过高。
top - 14:23:27 up 5 days, 21:52,  2 users,  load average: 0.04, 0.07, 0.05
Tasks:  13 total,   0 running,  13 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.9%us,  0.4%sy,  0.0%ni, 97.3%id,  1.1%wa,  0.2%hi,  0.1%si,  0.0%st
Mem:   8038844k total,  5322180k used,  2716664k free,   180316k buffers
Swap:  4192924k total,        0k used,  4192924k free,  2889860k cached

   PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                  
 54775 omm  20   0  684m 424m 131m S    0  5.4   0:00.32 gaussdb                   
 54951 omm  20   0  684m 424m 131m S    0  5.4   0:00.84 gaussdb                   
 54732 omm  20   0  684m 424m 131m S    0  5.4   0:00.24 gaussdb                   
 54758 omm  20   0  684m 424m 131m S    0  5.4   0:00.00 gaussdb                   
 54759 omm  20   0  684m 424m 131m S    0  5.4   0:00.02 gaussdb                   
 54773 omm  20   0  684m 424m 131m S    0  5.4   0:02.79 gaussdb                   
 54780 omm  20   0  684m 424m 131m S    0  5.4   0:00.04 gaussdb                   
 54781 omm  20   0  684m 424m 131m S    0  5.4   0:00.21 gaussdb                   
 54782 omm  20   0  684m 424m 131m S    0  5.4   0:00.02 gaussdb                   
 54798 omm  20   0  684m 424m 131m S    0  5.4   0:16.70 gaussdb                   
 54952 omm  20   0  684m 424m 131m S    0  5.4   0:07.51 gaussdb                   
 54953 omm  20   0  684m 424m 131m S    0  5.4   0:00.81 gaussdb                   
 54954 omm  20   0  684m 424m 131m S    0  5.4   0:06.54 gaussdb                   

使用“gstack ”查看进程内各线程的函数调用栈。查找上一步骤中占用CPU较高的线程ID对应的线程号。gstack  54954

查询结果如下所示，其中线程ID54775对应线程号是10。
192.168.0.11:~ # gstack 54954
Thread 10 (Thread 0x7f95a5fff710 (LWP 54775)):
#0  0x00007f95c41d63c6 in poll () from /lib64/libc.so.6
#1  0x0000000000d3d2d3 in WaitLatchOrSocket(Latch volatile*, int, int, long) ()
#2  0x000000000095ed25 in XLogPageRead(XLogRecPtr*, int, bool, bool) ()
#3  0x000000000095f6dd in ReadRecord(XLogRecPtr*, int, bool) ()
#4  0x000000000096aef0 in StartupXLOG() ()
#5  0x0000000000d5607a in StartupProcessMain() ()
#6  0x00000000009e19f9 in AuxiliaryProcessMain(int, char**) ()
#7  0x0000000000d50135 in SubPostmasterMain(int, char**) ()
#8  0x0000000000d504ec in MainStarterThreadFunc(void*) ()
#9  0x00007f95c79b85f0 in start_thread () from /lib64/libpthread.so.0
#10 0x00007f95c41df84d in clone () from /lib64/libc.so.6
#11 0x0000000000000000 in ?? ()



查看更多：华为GaussDB 200 硬件瓶颈点分析

  gaussdb a
  「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」
 关注作者
 
  
 【版权声明】本文为墨天轮用户原创内容，转载时必须标注文章的来源（墨天轮），文章链接，文章作者等基本信息，否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容，欢迎发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。
   评论

 领墨值

 
  有奖问卷
  意见反馈 
 客服小墨