业务发现cento机器响应慢,登录机器查看负载,发现1分钟、5分钟、15分钟的负载已经超过5,而且还往上涨的趋势,查看发现有一个有一个system-coredump的进程占用一个核,CPU使用达100%
对这个进程我也是第一次见到,去网上查找资料,这个是一个内核转储的,
是一个系统服务, 它能从操作系统内核中获取内存转储,并能对获取到的数据进行各种处理。
但网上没有具体的处理方法,因此这里对该问题进行记录
查看日志,发现有报错,无法锁定报错来源
查看进程,找到导致负载高的服务,查看uwsgi的配置,找到对应的日志路径,无服务报错
centos查看journal日志,找到错误导致原因,hd5版本不符导致
用pip回退版本,pip install h5py==2.9.0
重新加载导致coredump占用CPU的服务,观察机器负载情况,可以明显看到负载慢慢降下去
属于一些简单的问题排查技巧,用于记录,各位道友喜欢的可以看下,不喜欢的勿喷
Linux就是有一些奇怪的东西会冒出来,大家耐心查查日志,一般都能找到问题所在