浏览次数:23

下载次数:0

文档编号:EKB1100163090

目录

问题描述

问题描述:在例行巡检中发现2288H V5服务器设备IBMC页面告警栏目出现2个紧急告警

告警信息

维护诊断—告警&事件—当前告警页面查看告警信息为1、DIMM041 memory configuration error. Error code: 0x0B1C,事件码:0x01000025;2、DIMM041 memory isolated。事件码:0x01000071。

现场查看服务器设备前面板指示灯显示041,并红灯闪烁

处理过程

1、联系主机使用者提前迁移主机业务

2、登录root用户

3、使用命令poweroff关闭服务器

4、服务器关机完成后,通知现场工程师拔出线缆、下架服务器、打开盖板、打开风道盖板

5、找到DIMM041内存条,拔出,更换

6、盖好盖板、接入电源,服务器通电后自动开机,前面板显示正常(绿灯常亮)

7、登录IBMC页面,维护诊断—告警&事件—当前告警页面查看告警已消除

8、按原样恢复业务线缆,联系设备管理员查看业务情况,业务正常。

9、自此,内存故障处理完成

根因

该设备于2022年投运,已使用4年,长期使用导致内存硬件自然老化损坏。

解决方案

1、对长期运行的设备增加季度或半年度巡检,通过SmartKit软件收集设备硬件潜在告警信息。

2、对发现问题的硬件提前准备备件并安排更换

建议与总结

1、现场处理时需佩戴相关劳保及防护用品(如手套、静电环);

2、拔出线缆前需记录线缆插入网口位置,便于处理完成后还原线缆,保障业务网络畅通。

上一篇:服务器硬盘温度读取失败故障排查