浏览次数:23
下载次数:0
文档编号:EKB1100163090
目录
问题描述
问题描述:在例行巡检中发现2288H V5服务器设备IBMC页面告警栏目出现2个紧急告警
告警信息
维护诊断—告警&事件—当前告警页面查看告警信息为1、DIMM041 memory configuration error. Error code: 0x0B1C,事件码:0x01000025;2、DIMM041 memory isolated。事件码:0x01000071。
现场查看服务器设备前面板指示灯显示041,并红灯闪烁
处理过程
1、联系主机使用者提前迁移主机业务
2、登录root用户
3、使用命令poweroff关闭服务器
4、服务器关机完成后,通知现场工程师拔出线缆、下架服务器、打开盖板、打开风道盖板
5、找到DIMM041内存条,拔出,更换
6、盖好盖板、接入电源,服务器通电后自动开机,前面板显示正常(绿灯常亮)
7、登录IBMC页面,维护诊断—告警&事件—当前告警页面查看告警已消除
8、按原样恢复业务线缆,联系设备管理员查看业务情况,业务正常。
9、自此,内存故障处理完成
根因
该设备于2022年投运,已使用4年,长期使用导致内存硬件自然老化损坏。
解决方案
1、对长期运行的设备增加季度或半年度巡检,通过SmartKit软件收集设备硬件潜在告警信息。
2、对发现问题的硬件提前准备备件并安排更换
建议与总结
1、现场处理时需佩戴相关劳保及防护用品(如手套、静电环);
2、拔出线缆前需记录线缆插入网口位置,便于处理完成后还原线缆,保障业务网络畅通。
上一篇:服务器硬盘温度读取失败故障排查