一、故障描述
某日,客户报修IBM P770(9117-MMB)小机宕机。我们前往现场检查,该小型机由4个CEC柜和一个IO扩展柜组成,建有4个Lpar。查看HMC及ASMI告警信息,报错部位涉及FSP卡,CPU板,IO板,中板,内存等。
二、故障分析
经过分析告警信息,现场检查设备,加电启动测试,我们发现扩展柜二DBJM790的FSP卡加电指示灯不亮,设备无法启动,判断该FSP卡已坏,对应位置U78C0.001.DBJM790-P1-C1,对于其它报错信息,分析排除了CPU和内存,初步判断设备宕机与U78C0.001.DBJM782-P2位置IO板故障有关,报错代码1100262D。
三、故障处理
我们决定由更换故障的FSP卡开始进行故障处理,FSP卡正常了,才能继续检查和处理其它故障。
处理过程如下:
1. 备份分区数据,选中主机------>Configuration----->Manage partition Data ------>Backup.
2. 查看HMC上分区备份数据
3. 在HMC控制台打开Restricted shell terminal
4. 使用命令查看分区数据:
>ls -l /var/hsc/profiles/
5. 登录ASMI,记录设备主机名,网络设置,微码信息,时间,启动选项
6. 设备下电,更换CEC柜二的FSP卡
7. 插好线缆,不连接HMC,设备加电测试
8. 发现主柜FSP不亮,再次更换主柜FSP卡
9. 不连接HMC网线,加电启动
10. 笔记本直连HMC管理口,FSP卡恢复出厂配置
ASMI---->system service asid---->factory configuration---->reset service processor setting---->continue
等待恢复出厂设置完成,FSP卡会自动重启,大概10到20分钟。
11. 修改时间,主机名,HMC管理口 IP地址。
12. 连接HMC管理机,等待刷新连接。
13. 按提示输入HMC和ASMI密码
14. 连接成功后主机状态为recovery,选中主机选择任务栏第一项Recovery partition,选择Restore profile data from HMC backup data 从本HMC恢复分区数据。等待恢复完成,设备会自动power on,并自检。
15. 自检过程还是出现了红色叉叉,无法启动,查看报错信息,还是主柜IO板报错。
16. 再次停机下电,更换主柜U78C0.001.DBJM782-P2 位置IO板。
17. 重新启动加电启动设备,FSP能正常加电。
18. 待HMC识别正常后,重新做分区Recovery 操作,成功恢复,设备启动到standby。
19. 找到相应分区概要文件启动分区。
四、经验总结
此次IBM Power770小机故障,属于关键业务系统的问题,客户比较着急,现场压力较大。又遇到了FSP卡和IO板的复合故障,导致日志中CPU板、中板、IO板等多部件出现报错,增加了故障定位难度。IBM Power770、780等型号小机在加电时,有一定概率出现的FSP卡损坏的情况,此次也遇到了;幸好备件及时,故障判断准确,按时修复了此次故障问题。
这里总结以下几点:
1、 IBM P770、780小机FSP卡的故障经常会导致其它多个部件一并告警,最好先去现场确认,在通电状态下,所有FSP卡电源指示灯是否正常(绿灯常亮),如有熄灭的,则是FSP卡坏了,建议先更换FSP卡,再排查其它部件。
2、 P770、780小机正常情况加电时,FSP卡会立马点亮,但是这个型号的机器,加电时FSP卡容易出故障,会出现边修边坏的情况,点不亮也只能更换FSP卡。所以需要按条件多准备几块FSP卡,而且下电前先备份好分区信息。(HMC里选中主机-->Configuration-->Manage partition Data -->Backup)
3、 更换完FSP卡后,先不要连HMC,需要先恢复出厂设置,防止连接HMC后把HMC里设备的分区信息冲掉了,导致分区无法恢复。
4、 更换完FSP卡,确认都能点亮后,再power on自检,检查其他部件是否有问题,发现问题再进行处理。
如欲了解更多,请登录十大靠谱网赌软件官方网站:zroire.xfxz168.com