IBM高性能计算机系统一次重大故障分析
- 作者:admin 来源:网络 日期:2008-5-30 20:20:00
2.3 故障原因分析
在2006年6月到9月期问,科研分区共更换了7块BPA机柜电源、8块SWITCH DCA电源、8块p655 DCA节点电源。
由于IBM高性能计算机系统的有些电源模块被更换,并且有些备件号发生了变化,虽然新备件可以实现对原备件的替代功能,但是新旧电源备件的微码版本部分存在不一致;而SWITCH的控制信息是通过HMC—BPA—DCA进行传送,电源相关部件微码版本的不一致影响了信息的正常传送,进而影响SWITCH的网络初始化,不能得到正确的网络拓扑结构,导致不能建立正常的SwITCH通路;而通过刷新一次机柜电源BPA同版本微码,使电源模块上的通信进程状态重新初始化(归零操作),清除了电源模块上的错误通信信息记录,可以将控制信息正确传送,重新建立了正确的网络通路。
GPFS文件系统不能正常读写主要是由于SWITCH网络通信不稳定,GPFS的通信频繁发生中断,所以GPFS的文件系统也会频繁异常上线或离线(mount或umount状态),使GPFS文件系统控制的有些硬盘上的NSD(Network Shared Disk)控制信息不一致,GPFS为了保证数据的安全性,系统自动对此NSD进行了隔离操作。
3 故障事件的分析和启发
从这次发生的故障情况来看,由于在系统本身设计和日常维护的过程中考虑了高可靠性和对于用户数据的一致性管理,因此在科研分区出现问题的情况下,并没有影响业务作业的正常运行,这是对系统高可靠性的一次检验;但同时通过这次故障事件,也发现了我们的许多不足,并且也为日常维护提供了一个经验和教训。
3.1 系统可靠性验证
由于在系统设计上考虑了用户文件系统高可用性的设计以及全局的用户环境一致性,代写职称论文 同时在日常维护工作中对用户文件系统都做了备份,因此对业务用户没有造成影响。
3.2 系统本身的问题
SWITCH设备故障率比较高:从系统投入运行以来,SWITCH设备的故障率就比较高。2006年5月1日到10月31日期问,科研分区就出现了39次SWITCH硬件故障,其中光纤卡故障22次,铜卡故障6次,主板故障1次、电源故障10次;业务分区有17次SWITCH硬件故障,其中光纤卡故障8次,电源故障9次。
故障诊断定位难:在对SWITCH设备维护时,光纤卡和铜卡的故障诊断相对容易,故障现象明显,有冗余连接,一般不影响系统和用户的正常使用;而SWITCH背板故障及电源微码不一致等故障,则不容易定位具体的故障点,对系统的影响也比较大。
3.3 日常维护及管理问题
日常维护不够深入:在日常的维护过程中,主要还是停留在处理现象明显的软硬件故障,并没有对系统的一些潜在故障进行分析研究,而且对系统了解不够深入,在出现大的故障时不知如何判断处理。
管理流程不完善:从本次故障来看,备件不能满足在重大情况下的处理要求;厂家技术支持不畅通,响应速度慢,这都直接延长了故障恢复时问。
4 后续工作和建议
此次故障发生后,陆续完成和制定了一些工作计划。
(1)完成了业务分区电源微码的检查。察看了业务分区SWITCH的微码版本,发现也存在需要重新安装的警告提示,但是由于报错的机柜比较少,并没有对系统造成影响,目前已经完成对业务分区电源微码的统一刷新。
(2)制定了IBM 高性能计算机系统业务应急备份方案。当遇到紧急情况时,能够快速评估当前状况并进行处理。
(3)完成了系统存储资源的扩充。扩大了目前用户的存储资源,并满足了业务应用系统备份的资源需求。
(4)完成了HPGS系统的微码升级。2007年4月已经将整个系统HPS的Service Pack版本级别升级到21。
(5)加强管理。督促厂家人员完善技术紧急支持的响应速度和流程,保证技术支持的畅通;同时要确保备件的充足可用。
(6)加强维护手段和交流。在日常维护中,代写工作总结 不仅是满足于简单的问题解决,需要深入分析诊断,找到问题的真正原因,避免潜在的隐患故障;同时要多通过学习以及技术交流,加深对全系统的了解,不断提高维护水平,提高自己的故障解决能力。
5 结束语
此次故障虽然没有对我们的业务造成影响,但是通过此次故障情况,我们看到了我们还存在的许多不足,需要我们在以后的工作中加以改进。通过不断地分析和总结,维护好我们的系统,保持系统高效稳定的运行。
参考文献
[1] IBM,Inc.An Introduction to the New IBM F.server pS~'ie8 High Performance SWITCH [EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.
[2] IBM,Inc.General Parallel File System Administration and Pro.gramming Reference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm .clus—ter.gpfs.doc/gpfsbooks.htm1.
代写论文联系方式
联系QQ:904272800

联系信箱:904272800@qq.com

代写论文导航
客户、写手申请单
最新论文
热点论文