• 动态资讯

    故障频发究竟为哪班?

    5月6日,11时49分,我司接到保障电话,某客户机房所在大厦无故停电,导致机房内温度过高,服务器烧坏。

    6月7日10时13分,该客户的机房信息员因为对机房断电情况的不重视且重启UPS电源操作不当,导致服务器又烧坏。

    该客户在一个月之内发生两次紧急故障,这让我们不得不深思,因此,6月8日,我司召开针对该客户故障的专题会议。分析6月7日事故的经过、总结事故发生的原因和讨论改进意见等。

    一方面,技术人员经验有限,技术人员对于事故的处理能力仍不够,对故障中的XSCF的具体型号不熟悉,增加了处理问题的时间。同时,由于备机已用于上次故障处理,我司没有及时采购补充库存,导致备件供应时间稍有延误。

    另一方面,就客户来说,首先是机房信息员对发生故障的重视度不够,在6月6日晚中,电工已经报告过信息员机房发生跳闸,并没有采取相应的措施或者通知维保方。其次,信息员对自身机房环境不熟悉,机房本身存在两台UPS电源,但是员工并不熟悉且认为只有一台,不懂电力设备管理制度,对机房的配电图也不熟悉,加上对UPS重启操作不规范和对故障分析会不重视等种种原因导致故障频发。


    (图为机房中两台UPS电源中的一台)

    为避免故障发生,我司将对客户进行相关的机房电力设备操作及管理知识培训。另外,由于备件资源较少,在拿备件的过程中我们耗费了许多时间,所以我们计划拓展自身的备件库资源。在人力资源方面,我们将对工程师进行多方面的培训,例如紧急故障处理,特定服务器的教学。最后是要完善故障响应处理流程,包括日常运维流程和紧急排障响应流程。

    除此之外,作为客户要应建立机房管理制度、设备操作流程,让符合资格的人员操作电力设备。客户方应对机房进行全面的排查,杜绝因电力系统引起的一系列故障。

    客户机房故障频发,不但会影响客户的生产经营,而且损害人力物力,因此,要在解决问题之后,认真分析原因,方能汲取教训,为提供更好的运维服务而努力。

    已经是最后一篇了