常见三种服务器故障排除方法

      进入信息时代,各种行业对数据的安全和技术要求也越来越高,,同时也遇到了各种各样的主机故障问题,虽然能够接到主机厂商的支持,但是往往耗时耗工(特别是有些不能够立即判断和解决的问题),造成了企业不必要的损失,下面针对一些常见的服务器故障现象和解决方法跟管理者分享一下,以便更好的更快的进行故障处理和排查。

常见三种服务器故障排除方法

       一、常见故障之——硬件故障

       硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:

       其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括: 主板、CPU、RAID卡、电源模块、风扇、本地硬盘、内存损坏等等 这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

       其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括: 网卡、本地硬盘有坏块、显卡、和其他外围设备 这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

       故障定位和排除: 液晶屏上的错误码 根据错误码确定是什么硬件出了故障,对系统来讲,原则上必须业务切换使得损坏服务器离线不影响用户使用的情况下,然后修复故障机器,恢复系统。

       二、常见故障之——磁阵故障

       磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括。

       三、常见故障之——故障定位、故障排除

       根据实际运行的系统中碰到问题,总结出了以下几种常见故障及其定位方式和解决方法。

       磁阵硬盘、主机上的RAID卡、与主机相连的SAS线、硬盘的位置和接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/RAID卡等都可能造成异常。

       磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照经验,不管是什么硬件故障导致故障,系统都会产生告警,如果能及时发现问题并采取措施,

       如果存在硬件故障时,可从状态灯上观察到:当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮阵列的状态灯黄灯会亮。

原创文章,作者:zhou, jiajia,如若转载,请注明出处:https://www.yidc.net/archives/16785