服务器急救常识

服务器出现问题后,我们往往会根据以往的经验和知识作出初步的判断。首先检查服务器的安装环境:一般服务器要安装在通风良好的场所,温度要求在10摄氏度至35摄氏度(运行时)或-30摄氏度至60摄氏度(非运行时),湿度要求在20%至80% (运行时)或5%至90% (非运行时)、要有稳定和持续的交流电供应,否则建议安装不间断电源(UPS)、机房要清洁,防止尘土进入。
下面我们列出了一些常用的判断以及急救常识:
① 服务器不能启动可以从以下几个方面着手考虑解决方法,请先检查电源、确定服务器是否和显示器连接完好、检查不间断电源是否工作正常、检查源是否工作正常、检查电源指示灯是否工作正常。
② 风扇问题我们可以考虑检查风扇是否连接正常、检查开机自检信息、检查“Integrated Management”日志文件。如果是热插拔风扇可以检查它的LED灯的状态。
③ 内存问题:检查内存安装是否正确、确认内存是否是此款机器匹配的类型、检查“Integrated Management”日志文件、运行系统配置应用程序重新配置内存、重起后还是出错请替换内存。对于AMD CPU的服务器,内存配置比较特殊。
④ 硬盘问题:检查硬盘电缆是否有问题、检查硬盘是否是此款机器匹配的类型、如果是非热插拔硬盘请检查硬盘ID号是否正确、如果是热插拔硬盘请检查硬盘LED灯的状态、检查硬盘是否有不正常的转动声、检查硬盘的firmware。
⑤ 网络问题:检查网络环境和网线是否有问题、检查网卡资源是否和其他硬件有冲突、检查驱动程序是否安装正确、检查网卡LED灯的状态、如果插在热插拔PCI槽上请检查热插拔PCI是否工作正常等。也可以通过简化网络环境测试。
服务器死机故障比较难以判断,一般分为软件和硬件两个方面:
软件方面首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。电脑病毒也往往会造成服务器的死机。系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力来看看能否解决。
硬件方面先要考虑硬件冲突,可以通过对比计算服务器电源所有的负载功率的值来判断是否电源故障或电源供电不足。通过扫描硬盘表面来检查硬盘是否有坏道;通过主板BIOS中的错误报告和操作系统的报错信息来判断是否是内存故障。一般SCSI/RAID卡或其他pci设备也有可能会造成系统死机,像这种板卡故障都可以用替换法解决。替换法是主板和CPU最常用的方法。当然系统死机故障在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。
工程师和用户彼此合作收集足够的服务器信息,才能更好的提出故障解决方案。我们需要搜集故障现象基本信息、操作系统及应用软件信息、系统组件列表、第三方硬件及软件列表、问题在什么条件下发生的等。必要时须提供操作系统日志(.evt .csv),IML, ADU,Server Survey 等报告。我们需要知道问题在什么条件下发生?问题是否在某一固定时间发生?问题发生时有无第三方硬件?问题发生前做了何种操作?问题发生后做了哪些措施?
 
建议:1、服务器一定要定时做备份,且备份工作应在用户访问较少的时段进行,做好备份后,写清备份记录并把磁带放在安全处保存,以便以后恢复。2、服务器要做一定的冗余,电源的冗余可以防止意外的电源故障、网卡的冗余可以防止网络拥挤,平衡网络负载、磁盘冗余最好做RAID5,既保证性能又有较高的磁盘利用率,有条件的用户可以做阵列卡的冗余和服务器的集群等。3、施行自动服务器恢复(ASR)。ASR可以检测到操作系统检测不到的错误包括服务器死锁、可以在服务器失败后重新启动、可以防止服务器受到意外损害(如:温度过热时,它可以使服务器自动关机,避免部件受到伤害)。