突发事故应急及故障分析

突发事故应急及故障分析 新疆西北星信息技术有限责任公司二〇一二年八月

主要内容 一常见的网络系统故障网络故障的分析及检测方法二三系统故障的分析及排查故障维修注意事项四

一、常见的网络系统故障 网络系统故障概述一个网络系统通常由硬件、软件和连接介质等几个部分组成。 1、网络硬件计算机：服务器、工作站、终端机等，它们的组成部件(如主板、内存、硬盘、接口与通道等)的故障一般可通过机器的自检及常规硬件测试程序检查出来。服务器故障将引起整个网络工作异常，而工作站故障一般只影响该工作站本身。网络设备：网卡、中继器、调制解调器、集线器、路由器、网关、网桥、交换机等，它们的故障是网络系统故障的主要原因。 2、网络软件网络软件由网络操作系统、网络管理软件、网络通信软件与网络应用软件等组成。软件配置错误，软件组合使用冲突，网络通信协议失配等都会引起严重的网络系统故障。电脑病毒与黑客入侵也会引起严重的网络系统故障。 3、连接介质常见的网络连接介质有屏蔽双绞线、非屏蔽双绞线、同轴线缆、光纤等。连接介质的故障是引起网络系统故障最常见的原因。 4、其他故障原因因电源、地线等可引起故障，因静电、无线电干扰可引起故障，以及因网络信息流量过大可引起网络瘫痪等。

一、常见的网络系统故障 通信媒介故障网络故障很容易发生在通信媒介上，常见故障主要有线缆断开、线缆短接、连接故障、信号衰减。通信媒介故障是网络失效最常见的原因之一，例如一个接头松开或终结器连接不良，都会引起整个总线型网络工作瘫痪，因此当网络故障发生时，网络管理员和网络工程技术支持人员往往一开始就是检查网络的通信媒介。特别是在计算机(重新配置)、网卡(更换)、驱动器(去掉或更新)等硬件更改之后，和在对系统有危险的测试之前应先检查布线。确定通信媒介出现故障后，应从下面几方面着手定位故障所在： 1、对于总线型网络，首先要检查终结器是否正常。 2、确保各个线缆牢固地连接在各台计算机上，其接头处没有松动。 3、确保所有线缆没有超过使用的规定长度。 4、确保各个线缆是同类的，如果不是同类线缆，则必须用诸如路由器、网桥等专用设备进行连接，而且要确保这些设备正常工作。 5、利用线缆测试设备(如数字万用表、时域反射仪等)对网络通信媒介进行检查，判断线缆是否短路、断路。 6、检查网络中的计算机数目是否符合规定，如果数目超过规定，有可能造成信号衰减过多。

一、常见的网络系统故障 计算机故障 1、服务器故障服务器出现故障的原因： (1) 磁盘存储空间太小。 (2) 内存与缓冲存储器不足。 (3) 服务器设置不正确。 (4) 数据通道带宽不足。 2、工作站故障工作站出现故障的原因： (1) 工作站本身硬件故障。 (2) 网卡配置不正确。 (3) 连接线缆有问题。 (4) 工作站的软硬件配置冲突。

一、常见的网络系统故障 通信设备故障排除通信设备故障，可以从以下几方面着手： 1、网卡网卡是网络中常出故障的设备。网卡引起故障的可能包括：(1) 网卡松动。(2) 网卡损坏。(3) 网卡的配置发生错误。(4) 网卡与系统不兼容。(5) 网卡的驱动程序与网卡不匹配。 2、路由器路由器引起故障的可能包括：(1) 路由器设置不正确。(2) 路由器硬件故障。(3) 路由协议问题。 3、交换机交换机引起故障的可能包括： (1) 交换机硬件故障。(2) 线路连接与端口故障。(3) 交换机软件问题。

一、常见的网络系统故障 协议失配计算机网络通信，除了需要通信设备与通信媒介之外，还需要一组互相认同的协议。如果两台计算机的协议不同，它们之间必须有其他的设备来进行协议转换，否则就无法通信，协议失配会造成网络通信失败。协议失配是指两台计算机因所用的协议不同而导致无法通信。同时，协议失配也包括由于协议配置错误引起的网络故障。排除协议失配故障，可以从以下几方面着手： 1、查看计算机安装了哪些协议，各个协议是否绑定到网卡上。 2、利用工具检测各个协议是否正确。 3、查看各个安装协议的所有配置参数是否正确。 (1)对于IPX/SPX协议网络，应查看当前使用数据帧的正确性；查看自动检测数据类型设置或手工检测数据包类型设置下是否能正常工作。 (2)对于TCP/IP协议网络，应查看IP地址、子网屏蔽号和默认路由号填写的正确性，验证动态IP地址获得的有效性与网段域命名系统的有效性。

一、常见的网络系统故障 网络堵塞网络堵塞是指网络的一部分或整个网络性能下降，主要体现在网络的传输速度降低。引起网络堵塞的原因很多，确定引起网络堵塞原因的最好办法是利用协议分析器或网络监视器，对网络使用的带宽、高峰使用次数和正在传输的数据帧进行监视。对于网络堵塞故障的排除，可以从以下几方面着手： 1、如果网络堵塞从网络建成后就一直存在，则可能是因为网络规划不合理。 2、用户数的大量增加会引起网络堵塞。 3、网络中大量发送数据帧的计算机工作不正常，原因可能为不正常网卡发送了大量不必要的数据包导致网络堵塞，或计算机正在运行某个产生大量数据包的应用程序。 4、检查网络上的传输协议，如果协议过多，会导致网络速度减慢。

一、常见的网络系统故障 网络风暴网络风暴是指由于网络上过多的广播数据帧，几乎占满了网络整个带宽而导致网络速度极慢的一种故障。引起网络风暴的可能原因是： 1、网卡故障。 2、集线器故障。 3、 NetBEUI网络上过多的广播信息。

二、网络故障的分析及检测方法 1. 分离法故障分离法是一种故障的结构化分析方法。这种方法对网络故障的定位和排除采用逐步分析和循环重复的形式，直到解决网络故障为止。该方法可分为以下几个步骤： (1) 确定故障优先级。 (2) 收集故障有关的信息。 (3) 确定可能引起故障的原因。 (4) 进行故障分离测试。 (5) 分析测试结果，排除网络故障。 (6) 记录故障排除过程、总结经验。故障分离法的工作流程如图1.1所示。

二、网络故障的分析及检测方法 图1.1 故障分离法的工作流程

二、网络故障的分析及检测方法 (1)确定故障优先级当网络出现的故障不止一个时，把所有故障按照一定的原则排成一个队列，按照这个队列的先后顺序逐个地排除。故障排队的原则是，根据故障的重要性以及它的影响程度，把紧迫问题放在前面，一般性问题放在后面。 (2)收集故障有关信息与故障有关的信息能帮助我们进行分析和定位故障。信息主要来源于故障现象、用户报告，网络操作系统所提供的网络监视工具与监视软件报告等。 (3)确定可能引起故障的原因在收集故障信息的基础上，根据自己的经验和有关的资料对收集到的故障信息进行评价和分析，以充分的理由来确定发生故障的可能原因。确定原因时要把所有可能的原因作一个列表，并且把原因按可能性由大到小进行排列。

二、网络故障的分析及检测方法 (4)进行故障分离测试对网络故障进行分离测试就是根据上一步列出的可能原因，按照其排列顺序逐个地进行测试，寻找问题的真正原因。这个步骤是个反复过程，需要对所有可能的问题一个一个地进行过滤，一直到发现故障的原因，并通过测试来排除故障。如果故障已经排除，就没有必要再测试其他的原因，但如果没有找到故障所在，就必须把所有的列表都进行分离测试。图1.2给出了它的流程图。对故障进行分离测试时，应该为每一步操作做好记录，同时对改动的文件和系统配置要进行备份，以便在需要恢复时可以还原。图1.2 障分离测试的工作流程

二、网络故障的分析及检测方法 (5)分析测试结果，检测网络故障通过上一步的分离测试，对测试结果进行研究，并进行网络故障检测与排除。如果问题已经解决，可以进入下一步的任务；如果问题没有解决，则需要重新开始收集信息，再重复上面的问题，一直到故障被排除为止。 (6)记录故障排除过程、总结经验每当排除了一个网络故障时，应该记录解决该问题的过程文档。内容包含故障的现象、发生的原因、解决的方法、解决故障时对硬件和系统设置作出的改动等。它可以为下一次故障的排除积累经验和故障排除过程中带来的新的问题作出佐证。

二、网络故障的分析及检测方法 2、参照法参照法将网络中的故障部分与能正常工作的部分进行比较，从而发现由于“不同”而得到具体出问题的环节。此方法尤其适用于用户设置和工作站配置等引起的网络故障检测。有时，当已把问题归结到某一个部件上时，可以把它全部替换成“好”的部件，即采用替换法，这样可避免分析过多的问题。如果报告故障的用户很多，则应该从日志着手，分析这些用户的工作站和配置有何不同，这样有利于建立相同的配置。 3、咨询法有时，最好解决问题的方法就是找到曾遇到过或可能遇到过同样问题的专家和同行。Internet、硬件技术资料、硬件制造商的技术支持、软件技术支持、杂志和技术期刊与知识库光盘等都是进一步解决疑难问题的手段。向技术支持咨询是排除网络故障不可缺少的好办法。 4、软件检测法该方法利用软件进行网络故障的检测，它利用设备的诊断命令和网络管理软件来帮助用户监控和维护网络系统。

二、网络故障的分析及检测方法 软件检测法 1、使用设备诊断命令下面以路由器为例来介绍设备诊断命令。 (1) show命令。它是一个功能强大的监控和网络维护工具，可以用它来监视路由器的工作与常规的网络操作：判断出现故障的接口、节点与介质；确定网络通信流量及其时间；查看网络硬件与通信设备的状态。 (2) debug命令。debug特权EXEC命令可以提供丰富的接口通信流量信息、网路中各节点产生的出错信息、协议诊断信息包，以及其他对网络维护有用的数据。 debug命令可以帮助用户分析网络中出现的问题。 (3) Ping命令。它用于检查主机的可连接性以及网络的连通性。对于TCP/IP网络，Ping是检查网络连通性的最常用手段。Ping命令发送ICMP回显信息。如果一个工作站接收到了一个ICMP回显信息，它会返回一个ICMP答复回显信息。在网络工作正常时，一般使用Ping命令来观察和记录在正常条件下该命令的工作状态，在以后出现故障时就可以通过与正常工作状态对比来检测和排除故障。

二、网络故障的分析及检测方法 下面以Ping命令为例介绍域名解析服务器(DNS)的故障检测可以键入ping webname来确定DNS服务是否正常工作。如果DNS正在工作，Ping外部主机的结果如下： C:\>ping www.fudan.edu.cn pinging www.fudan.edu.cn [202.120.224.4] with 32 bytes of data: Destination host unreachable. Destination host unreachable. Destination host unreachable. Destination host unreachable. Destination host unreachable信息说明指定的主机不能连接，但DNS工作正在进行，因为www.fudan.edu.cn后面跟着它们的IP地址202.120.224.4。如果DNS没有工作，结果将会如下： C:\>ping www.fudan.edu.cn Bad IP address www.fudan.edu.cn 该例没有从DNS名中解析到IP地址。来自Windows的Bad IP address www.fudan.edu.cn信息表明域名解析失败。

二、网络故障的分析及检测方法 (4) Tracert命令。它可以检测数据包TTL超时时路由器返回的错误信息，可用于探测信息包传送至目的地途经的路径。同Ping命令一样，在网络工作正常时一般使用Tracert命令观察和记录在正常条件下该命令的工作状态，在以后出现故障时就可以通过与正常工作状态对比来检测和排除故障。下面以Tracert命令为例，首先按名称和IP地址Ping服务器。如果Ping IP地址结果正确，但Ping名称不正确，应当检查工作站的DNS配置或检查DNS服务器。如果ping IP地址结果不对，跟踪路由地址，如图1.3所示。图1.3 路由跟踪举例

二、网络故障的分析及检测方法 下面给出了从工作站到服务器的路由跟踪。 C:\>tracert 202.120.224.6 Tracing route to mail.fudan.edu.cn[202.120.224.6] over a maximum Of 30 hops 110 ms 10 ms 10 ms 202.120.95.1 260 ms 70 ms 61 ms 202.120.96.2 360 ms 71 ms 60 ms mail2.blibdoolpoolp.com [167.195.165.15] Trace complete Tracert的输出显示了所有经过的路由器的信息，当发现Tracert停止时，就能找出最可能的出错地点。例如，在本例中Tracert停在202.120.95.1处，不再到达下一站点(202.120.96.2)，那么就说明广域链路出了问题或路由器1出了故障。对202.120.95.1测试成功而对202.120.96.2测试失败说明路由器2工作正常。

二、网络故障的分析及检测方法 软件检测法 2、使用网络管理工具软件网络管理工具软件通常包含网络管理软件、远程监控软件和交换机管理软件等。这里简单介绍网络管理软件,网络管理软件的主要功能有： (1)监视设备的应用环境和接口信息，显示设备的状态，检测并提取网络设备环境的数据。 (2)显示和分析两个设备之间的路径，以搜集使用的错误数据。 (3)收集网络的历史数据以进行性能趋势和通信流量模式的离线分析。

三、系统故障的分析及排查 主要日志文件 MBR扇区故障日志分析及管理日志文件分析 GRUB引导故障日志管理策略 /etc/inittab文件丢失系统启动类故障排除 /etc/fstab文件丢失遗忘root用户的密码 rpm数据库损坏软件包类故障排除系统故障分析与排查缺少*.so类文件修复文件系统磁盘资源耗尽故障文件系统、磁盘类故障排除无法卸载已挂载设备查看CPU负载检测硬盘坏道查看系统性能状况查看内存使用情况磁盘I/O性能监控

三、系统故障的分析及排查 日志分析及管理： • 日志的功能 • 用于记录系统、程序运行中发生的各种事件 • 通过阅读日志，有助于诊断和解决系统故障 • 日志文件的分类 • 内核及系统日志 • 由系统服务syslog统一进行管理，日志格式基本相似 • 用户日志 • 记录系统用户登录及退出系统的相关信息 • 程序日志 • 由各种应用程序独立管理的日志文件，记录格式不统一

三、系统故障的分析及排查 日志分析及管理： • 日志保存位置 • 默认位于：/var/log目录下 • 主要日志文件介绍 • 内核及公共消息日志：/var/log/messages • 计划任务日志：/var/log/cron • 系统引导日志：/var/log/dmesg • 邮件系统日志：/var/log/maillog • 用户登录日志：/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/utmp • ……

三、系统故障的分析及排查 日志分析及管理-内核及系统日志 • 由系统服务 syslogd 统一管理 • 软件包：sysklogd-1.4.1-39.2 • 主要程序：/sbin/klogd、/sbin/syslogd • 配置文件：/etc/syslog.conf [root@localhost ~]# grep -v "^#" /etc/syslog.conf | grep -v ^$ *.info;mail.none;authpriv.none;cron.none /var/log/messages authpriv.* /var/log/secure mail.* -/var/log/maillog cron.* /var/log/cron …… 消息发送位置设备类别.日志级别

三、系统故障的分析及排查 日志分析及管理-内核及系统日志 • 日志消息的级别 • 0 EMERG（紧急）：会导致主机系统不可用的情况 • 1 ALERT（警告）：必须马上采取措施解决的问题 • 2 CRIT（严重）：比较严重的情况 • 3 ERR（错误）：运行出现错误 • 4 WARNING（提醒）：可能会影响系统功能的事件 • 5 NOTICE（注意）：不会影响系统但值得注意 • 6 INFO（信息）：一般信息 • 7 DEBUG（调试）：程序或系统调试信息等数字越小，表示优先级越高、问题越严重

三、系统故障的分析及排查 日志分析及管理-用户日志分析 • 保存了用户登录、退出系统等相关信息 • /var/log/lastlog：最近的用户登录事件 • /var/log/wtmp：用户登录、注销及系统开、关机事件 • /var/run/utmp：当前登录的每个用户的详细信息 • /var/log/secure：与用户验证相关的安全性事件 • 分析工具 • who、w、user、last、ac

三、系统故障的分析及排查 日志分析及管理-程序日志分析 • 由相应的应用程序独立进行管理 • Web服务：/var/log/httpd/ • access_log、error_log • 代理服务：/var/log/squid/ • access.log、cache.log、squid.out、store.log • FTP服务：/var/log/xferlog • …… • 分析工具 • 文本查看、grep过滤检索、Webmin管理套件中查看 • awk、sed等文本过滤、格式化编辑工具 • Webalizer、Awstats等专用日志分析工具

三、系统故障的分析及排查 日志分析及管理-日志管理策略 • 及时作好备份和归档 • 延长日志保存期限 • 控制日志访问权限 • 日志中可能会包含各类敏感信息，如账户、口令等 • 集中管理日志 • 便于日志信息的统一收集、整理和分析 • 杜绝日志信息的意外丢失、恶意篡改或删除

三、系统故障的分析及排查 系统启动类故障排除-MBR扇区故障 • 故障原因 • 病毒、木马等造成的破坏 • 不正确的分区操作、磁盘读写误操作 • 故障现象 • 找不到引导程序，启动中断 • 无法加载操作系统，开机后黑屏 • 解决思路 • 应提前作好备份文件 • 以RHEL5安装光盘引导进入急救模式 • 从备份文件中恢复

三、系统故障的分析及排查 系统启动类故障排除-MBR扇区故障 • 应用示例： • 1.备份MBR扇区数据 • dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1 • 2.模拟MBR被破坏的故障 • dd if=/dev/zero of=/dev/sda bs=512 count=1 • 3.RHEL5光盘引导，进入急救模式 • boot: linux rescue • 4.从备份文件中恢复MBR扇区 • dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=1

三、系统故障的分析及排查 系统启动类故障排除-GRUB引导故障 • 故障原因 • MBR中的GRUB引导程序遭到破坏 • grub.conf文件丢失、引导配置有误 • 故障现象 • 系统引导停滞，显示“grub>”提示符 • 解决思路 • 尝试手动输入引导命令 • 进入急救模式，从备份中恢复 grub.conf • 向MBR扇区中重建grub程序

三、系统故障的分析及排查 系统启动类故障排除-GRUB引导故障 • 应用示例1： • 在“grub>”提示符后，手动输入引导命令 • 成功进入系统后，恢复或重建 grub.conf 配置文件 grub> root (hd0,0) grub> kernel /vmlinuz-2.6.18-8.el5 ro root=/dev/VolGroup00/LogVol00 rhgb quiet grub> initrd /initrd-2.6.18-8.el5.img grub> boot 从备份文件恢复 [root@localhost ~]# cd /boot/grub/ [root@localhost ~]# cp grub.conf.bak grub.conf

三、系统故障的分析及排查 系统启动类故障排除-GRUB引导故障 • 应用示例2： • 进入急救模式，从备份文件中恢复 grub.conf 文件 • 向MBR扇区中重建GRUB程序 sh-3.1# chroot /mnt/sysimage sh-3.1# cd /boot/grub/ sh-3.1# cp grub.conf.bak grub.conf sh-3.1# grub-install /dev/sda

三、系统故障的分析及排查 系统启动类故障排除-/etc/inittab文件丢失 • 故障原因 • inittab文件被误删除，或者存在配置错误 • 故障现象 • 启动中提示 “... INIT: No inittab file found” • 系统停滞，无法完成初始化 • 解决思路 • 进入急救模式，从备份文件中恢复 • 或者，在急救模式中重新安装 initscripts软件包 • rpm -ivh --replacepkgs initscripts-8.45.14.EL.i386.rpm

三、系统故障的分析及排查 系统启动类故障排除-/etc/fstab文件丢失 • 故障原因 • fstab文件被误删除，或者存在配置错误 • 故障现象 • 启动中提示 “... /etc/fstab: No such file or directory” • 系统停滞，无法完成初始化 • 解决思路 • 进入急救模式，手动查找并挂载根分区 • 查找逻辑卷：lvm vgscan • 激活指定的逻辑卷：lvm vgchange -ay /dev/VolGroup00 • 恢复或重建fstab配置文件

三、系统故障的分析及排查 系统启动类故障排除-遗忘root用户密码 • 故障原因 • 遗忘root用户的密码 • 故障现象 • 无法进行需要root权限的管理操作 • 若没有其他可用帐号，将无法登录系统 • 解决思路 • 引导进入单用户模式，然后重设密码 • grub > kernel ... single 或s 或1 • 或进入急救模式，然后重设密码

三、系统故障的分析及排查 软件包类故障排除-rpm数据库损坏 • 故障原因 • 非正常关机、误删除运行中的程序文件 • RPM数据文件被误写或删除 • 故障现象 • 不能正常查询rpm包信息 • 无法安装、升级或卸载软件包等 • 解决思路 • 重建RPM数据库 • rpm --rebuilddb或 rpm --initdb

三、系统故障的分析及排查 软件包类故障排除-缺少*.so类文件 • 故障原因 • 软件正常运行所需要的依赖包没有安装 • 系统找不到依赖包的 *.so 共享链接库 • 故障现象 • 无法正常编译、安装或运行软件 • 报错提示“缺少... .so文件” • 解决思路 • 确认已安装能提供相应 *.so 共享库的软件包 • 添加库文件搜索路径，并更新缓存 [root@localhost~]# vi /etc/ld.so.conf …… /usr/local/mysql/lib/mysql [root@localhost~]# ldconfig

三、系统故障的分析及排查 文件系统、磁盘类故障-修复损坏的文件系统 • 故障原因 • 非正常关机、突然断电、设备读写失误等 • 文件系统的超级块（super-block）信息被破坏 • 故障现象 • 无法向分区中读取或写入数据 • 启动后提示“Give root password for maintenance” • 解决思路 • 根据提示输入root口令，进入修复状态 • 使用fsck命令进行修复

三、系统故障的分析及排查 文件系统、磁盘类故障-修复损坏的文件系统 • 应用示例： • 模拟对/dev/sdb1分区的破坏操作 • dd if=/dev/zero of=/dev/sdb1 bs=512 count=4 • 检查是否能挂载该分区 • 报错：mount: you must specify the filesystem type • 对/dev/sdb1分区进行修复 • fsck -yt ext3 /dev/sdb1 • 再次挂载该分区

三、系统故障的分析及排查 文件系统、磁盘类故障-磁盘资源耗尽 • 故障原因 • 磁盘空间已被大量的数据占满，空间耗尽 • 虽然还有可用空间，但文件数节点耗尽 • 故障现象 • 无法写入新的文件，提示“… : 设备上没有空间” • 部分程序无法运行，甚至系统无法启动 • 解决思路 • 清理磁盘空间，删除无用、冗余的文件 • 转移或删除占用大量节点的琐碎文件 • 进入单用户模式、急救模式进行修复 • 为用户设置磁盘配额

三、系统故障的分析及排查 文件系统、磁盘类故障-无法卸载已挂载的设备 • 故障原因 • 需要卸载的设备正在被使用 • 故障现象 • 无法卸载设备，提示“... device is busy” • 解决思路 • 将工作目录切换到挂载点以外 • 退出正在使用该设备的程序 • 或使用fuser命令找出相关进程，并终止该进程 [root@localhost mnt]# fuser -mv /media/cdrom USER PID ACCESS COMMAND /media/cdrom: root 3297 ..c.. bash [root@localhost mnt]# fuser -k /media/cdrom

三、系统故障的分析及排查 文件系统、磁盘类故障-检测硬盘中的坏道 • 故障原因 • 磁盘设备中存在坏道（逻辑的或物理的） • 故障现象 • 部分文件无法正常访问，提示文件损坏 • 新建立的分区无法完成格式化 • 访问磁盘设备时死机，磁盘发出异常声响 • 解决思路 • 检测硬盘中是否存在坏道 • mkfs -t ext3 -c /dev/sdb1 或badblocks -sv /dev/sdb1 • 修复硬盘，或更换新的硬盘

三、系统故障的分析及排查 系统性能监控-查看CPU负载 • 执行uptime命令 • 运行时间，登录用户数，CPU平均负载 • 查看/proc/loadavg文件 • CPU平均负载，活动进程数/总数，最近进程的PID [root@localhost ~]# uptime 05:33:11 up 7:22, 2 users, load average: 0.04, 0.09, 0.08 [root@localhost ~]# cat /proc/loadavg 0.15 0.03 0.01 4/84 25697

三、系统故障的分析及排查 系统性能监控-查看内存使用情况 • vmstat命令 • 报告系统虚拟存储使用情况，包括内存使用信息 • free命令 • 显示系统的物理内存和交换空间的使用情况 [root@localhost ~]# vmstat procs ---------memory--------- --swap-- --io-- --system-- -----cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 0 0 0 304280 27084 145844 0 0 29 8 1007 20 0 2 98 0 0 [root@localhost ~]# free total used free shared buffers cached Mem: 515600 211320 304280 0 27264 145852 -/+ buffers/cache: 38204 477396 Swap: 1048568 0 1048568

三、系统故障的分析及排查 系统性能监控-磁盘I/O性能监控 • iostat命令 • 用于查看系统磁盘I/O统计信息 • 由软件包sysstat-7.0.0-3.el5.i386.rpm提供 • sysstat还提供了 mpstat命令，用于显示进程负载信息 [root@localhost ~]# mpstat Linux 2.6.18-8.el5 (localhost.localdomain) 2012年08月10日 05时18分11秒 CPU %user %nice %sys %iowait %irq %soft %steal %idle intr/s 05时18分11秒 all 0.45 0.02 1.93 3.08 0.02 0.07 0.00 94.43 1010.03 [root@localhost ~]# iostat -dkt 5 Linux 2.6.18-8.el5 (localhost.localdomain) 2009年05月24日 Time: 16时17分49秒 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 1.28 15.12 6.54 167183 72314 sdb 0.83 11.95 1.95 132182 21526 dm-0 2.40 14.95 6.54 165325 72312 dm-1 0.01 0.04 0.00 456 0 hdc 0.02 0.07 0.00 746 0

四、故障维修注意事项 服务器故障排错的基本原则： 1、尽量恢复系统缺省配置（1）硬件配置：去除第三方厂商备件和非标配备件；（2）资源配置：清除CMOS，恢复资源初始配置；（3）BIOS，F/W，驱动程序：升级最新的BIOS，F/W和相关驱动程序；（4）TPL：扩展的第三方的I/O卡属于该机型的硬件兼容列表（TPL）吗？ 2、从基本到复杂（1）系统上从个体到网络：首先将存在故障的服务器独立运行，待测试正常后再接入网络运行，观察故障现象变化并处理。（2）硬件上从最小系统到现实系统：指从可以运行的硬件开始逐步到现实系统为止。（3）软件上从基本系统到现实系统：指从基本操作系统开始逐步到现实系统为止。 3、交换对比（1）在最大可能相同的条件下，交换操作简单效果明显的部件；（2）交换NOS载体，既交换软件环境；（3）交换硬件，既交换硬件环境；（4）交换整机，既交换整体环境

四、故障维修注意事项 服务器硬件维护注意事项： • 只有合格的技术人员才可以对主板进行设置 • 系统电源开关：系统前面板上的直流电源开关并不能关闭系统电源的交流输入，系统中尚有8mA的伺服电流，在设置之前，必须拔下系统交流电源电缆 • 系统外界设备：必须拔下系统外接网线和Modem等外接设备，否则可能会对人员或设备造成意外伤害 • 静电释放和静电释放保护措施：静电释放会对主板、硬盘、板卡和系统的其它部件造成损害，在您要对系统硬件进行设置时，最好在防静电环境下进行（一端接地） • 静电释放和板卡持拿：因为板卡上的芯片对静电特别敏感，持拿板卡必须小心，只能接触主板的边沿。当板卡暂时不用时，必须把它放回专用的防静电袋中，芯片朝上放在接地平台上 • 机箱盖：为了系统正常散热和空气流通，在系统上电前一定要安装机箱盖，否则会对系统部件造成损害，机架式服务器要特别注意

四、故障维修注意事项 关于最小化和还原出厂配置 • 遇到复杂问题时，需要进行机器的最小化操作来进行问题定位，笼统的讲，最小化指单cpu、单内存或双内存（根据主板要求决定）、主板、电源接显示器开机测试，其他的板卡、跳线等都去掉。 • 但由于机型的差异，通过一些案例分析，我们真正做到最小化了么？ • 还原到出厂配置要求保证原厂的部件，去掉用户自己扩配的部件，甚至要求bios版本的还原。 • 硬件故障并不单单指硬件有问题，它也指硬件之间不兼容。因为服务器的正常运作需要各部件之间的大力协调。建议大家在采购各元件时，都采用同一品牌原装的，并且要采用能发挥服务器性能的元件（上例中的旧式网卡即使正常也会严重影响服务器性能），这样才不会发生莫明其妙的故障。

四、故障维修注意事项 外设故障不可小视这些外设部件往往是最容易被忽略的，但这些故障会引起以下故障：切换器故障导致蓝屏；键盘故障导致开机报错；鼠标线缆被老鼠咬了或者键盘故障导致开机报警；安装as4.6死机，安装其他系统没问题有可能是显示器的缘故；必要时要进行替换测试。

突发事故应急及故障分析

突发事故应急及故障分析

Presentation Transcript