案例解析:无法上网故障分析与步步排查 | |
---|---|
http://www.sina.com.cn 2006年05月31日 09:21 天极yesky | |
作者:逢逢 为了实现办公电子化、现代化、信息化,不少单位都纷纷组建了内部局域网,并通过局域网与Internet进行了直接互联。不过在进行局域网上网的过程中,我们或许常常会遇到各种无法上网的故障,这些故障如果不及时排除将会影响我们的日常办公效率。为了有效帮助各位解决好局域网上网故障,本文特意从实战角度出发,向各位详细介绍两则由环路原因引起的无法上网故障的排除过程,希望能对大家有用! 实战无法访问Internet故障 某单位与笔者单位相距不足100米,该单位的局域网都是笔者和一帮兄弟共同规划、设计的。最近,该单位不少局域网用户打来电话,抱怨无法访问Internet;救急如救火,接到电话后笔者二话没说,迅速驱车赶到故障现场,并认真听取局域网用户对故障现象的描述。为了确认用户所说的故障现象是否属实,笔者随便在局域网网络中找了一台工作站进行上网测试,测试结果表明局域网真的不能访问Internet,而且任何一个网站页面都不能打开。该单位每个楼层都是使用一个普通的二层交换机与各个处室进行连接的,而每个楼层直接与一个三层交换机相连接,而三层交换机经过防火墙过滤后,直接与笔者单位的核心交换机连接并接通Internet网络的,其具体网络拓扑图如图1所示。
为了排查究竟是局域网内部有问题,还是外部有问题,笔者先是分别重新启动了一下三层交换机和网络防火墙,可是这些设备重新启动之后,局域网内的任何工作站还是无法访问到Internet中的内容;之后笔者又尝试着将局域网与三层交换机之间的线路连接断开,然后直接使用一台笔记本电脑接入到三层交换机中,并尝试在笔记本电脑中进行Internet连接,尝试结果表明Internet连接线路很正常,防火墙与三层交换机工作都很正常,很明显局域网不能访问Internet的故障是由局域网内网引起的。 为了登录进三层交换机对它的工作状态进行检查,笔者选用了telnet命令来登录交换机,不过在登录过程中发现三层交换机的反应相当迟钝,而且登录了很长时间都无法登录进去;不得已,笔者只好通过Console控制线缆连接到交换机对应的端口中,并使用超级终端方式尝试登录到三层交换机,这次登录操作虽然也耗费了不少时间,但勉强还是登录成功了。从登录过程来看,三层交换机的资源占用率较高,而且负荷比较重;当笔者查看该交换机的CPU资源利用率时,发现CPU耗用率已经达到96%左右,而且还经常处于100%占用状态,正常情况下交换机的CPU耗用率应该在50%以下,现在一直维持在90%以上,说明交换机运行不正常。 考虑当将局域网与三层交换机断开连接,而单独使用笔记本电脑与三层交换机连接时,三层交换机响应速度正常,而一旦将局域网与三层交换机连接好,交换机的CPU资源占用率立即大幅度提高,这说明局域网内部肯定有大容量的数据传输请求长期存在;为此笔者仔细对三层交换机各个连接端口对应的信号灯状态进行了对比、查看,发现来自二楼处室的端口信号灯处于长亮状态,而其他端口的信号灯都处于正常的闪烁状态,很明显来自二楼的某个处室数据交换流量非常大,从而导致三层交换机的负载一直居高不下,最终影响整个局域网无法正常上网。 将来自二楼交换机的网线从三层交换机的对应端口中拔除下来后,我们再对三层交换机的CPU利用率进行测试时,发现此时的CPU耗用率立即恢复到正常的30%左右,而且观察了很长一段时间后该数值保持稳定状态,而且局域网中其他用户的上网故障也立即消除了。对二楼各处室与二层交换机之间的连接线路进行检查时,发现某两个处室的连线由于被误接而导致网络局部产生环路现象,最终影响了整个局域网网络的正常上网传输,将该环路故障排除掉之后,再将二楼交换机的网线重新插入到三层交换机中后,发现局域网中的所有工作站都能正常访问Internet中的内容了。 实战上网时断时续故障 笔者单位的各个处室基本都有两台以上的电脑,为了保证各个处室的信息相对独立,笔者将每个处室的电脑都通过一个八口集线器,分别连接到一个VLAN交换机中,形成各自独立的子网,每个子网通过单位的路由器直接与Internet互联,其具体网络拓扑图如图2所示。最近各个处室的所有员工都不断向笔者反映,他们的子网在访问Internet时不正常,具体故障表现为:有时可以打开某个网页,但过不了多长时间任何网页又打不开了,可是不需要进行任何设置,同样的网页页面几秒钟之后又能被访问了,而后又会出现不能访问的现象,如此这样时断时续,但就是不能处于稳定上网状态。
根据上面的故障现象,笔者首先怀疑到是不是什么网络设备出现了问题;为了排查设备故障,笔者询问了相关管理人员是否在最近的某段时间,对路由器、防火墙或者交换机进行过参数调整,但这些管理人员都说没有对任何设备调整过;当笔者尝试着将交换机、路由器以及防火墙等设备一一重新启动之后,发现上述故障依然存在。为了缩小故障排查范围,笔者开始对外网和内网分别测试;断开VLAN交换机与路由器的直接连接,然后找来一台参数配置正确的笔记本电脑与路由器直接连接,并通过防火墙设备直接访问Internet,结果发现笔者电脑单独连接在路由器上时,可以正常地打开各种网站页面,而且在很长一段时间内不会出现断线现象;该测试可以表明上网时断时续故障与外网连接线路和出口无关,那问题多半出在单位的内部网络之中。 那会不会是交换机有什么问题呢?为了验证这样的猜想是否属实,笔者又将连接到交换机中的所有连接线路全部断开,然后将笔记本电脑单独插入到交换机中的一个端口中,并将笔记本电脑的IP地址配置成对应端口子网中的一个IP地址,之后再尝试进行上网连接,结果发现笔记本电脑仍然可以正常上网。到了这里,我们可以基本断定交换机本身也没有问题,而且问题只出现在交换机以下的各个终端处室中。接下来,笔者又将所有终端重新与交换机进行了连接,为了检查在这种连接状态下,交换机是否能够工作正常,笔者特意通过超级终端的连接方式登录进交换机控制系统,然后在其中对交换机的各个通信端口的工作状态进行逐一检查,寻找是否有什么异常现象出现;经过一番仔细的对比、查看,笔者发现交换机某一端口处的数据丢包率要比其他端口的数据丢包率高出许多,而且这种数值还处于动态增长之中,初步估计上网时断时续故障很有可能是交换机的该端口或者来自该端口的对应子网引起的;当笔者将插入该端口的网络连接线拔出时,发现交换机的各个端口工作状态都很正常,而且再从其他子网分别访问Internet时,上网操作也立即恢复正常了,而且打开的网页能够长时间地不断线,至此我们可以断定该网络故障就是由交换机的该端口或者来自该端口的对应子网引起的。 为了进一步确认究竟是交换机的对应端口有问题,还是连接该端口的子网有问题,笔者又将笔记本电脑的IP地址修改成对应该端口子网中的一个IP地址,并将笔记本直接插入到交换机的对应端口中,结果发现笔记本还是可以正常上网,很明显交换机自身的端口工作状态也是正常的,现在唯一可能的原因就是连接到该端口的子网内部有问题。 来到该子网现象继续查找故障,发现该子网中共有四台工作站,每台工作站都直接连接到一个八口集线器中,然后通过八口集线器与VLAN交换机直接互联;检查每一台工作站,发现它们都已经安装好了最新版本的瑞星杀毒软件,分别对每一台工作站进行病毒查杀操作时,并没有找到任何病毒,这表明上网时断时续故障肯定不是由网络病毒造成的。之后,笔者又将检查的重点聚焦在那个八口集线器上,本来笔者打算使用替代排除法来换掉那个八口集线器,正准备拔除连接到该集线器上的所有连接线缆时,笔者无意中看到有一条网络线缆竟然同时连接到集线器的两个端口中,这样一来就构成了内部环路,难怪来自该子网的数据丢包率非常高。当笔者将环路故障排除掉,并把该子网集线器重新与交换机连接好后,发现该子网的所有工作站也都能正常上网浏览信息了,而且上网连接也非常稳定;此时,再从其他子网测试网络连接情况时,笔者发现其他子网现在仍然工作正常,至此局域网中的所有子网都能正常上网了。 |