网络在如今的生活中起到了无可替代的作用, 比如网上购物, 网上股票交易, 网上商店, 网络电话......等等。 总之网络给人类带来了便捷!但是网络的故障却时时给人带来不快!快速的解决网络故障是我们网络管理者的首要任务, 也是我们的职责!
十一假期期间, 大家都已经休假, 我们管理员必须有一个人值班, 也够郁闷的, 第二天就出现有6栋楼网络故障, 我一个人呀, 这样大的网络故障我还是第一次遇见。 当时第一预感就是先稳一稳, 自己先理清思路, 制定查看故障的方案。 我就拿起我们当初的一手布线网络拓朴资料, 查看网络拓朴结构, 首先从最低层用户着手, 采用走访性质查看网络故障现象, 在去接入层查看交换网络设备配置, 在去汇聚层查看配置(去汇聚层又出现了一个小小的插曲, 因为设备配线间钥匙管理不善, 找不到汇聚层机房钥匙, 翻箱倒柜的找到了钥匙。 这一点作为我们网络管理者也是不能忽视的问题之一!)。 问题是发现了, 原来汇聚层的网络设备华为LS-3026FM光交换机挂了。 直接是电源指示灯都不亮。 我手边又没有备用替换网络设备。 就是有也都在库房, 我也取不出来。 无奈之下就向我们正在休假中的领导打电话催他们支援。
他们来了, 我们立马在库房找了个新的替换交换机, 带过去, 将坏交换的光模块取下, 插到替换交换机上, 将交换配置配好, 测试还是不通。 还有问题!还是交换机的问题?无奈之下, 又去库房重拿了一个LS-3026FM和同型号的光模块, 替换掉光模块, 经过设备调试, 走访用户端测试, 问题算是解决了。 整整用了4天时间, 想想只有7天假, 4天都在忙那个。
无疑对用户是造成了一定的损失, 也影响了我们部门的形象。 但是我们要清楚, 这个故障不仅仅是技术问题呀!作为一个合格的网络管理者, 保障网络的畅通, 快速的解决网络故障, 是我们的职责, 不仅仅需要技术的支持, 同时也需要一点点必要的管理经验!比如配线间钥匙的管理, 外界的因素也不容忽视哦!
随着经济的快速增长, 一家一端口一台电脑的设计方案, 也远远不够部分炒股者的需求, 作为学校的03年的网络设计方案的不足也慢慢浮现出水面。 网络故障也不可预知的频频发生!
一些用户因为端口的不足, 往往选择自己加设备。 谁加了他们也不上报, 这样给我们的管理带来许多不便!网络故障也层出不穷。 教学区固定ip, 不选择mac地址绑定, 但在用户申请ip的时候至少有其mac地址的记录, 发现某用户流量过高还可以打电话警告, 但是部分用户不服从该制度, 不登记。 挺聪明得, 看看隔壁办公室的ip配置, 在该ip附近随便找一个用, 这样就出现了, ip滥用现象, ip冲突现象时有发生;家属区dhcp, 又没有很好的管理方案!许多网管软件也派不上用场。 对dhcp用户来说:比如某用户中毒, 向设备狂发包, 影响网络设备性能, 造成网络出口速率低, 部分用户上网慢, 网络有严重丢包现象, 我们也没有什么高级的网络测试工具。 只有带个笔记本, 一根跳线在接入层的设备配线间内, 时时ping网关, 拔线, 寻找狂发包用户。 无疑这样的工作对我们管理员很累!
也就是在11月初, 一个特殊的网络问题出现了, 估计大家也应该没出现过的, 真的是莫不着头脑了.我们大领导出差, 办公室除了我们4个网络管理员, 一个技术主管, 他掌管我们机房所有的服务器, 路由器, 核心交换机.还有一个接故障电话的女孩.近来1, 2, 3, 4, 5号家属院分别有用户反映, 近来网络特慢, 时通时不通.我们也没留意!都是强调他们查毒, 杀毒.可是没过多久, 这几栋楼都上不了网了.有用户电话反映获取IP地址是169.92.2.115, 我们院里正确的DHCP获取的IP地址是100.100.X.X.根据我以前的经验总结很可能是的网络光链路故障, 具体看连接http://bbs.chinaitlab.com/thread-325421-1-1.html.我们就去看主机房到汇聚交换及接入层交换光路, 一切正常.将主交换设备重起还是无济于事, 到接入层设备机房查看, 设备状态正常.笔记本接到consol口, 查看交换配置一切正常, 接入普通端口获取ip地址还是169.X.X.X.将交换机重新启动, 马上获取ip地址, 突然获取正常, 但是不能浏览网页.将网卡禁用启用, 又获取的是那个169.X.X.X.
起初断定可能是上层主机房问题, 回去检查核心交换, 一切都是原来的配置, 一切正常, 没办法, 去研究已前的网络拓扑和一手的网络配置信息资料.有一个不小的发现, 故障所在区的1#, 2#, 3#, 4#.5#, 这5栋楼属于同一个Vlan125.当时我们几个人一起坐在会议室研究解决方案.一直到晚上9:00.最后决定将尝试的将Vlan125改划分到Vlan126上, 主负责有我的一个同事处理.第二天常识的改了vlan后当时是好了, 我不时有个疑问, 我问领导为什么Vlan125不行呢?以前Vlan125不是也可以的呀!而且是正常了好多年的呀!我领导也说不上来什么!他就带我去了汇聚交换机房, 核心交换机房查看Vlan125的信息.分析故障原因.设备配置Vlan125一切正常.正当我和领导思索, 其他人狂欢的时候, 电话响了.用户反映故障又出现了, 我们百思不得其解.我们冷静的想想, 换Vlan后可以了一会.说明问题是在用户端!可能有用户中毒或者架接了DHCP服务.最后决议将这5栋楼分割开来, 转接到不同的Vlan内.
我于是带了本子, 网络设备远程控制密码, 来到汇聚机房, 汇聚交换也是LS-3026FM.我的处理办法是:汇聚交换LS-3026FM配置不变, 将它的下边连接的设备通过LS-3026FM远程控制访问, 更改下层交换设备配置信息.我起先定了所需的配置规则:1#划到vlan120;2#划到vlan121;3#划到vlan122;4#划到vlan123;5#划到vlan124.在汇聚机房找一台网络设备也同样更改, 将它的更改和我远程控制楼号的更改相一致.这样我可以不用下楼到其他楼层看效果.直接拿跟跳线连接到这个设备上, 查看获取到的ip地址, 尝试上网, 测试网络连通性.直接在汇聚机房找到有问题的楼.这个方法不错, 当我调试到第3号楼的时候, 测试获取的ip地址是169.X.X.X, 问题就出在这个楼上, 但是我还是耐着性子继续更改其它楼的配置.测试完后, 其它楼都正常, 我欣喜万千, 一想这样找到了, 主要对3号楼单独处理, 就用我们以前最原始的隔离用户的方法处理.于是我就远程将所更改的设备配置恢复(因为是测试, 我就没有保存我当时更改的配置信息, 重起交换机配置自动恢复, 我就远程重起.这样和耗时间, 每远程重起一设备都需要3~5分钟.我没有那么好的性子, 要想想如果远程控制重起设备.设备的数量有18个之多!于是就想起到个单元楼道, 将楼道电源断掉再打开就可以实现设备重起了.
就那样做过之后, 这5栋楼的Vlan又回到了Vlan125.(我当时的想法是, 既然已经确定了3#楼有问题, 我直接用用户隔离法, 将用户一个一个隔离, 知道找到有问题用户!)但是出人意料的事又发生了.当我恢复其他楼的配置之后, 来到3#将笔记本接到交换机普通端口上, 测试获得ip地址还是169.X.X.X, 无奈之下将所有的接入用户拔掉.只留一个我自己笔记本那个端口, 将设备重起, 问题依旧!进入交换机控制端, 查看配置, 设备不停的警告2fun shutdown 交换机上第二个风扇坏了!个人感觉应该与这个警告没关系.即使是它的原因也不至于影响其他4栋楼的网络.我有些恼火了, 既然是这栋楼的问题, 就先将它断掉, 随即我就断掉了3#楼的交换机电源.其他楼网络应该没问题!到了晚上, 我电话回访用户, 他们反映说是下午好了时间不长, 问题又出现了!
晚上我躺在床上一直在想, 这个问题应该与设备本身的性能有关, 该类型的网络设备有华为S2403,E026.可以说在市场上都看不到的设备, 设备陈旧, 设备性能下降, 是一个原因;最主要的问题可以追究到存放设备的环境中, 我们都知道, 灰尘是网络设备的无形杀手!我们的接入层设备都是壁挂于单元楼顶阳台内的铁箱子.设备都是立放的!久而久之灰尘就弥漫了整个箱子.我们没次排除故障都不关清理里边的灰尘!再就是有用户私设DHCP服务!同事们都灰心了, 说这问题没办法处理!我不管那么多, 申请自己去尝试下!第二天我争的领导同意, 将我以前所做的配置保存到网络设备中.一大早我就去了故障地点.还是按以前的操作更改设备所在的Vlan, 改好后保存退出!我更改一个办公室就打电话报信说1#故障消失.......当听到这话我不知道有多高兴!继续更改, 当到3#时网络是通了, 只有一个用户反映它那不行.尾巴终于露出来了!我按办公室给我的电话找到那个用户, 进去后查看他们的布局使我大吃一惊.它是三室一厅, 每个房间一台台式机, 还有好几台笔记本.无语真是有钱人!查看它家布局, 门外网络端口引进, 接入一6口路由器, 通过路由接入一台式机.
查看网络, 一切正常, 不能浏览网页.Ping网关也正常, 起初以为是浏览器问题, 不过带我笔记本后故障依旧!随后断掉他们的路由, 直接接到笔记本, 一切正常.问题就在这个路由器上!就是因为它造成一大片网络故障;就是因为它折磨的我吃不饱, 睡不好!至今那样的问题再也没出现过!哎, 问题算是解决了.但是还是有点模糊!
估计大家对这个处理问题过程不感兴趣, 但是那种将大网络划分为小网络处理的方法值得大家学习!














