故障现象
公司有两台关键的服务器,一个是主服务器,一个是备用服务器。中间通过心跳线连接,在某台主机一次重启后,网络设置没有任何改动,而心跳功能却不能实现了,两台机器不能同时心跳线互通。
诊断过程
这次事可闹大了,这可是公司关键业务的服务器,连老总都惊动了,他可不管你怎么处理,他只关心机器能否正常运转,现在已经是凌晨2点半了,留给我只有几个小时的时间了在明天早上上班前可一定要搞定,否则后果…….
赶快抓紧时间,一步一步来,首先这次重启只是因为改动了几个配置文件, 要生效就必须要重启系统。不过幸好有备份、先不管三七二十一。恢复配置文件再重启。故障依旧两台机器都可正常运行,心跳线却依然有问题。再查看每台机器心跳线连接的网卡状态及配置 ,状态都是没有问题 ,网卡灯也是亮的。难道是网线没插好。或是有问题。重新用一根确认,网线是好的,可是两个服务器之间还是不通。奇怪,这是什么原因,排除物理问题,那肯定是设置问题。
没办法,只好将两台机器网卡状态一项一项的比较。这是怎么回事,突然我发现两个网卡的速率及状态不一样,一个是100Mb/s全双工,而另一个则是 10Mb/s半双工。比来比去只有这一项不同。难道是这个原因,不管了,死马当活马医了,把两台机器的网卡状态统一设置为10口Mb/s全双工RESET一下。我再Ping,问题解决了。再重新设置配置文件,这次强制网卡状态为100Mb/。全双工,重新启动机器 ,服务器工作一切正常。看看老总紧缩的眉头舒展开,我在想这个月的奖金是不是会……
排除心得
本次故障的原因其实非常简单,但表现出来的现象则稍微复杂一些。该服务器使用的是一个10/100 Mb/s的自适应以太网卡,设计速度为100Mb/s。机器重启后,网卡自动选择状态。由于两边网卡的工作状态不一致,导致网络不通。
现在网卡常见的有 10Mb/SI 00Mb/s和 10/100 Mb/s自适应网卡、当两个相同固定速车的网卡连接时一般不会产生什么大问题 可当使用10/100Mb/S的自适应以太网卡,有时会产生一些莫名的问题,建议大家在使用这类网卡时最好设置一个初始的速率,且最好两边速率相同。建议不要使用自适应,速率设置的问题常常会导致网络时通时不通。
另外还有一个全双工和半双工模式选择和是否匹配的问题。全双工模式发送者和接受者可以在连接线路上同时发送数据,发送的方向相反。发送和接受同时进行,需要两对电缆,这种连接被认为是点到点的连接,并且几乎是无冲突的。全双工的建立需要网卡有全双工的能力。半双工模式,在发送者和接受者之间同一时间只能沿同一个方向传输数据,存在着竞争和冲突。两种不同的传输模式在设置时需要注意,一定要相一致,否则由于模式不匹配往往会造成网络不通等问题。
何为心跳线
两台主机A、B ;其中A为工作机,B为备份机。它们之间通过一根心跳线采连接,这也称为“心跳检测”。心跳线主要利用一条RS 233检测链路来完成,采用Ping方式检测验证系统宕机检测的准确性。
安装在主机上的高可用软件通过心跳线来实时监测对方的运行状态。一旦正在工作的主机A 因为各种硬件故障,如电源失效、主要部件失效或者启动盘失效等导致系统发生故障,主机B 可以立即投入工作。这样可以在最大限度上保证网络地正常运行。