华为ar路由器故障案例处理(华为工业路由器怎么设置)

用户无法上网典型故障案例

  • AR有线网络经常断开,几分钟一次
  • 仅部分网页无法访问
  • 更换为PPPoE拨号上网后,有线用户无法上网,无线用户可以
  • 仅一个网段的用户无法上网
  • 多链路PPPoE拨号场景,一条链路拨号失败后用户无法上网

AR有线网络经常断开,几分钟一次

故障现象

用户使用AR作为出口网关,用户在通过有线网络上网时,经常会断网,几分钟发生一次。路由器下实际接入的终端用户数仅二十多个,远没有达到路由器可接入用户数的规格上限。

根因分析

  • 私网有异常流量,导致设备的Session和Block内存资源超过阈值,无可用的Session和Block资源供用户上网。虽然设备会定时清理内存资源,但是由于异常流量较大,资源很快会被再次耗尽,导致用户会经常断网。
  • 设备温度过高或者CPU利用率过高时,也会导致用户在通过有线网络上网时经常断网,此时需要采取措施降低设备温度或CPU利用率。
  • 设备软件版本过低时,也可能会导致用户上网时断时续,此时,可以尝试升级版本解决问题。

操作步骤

  1. 执行命令display logbuffer,查看Log缓冲区记录的信息中是否有大量Session和Block内存资源过载的日志。
<Huawei> display logbuffer
Logging buffer configuration and contents: enabled                              
Allowed max buffer size: 1024                                                   
Actual buffer size: 512                                                         
Channel number: 4, Channel name: logbuffer                                      
Dropped messages: 0                                                             
Overwritten messages: 167                                                       
Current messages: 512 
Mar  5 2021 15:47:25+08:00 Huawei %%01FORWARD/4/SESSION-RES-LACK(l)[135]:The device session resources were overloaded.(Usage = 94%)
Mar  5 2021 16:29:25+08:00 Huawei %%01FORWARD/4/CAP-BLOCK-RES-LACK(l)[259]:The block memory resources were overloaded.(Usage = 97%)
Mar  5 2021 16:34:25+08:00 Huawei %%01FORWARD/4/SESSION-RES-LACK(l)[261]:The device session resources were overloaded.(Usage = 92%)
Mar  5 2021 16:43:25+08:00 Huawei %%01FORWARD/4/CAP-BLOCK-RES-LACK(l)[273]:The block memory resources were overloaded.(Usage = 96%)

2.进入诊断视图,执行命令display session statistics top 10 order-by source-ip根据源IP地址统计Top 10用户的Session信息。如果查到Top 10会话里有大量私网终端建立的会话(IP地址为私网终端的IP地址),则执行命令display session statistics top 10 order-by destination-port进一步查看私网终端建立的会话的端口信息。本例中,私网用户建立了大量目的端口为445和1433的会话。此时,建议在私网接口上配置ACL规则拒绝目的端口为445和1433的流量通过。

<Huawei> system-view
[Huawei] diagnose
[Huawei-diagnose] display session statistics top 10 order-by source-ip
Session statistic top 10 (Condition: Source IP, Service: SESSION, Items: 10, Total Sessions: 25768)
-------------------------------------------------------------------------------------------------
TOP-N     IP/Port                       Counts              Percentage(%)       
-------------------------------------------------------------------------------------------------
1         192.168.1.99                  19714               76.505744           
2         192.168.1.88                  5988                23.238125           
3         192.168.1.165                 9                   0.034927   
[Huawei-diagnose] display session statistics top 10 order-by destination-port
Session statistic top 10 (Condition: Destination Port, Service: SESSION, Items: 10, Total Sessions: 25768)
-------------------------------------------------------------------------------------------------
TOP-N     IP/Port                       Counts              Percentage(%)       
-------------------------------------------------------------------------------------------------
1         445                           15486               60.097796           
2         1433                          9565                37.119683           
3         3389                          648                 2.514747
[Huawei-diagnose] quit  
[Huawei] interface GigabitEthernet 0/0/0
[Huawei-GigabitEthernet0/0/0] display this
#
ip address 192.168.1.255 255.255.255.0
#
[Huawei-GigabitEthernet0/0/0] quit

在流策略里绑定ACL并将流策略应用到私网接口,不允许目的端口为445和1433的流量通过私网接口,解决故障。

[Huawei] acl 3000 
[Huawei-acl-adv-3000] rule 20 permit tcp  destination-port eq 445
[Huawei-acl-adv-3000] rule 25 permit tcp  destination-port eq 1433
[Huawei-acl-adv-3000] quit
[Huawei] traffic classifier virus operator or
[Huawei-classifier-virus] if-match acl 3000
[Huawei-classifier-virus] quit
[Huawei] traffic behavior virus
[Huawei-behavior-virus] deny
[Huawei-behavior-virus] quit
[Huawei] traffic policy virus 
[Huawei-trafficpolicy-virus] classifier virus behavior virus 
[Huawei-trafficpolicy-virus] quit
[Huawei] interface GigabitEthernet 0/0/0
[Huawei-GigabitEthernet0/0/0] traffic-policy virus outbound
[Huawei-GigabitEthernet0/0/0] traffic-policy virus inbound
[Huawei-GigabitEthernet0/0/0] quit

执行命令display temperature all查看设备上各单板的温度信息,“Status”显示为ABNORMAL表示温度过高,单板异常。

<Huawei> display temperature all                                                                                                    
---------------------------------------------------------------------------     
 Slot  Card  Sensor No.  SensorName          Status    Upper  Lower  Temp(C)    
---------------------------------------------------------------------------     
 1     -     1           2FE TEMP            NORMAL    75     0      40         
 2     -     1           1SA TEMP            NORMAL    74     0      53         
 3     -     1           1CPOS-155M TEMP     ABNORMAL  90     0      -         
 4     -     1           1ADSL-A/M TEMP      NORMAL    70     0      49         
 5     -     1           8FE1GE TEMP         NORMAL    85     0      57         
 8     -     1           1STM4 TEMP          NORMAL    74     0      39  

产生温度过高告警的可能原因

  • 设备排风不畅,导致热量散发不出。
  • 空闲槽位未插入假面板。
  • 设备所处环境温度过高。
  • 设备的风扇数量不足。
  • 设备的风扇发生故障。
  • 芯片温度过高。

排除温度过高告警处理步骤

  1. 清洁风扇排风区域,检查空闲的槽位是否已经插入假面板,保证排风通畅,并检查告警是否被消除。
  2. 1)Y=>10
  3. 2)N=>2
  4. 查看设备所处环境温度是否过高。
  5. 1)Y=>3
  6. 2)N=>4
  7. 降低机房环境温度=>4。
  8. 查看设备的风扇是否都在位。
  9. 1)Y=>6
  10. 2)N=>5
  11. 增加风扇数量=>6。
  12. 通过命令display fan查看风扇的各种状态信息,检查风扇是否发生故障。
  13. 1)Y=>7
  14. 2)N=>8
  15. 更换发生故障的风扇=>8。
  16. 通过display temperature all命令查看设备的温度情况,检查温度是否过高。
  17. 1)Y=>9
  18. 2)N=>10
  19. 请通过收集信息并联系技术支持。
  20. 结束。

确认故障排除的方法

在网管上不再出现该告警。

使用命令display trapbuffer查看Trapbuffer中的内容,不再有该告警产生。

使用命令terminal monitorterminal trapping打开屏显告警,不再有该告警产生。

4.执行命令display cpu-usage查看设备CPU占用率的统计信息。一般情况下,如果系统CPU占用率长时间运行时不超过80%,短时间内不超过95%,不是持续升高,且未产生CPU占用率过高的告警,可认为处于正常范围。超过80%且产生CPU占用率过高的告警时,请参考解决问题。

<Huawei> display cpu-usage
CPU   Usage Stat. Cycle: 10 (Second)                                            
CPU   Usage Stat. Time : 2013-09-24  10:11:55                                   
Control Plane              
    CPU Usage: 23.3%   Max: 100%                                                
    User: 10.7%   System:  6.9%   SoftIrq:  0.0%   HardIrq:  5.5%   Idle: 76.7% 

    CPU utilization for ten seconds: 23.3%  one minute:  22.0%  five minutes:  2
3.0% .                     
Data    Plane              
    CPU Usage:  1.7%   Max: 100%                                                
    CPU utilization for ten seconds:  1.7%  one minute:   1.6%  five minutes:   
1.6% .                     

PID   ProcessName         CPU%     CoreIndex      Runtime     State             
194   cap32               1.7%      CPU1           26132042    R                
193   vrp                20.0%      CPU0           11216335    S 
.....

当设备CPU占用率过高时,可观察设备或网络是否存在以下情况:

  1. 设备CPU占用率是持续高还是瞬间变高。瞬间变高可能是因为某个操作导致,比如设备刚启动、在某一时间点集中读取光模块信息、瞬间流量增多等,一般不影响设备运行。
  2. 查看是什么任务进程导致了CPU占用率过高,对该任务进行分析。
  3. 查看日志和告警信息,确定是否存在硬件故障告警。
  4. 通过日志或者告警查看设备上是否存在端口频繁Up/Down的情况,如果存在,请检查端口上光模块是否发生故障,是否使用了华为非认证光模块。同时需要对端口配置和端口流量进行分析。
  5. 是否有网管频繁操作设备。
  6. 检查设备是否发生STP震荡或者路由协议震荡。
  7. 网络结构是否发生了变化,网络中是否存在环路。
  8. 网络上是否存在恶意攻击行为。

5.执行命令display version查看设备的版本信息。如果版本过低,请登录华为技术支持网站获取最新的版本,升级设备。以AR6120为例,选择“路由器”->“接入路由器”->“AR6000系列”->“AR6120”->“软件”,下载推荐的版本软件升级设备。

<Huawei> display version
Huawei Versatile Routing Platform Software
VRP (R) software, Version 5.120 (AR6300 V300R021C00)
Copyright (C) 2011-2012 HUAWEI TECH CO., LTD
Huawei AR6300 Router uptime is 0 week, 1 day, 5 hours, 10 minutes
BKP 0 version information:
1. PCB      Version  : AR01BAK2B VER.A
2. If Supporting PoE : No
3. Board    Type     : AR6300
4. MPU Slot Quantity : 1
5. LPU Slot Quantity : 8

MPU 11(Master) : uptime is 0 week, 1 day, 5 hours, 10 minutes
SDRAM Memory Size    : 2048    M bytes
Flash Memory Size    : 16      M bytes
NVRAM Memory Size    : 512     K bytes
SD Card1 Memory Size : 1882    M bytes
MPU version information :
1. PCB      Version  : AR01SRU3A VER.B
2. MAB      Version  : 0
3. Board    Type     : SRU-400H
4. CPLD0    Version  : 104
....

仅部分网页无法访问

故障现象

用户在上网过程中,发现仅部分网页无法访问或者访问慢,其他网页可以正常访问。

根因分析

如果有的网页可以访问,有的网页访问不了,这种情况大概率是由于报文分片参数配置不合理导致的。

操作步骤

  1. 执行命令display ip interface brief,查看公网接口是物理接口还是Dialer接口。
<Huawei> display ip interface brief
*down: administratively down                                                    
^down: standby                                                                  
(l): loopback                                                                   
(s): spoofing                                                                   
(E): E-Trunk down    
The number of interface that is UP in Physical is 2                             
The number of interface that is DOWN in Physical is 3                           
The number of interface that is UP in Protocol is 2                             
The number of interface that is DOWN in Protocol is 3                           

Interface                         IP Address/Mask      Physical   Protocol      
Atm0/0/0                          unassigned           down       down          
Bridge-if10                       unassigned           down       down          
MFR0/0/1                          unassigned           down       down          
NULL0                             unassigned           up         up(s)         
GE0/0/1                           x.x.x.x/24           up         up 

2.如果是物理接口,则在物理接口视图下执行命令tcp adjust-mss配置接口的TCP最大报文段长度,推荐数值为1200。

<Huawei> system-view
[Huawei] interface GigabitEthernet 0/0/1
[Huawei-GigabitEthernet0/0/1] tcp adjust-mss 1200 
[Huawei-GigabitEthernet0/0/1] quit

3.如果是Dialer接口,则在Dialer接口视图下执行命令tcp adjust-mss配置接口的TCP最大报文段长度,推荐数值为1200,并执行命令mtu配置接口的最大传输单元值为1492。

[Huawei] interface Dialer 0
[Huawei-Dialer0] tcp adjust-mss 1200
[Huawei-Dialer0] mtu 1492
[Huawei-Dialer0] restart
[Huawei-Dialer0] quit
[Huawei] quit

更换为PPPoE拨号上网后,有线用户无法上网,无线用户可以

故障现象

用户使用AR作为出口网关,上网业务正常。现由于业务需要,用户想更换为PPPoE拨号上网。更换后,用户访问有线网络不通,无线网络正常。

根因分析

Dialer接口下配置的mtutcp adjust-mss参数值一致导致PPPoE拨号失败,用户无法上网。

操作步骤

  1. 在Dialer接口视图下,执行命令display this,查看Dialer接口下配置的mtutcp adjust-mss参数值。
<Huawei> system-view
[Huawei] interface dialer 1
[Huawei-Dialer1] display this
#
link-protocol ppp
ppp chap user aaaaaaaaaa
ppp chap password cipher %@%@B`)sN)(^6*fNn=T,"9uK,eE%%@%@
ppp pap local-user aaaaaaaaaa password cipher %@%@B`)sN)(^6*fNn=T,"9uK,eE%%@%@
ppp ipcp dns admit-any
ppp ipcp dns request
mtu 1200
tcp adjust-mss 1200
ip address ppp-negotiate
dialer user arweb
dialer bundle 1
dialer-group 1
nat outbound 2998
#

2.执行命令undo mtu,将Dialer接口的MTU值恢复为默认值,并重启Dialer接口解决故障。

[Huawei-Dialer1] undo mtu
[Huawei-Dialer1] restart
[Huawei-Dialer1] quit
[Huawei] quit

仅一个网段的用户无法上网

现象描述

某企业使用AR作为出口网关,网络管理员发现有一个连续网段的用户始终无法上网,其他网段用户上网正常。

原因分析

公网接口上配置的NAT里绑定的ACL规则中deny掉了192.168.1.0/24网段的IP地址,导致该网段的所有用户都无法上网。

操作步骤

  1. 在公网接口视图下,执行命令display this,查看公网接口上配置的NAT里使用的ACL。
<Huawei> system-view
[Huawei] interface GigabitEthernet 0/0/1
[Huawei-GigabitEthernet0/0/1] display this
#
tcp adjust-mss 1200
ip address x.x.x.x 255.255.255.252
nat outbound 2999
#
[Huawei-GigabitEthernet0/0/1] quit

2.进入ACL视图,执行命令undo rule,删除deny规则。

[Huawei] acl name GigabitEthernet0/0/1 2999  
[Huawei-acl-basic-2999] display this
#
rule 5 deny source 192.168.1.0 0.0.0.255    
rule 6 permit source 192.168.2.0 0.0.0.255  
#
[Huawei-acl-basic-2999] undo rule 5
[Huawei-acl-basic-2999] quit
[Huawei] quit

多链路PPPoE拨号场景,一条链路拨号失败后用户无法上网

故障现象

用户使用AR作为出口网关,为了提高稳定性,用户使用多条链路PPPoE拨号上网。但是当其中一条链路拨号失败时,用户无法通过其他链路上网。

根因分析

一条PPPoE链路拨号失败后,该条链路对应的Dialer接口没有Down掉,导致该Dialer接口的默认路由仍然生效。用户的上网流量仍走这条有问题的链路,导致用户上网失败。

操作步骤

  1. 执行命令display ip interface brief,查看Dialer接口与IP相关的简要信息,包括IP地址、子网掩码、物理链路和协议的Up/Down状态等。
<Huawei> display ip interface brief
*down: administratively down                                                    
^down: standby                                                                  
(l): loopback                                                                   
(s): spoofing                                                                   
(E): E-Trunk down    
The number of interface that is UP in Physical is 2                             
The number of interface that is DOWN in Physical is 3                           
The number of interface that is UP in Protocol is 2                             
The number of interface that is DOWN in Protocol is 3                           

Interface                         IP Address/Mask      Physical   Protocol  
Dialer1                           unassigned           up         up(s)     
Dialer2                           100.64.40.165/32     up         up(s) 

2.执行命令display ip routing-table查看IPv4路由表的信息。

<Huawei> display ip routing-table
Route Flags: R - relay, D - download to fib, T - to vpn-instance
------------------------------------------------------------------------------
Routing Tables: Public
         Destinations : 31       Routes : 32       

Destination/Mask    Proto   Pre  Cost      Flags NextHop         Interface

        0.0.0.0/0   Static  60   0           D   0.0.0.0         Dialer1
                    Static  60   0           D   100.64.40.165   Dialer2

3.根据步骤1和步骤2查到的信息,可以看到Dialer1接口虽然拨号失败,未分配到IP地址,但是接口的物理和协议状态都为UP,导致Dialer1接口的路由仍然生效。此时,建议在每一个Dialer接口下配置命令dialer number 1 autodial,使Dialer接口拨号失败时转换为Down状态。

<Huawei> system-view
[Huawei] interface dialer 1
[Huawei-Dialer1] dialer number 1 autodial
[Huawei-Dialer1] quit
[Huawei] quit