工业路由器丢包问题探究(二)--丢包监测与分析实战

来源:  星创易联 发布时间: 2024-03-28 15:52:28
导读:在上一篇文章中,我们总结了工业网络中丢包的常见成因以及潜在的严重危害。作为网络通信的枢纽,工业路由器要避免丢包问题的发生,首先需要对丢包情况进行全面的监测和分析。今天,我们就来分享一些丢包监测的实战经验。



image.png


为何需要专门监控丢包?


对于普通的办公网络而言,TCP/IP协议栈本身具有一定的丢包重传能力。但这种重传机制在工业实时控制场景中显然无法满足实时性要求。因此,工业以太网通常采用无连接的UDP协议,缺乏TCP层面的可靠性保证。


此外,工业控制系统中有大量仍在使用串口或经典网口的传统设备。对于这些使用非IP协议的现场总线,丢包一旦发生,设备就会直接掉线。


可见,工业网络对数据包交付的实时性和可靠性要求极为严格,不能容忍出现任何丢包。这就需要部署专门的监控手段,随时掌握丢包情况,一旦发现异常及时采取行动。


部署专业的丢包监测工具


image.png


对于工业网络中大量使用的以太网交换机、工业路由器等网络设备,我们可以在其WEB管理页面查看端口数据包统计信息,比如进框计数器、CRC错误等。有些支持Ping、Traceroute等工具也可以对关键路径的丢包率进行侦测。


除此之外,专门的网络监测诊断工具将会给我们更多帮助。使用"可视化拓朴"、"网络流量分析仪"等软件,可以清晰地看到网络拓扑结构、节点间链路利用率、数据流方向、丢包率等重要指标。


不过,这些传统的网络分析工具都是被动式的,无法覆盖工业现场协议领域,也无法进行丢包预测等智能分析。所以我们通常会部署基于流量镜像的智能型丢包监测系统。


流量镜像及智能分析系统


该系统的核心是在关键网络节点(如工业路由器端)通过port mirror(端口镜像)捕获所有数据包,并通过边缘计算网关将镜像数据传输至中心分析平台。


平台中的数据解码器模块,能够对工业协议(西门子S7、Modbus、OPC UA等)数据进行实时解析,识别其中的丢包情况。而且支持多场景协议并行解码,使得丢包监测的覆盖面更广。


与传统办公网络相比,工控网络除了TCP/UDP丢包外,还需要高度关注特定工业协议的PDU丢包问题。这种"上层"丢包,传统网络工具更难发现,但对生产影响同样巨大。


多源关联分析是该监测系统的另一大特色。它能够将丢包信息与网络拓扑结构、网元性能、环境参数、生产数据等多源异构数据进行大数据分析,从而智能化地定位丢包根源。


比如通过网元时延、重传、拥塞等数据指标的关联分析,可以判断丢包是由于链路带宽不足、硬件故障还是流量突发引起的。再结合温湿度、电磁场强等环境参数,能够进一步缩小故障原因范围。此外,系统还能通过机器学习算法发现潜在规律,对未来的丢包情况进行风险预测。


除了检测分析能力外,该系统还具有丢包事件告警、远程诊断介入等运维功能,是提升工业网络稳定性的有力利器。


实战案例分享


今年初,我所在的团队曾为某车间的防尘网络系统进行了升级改造。该系统共涉及11条环路拓扑的生产线光纤网络、45台工业交换机、80多台网关PLC和上百台有线无线IO等设备。


由于老旧网络的节点数量太多,虽然丢包率不高但已经存在瓶颈。特别是在夏季高温季节,还曾发生过多次"雪崩式"丢包而导致整条产线瘫痪。


针对这一问题,我们为每一条网络环上架设了丢包检测网关,主动发送自定义数据包对网络健康状态进行检测。与此同时,还在关键路由器部署了镜像装置以监控生产数据流,尤其是防尘PLC和本地HMI之间的工控协议流量。


通过大数据分析,我们最终发现原来丢包的主因是某型号交换机存在风扇老化引起过热,进而导致内存被腾挪至丢包的硬件缺陷。更换新的工业级交换机后,整个网络的丢包率就降至万分之一以下。同时,系统的智能预警功能也让运维管理更加主动和高效。


丢包监测分析是防患于未然、提高产线网络稳定性的关键一招。只有在掌握了丢包情况的全貌后,我们才能对症下药,从根源上解决丢包难题。当然,仅仅是监测还远远不够,我们还需要采取一系列针对性的优化措施,下一篇我将继续分享对策思路。


文章对应产品

SR500工业路由器(双口)
SR510工业路由器(电力)
SR700路由器(单模双卡)
SR700-D路由器(双模)

产品对应解决方案

在线咨询
产品PK
样机申请
选购攻略

微信扫一扫

微信联系
返回顶部