网络告警分类有哪些？路由调优时一眼看懂告警类型

发布时间：2026-04-04 23:31:44 阅读：181 次

家里路由器突然掉线，监控摄像头黑屏，公司核心交换机反复报“链路中断”，这时候网管第一反应不是重启，而是打开网管系统看告警——但满屏红黄信息里，哪些该马上处理，哪些可以缓一缓？关键就卡在：你得认得清告警的‘身份’。

按严重程度分：红黄蓝绿，不是随便配的颜色

大多数网管平台（比如Zabbix、Cacti、华为eSight、H3C iMC）都用颜色标等级，背后是统一逻辑：

紧急（Critical/红色）：业务已中断。例如：核心路由器BGP邻居全Down、防火墙主备切换失败、光模块收光低于-28dBm导致端口DOWN。
主要（Major/橙色）：功能受损但未断。比如：某条OSPF链路状态变为Down，但备份路由还在；CPU使用率持续92%超5分钟。
次要（Minor/黄色）：潜在风险。像：接口错包率每秒超100个、温度传感器读数达68℃（阈值70℃）、ARP表项接近上限。
警告（Warning/蓝色）：提示性信息。如：SNMP trap收到设备重启日志、某VLAN内MAC地址学习速率突增3倍（可能有环路苗头）。

按触发来源分：设备、协议、应用，各管一摊

告警不是凭空来的，得知道它从哪蹦出来的：

设备层告警：硬件出问题。比如：电源模块失效、风扇转速低于阈值、内存ECC校验错误次数超标。这类告警通常带设备SN和槽位号，像：

ALERT: [HW] PSU-2 FAIL on Device SN: HUAWEI-5A8XK9Z, Slot: 3

协议层告警：网络“对话”出了岔子。BGP邻居震荡、STP拓扑变更频繁、ISIS LSP老化超时，都属于这一类。它们往往伴随时间戳和对端IP，排查时直奔邻居设备查配置。

应用层告警：服务跑不动了。比如：DNS服务器响应超时、HTTP探测返回502、NTP时钟偏移超过128ms。这类告警不直接反映链路通断，但用户网页打不开、视频卡顿，根源常在这里。

按时间特性分：瞬时、持续、震荡，处理节奏不一样

同一个告警，出现方式不同，对策也不同：

“端口UP”又“端口DOWN”，10分钟内来回5次？这是震荡告警，大概率是光纤插松了、双工模式不匹配，或者生成树正在收敛——别急着改配置，先查物理连接。
“CPU利用率>90%”持续亮红2小时？这是持续告警，要立刻查进程：是不是某个ACL规则太宽泛，导致TCAM打满；或是有人在后台跑挖矿脚本。
“接口CRC错误计数新增1”——这种瞬时告警单次出现可忽略，但若每天固定时段出现，就得怀疑是不是雷雨天气干扰了室外网桥信号。

实战小贴士：别被“告警风暴”带偏

半夜三点，几十台设备同时报“SNMP timeout”，别慌着一台台登录。先看源头：是不是网管服务器自身负载爆了？还是汇聚层交换机上联光模块故障，导致下游所有设备失联？这时一个“根因告警”（Root Cause Alert）比一百个衍生告警有用得多——主流网管系统支持告警关联分析，记得打开这个功能。