家里路由器突然掉线,监控摄像头黑屏,公司核心交换机反复报“链路中断”,这时候网管第一反应不是重启,而是打开网管系统看告警——但满屏红黄信息里,哪些该马上处理,哪些可以缓一缓?关键就卡在:你得认得清告警的‘身份’。
按严重程度分:红黄蓝绿,不是随便配的颜色
大多数网管平台(比如Zabbix、Cacti、华为eSight、H3C iMC)都用颜色标等级,背后是统一逻辑:
- 紧急(Critical/红色):业务已中断。例如:核心路由器BGP邻居全Down、防火墙主备切换失败、光模块收光低于-28dBm导致端口DOWN。
- 主要(Major/橙色):功能受损但未断。比如:某条OSPF链路状态变为Down,但备份路由还在;CPU使用率持续92%超5分钟。
- 次要(Minor/黄色):潜在风险。像:接口错包率每秒超100个、温度传感器读数达68℃(阈值70℃)、ARP表项接近上限。
- 警告(Warning/蓝色):提示性信息。如:SNMP trap收到设备重启日志、某VLAN内MAC地址学习速率突增3倍(可能有环路苗头)。
按触发来源分:设备、协议、应用,各管一摊
告警不是凭空来的,得知道它从哪蹦出来的:
设备层告警:硬件出问题。比如:电源模块失效、风扇转速低于阈值、内存ECC校验错误次数超标。这类告警通常带设备SN和槽位号,像:
ALERT: [HW] PSU-2 FAIL on Device SN: HUAWEI-5A8XK9Z, Slot: 3协议层告警:网络“对话”出了岔子。BGP邻居震荡、STP拓扑变更频繁、ISIS LSP老化超时,都属于这一类。它们往往伴随时间戳和对端IP,排查时直奔邻居设备查配置。
应用层告警:服务跑不动了。比如:DNS服务器响应超时、HTTP探测返回502、NTP时钟偏移超过128ms。这类告警不直接反映链路通断,但用户网页打不开、视频卡顿,根源常在这里。
按时间特性分:瞬时、持续、震荡,处理节奏不一样
同一个告警,出现方式不同,对策也不同:
- “端口UP”又“端口DOWN”,10分钟内来回5次?这是震荡告警,大概率是光纤插松了、双工模式不匹配,或者生成树正在收敛——别急着改配置,先查物理连接。
- “CPU利用率>90%”持续亮红2小时?这是持续告警,要立刻查进程:是不是某个ACL规则太宽泛,导致TCAM打满;或是有人在后台跑挖矿脚本。
- “接口CRC错误计数新增1”——这种瞬时告警单次出现可忽略,但若每天固定时段出现,就得怀疑是不是雷雨天气干扰了室外网桥信号。
实战小贴士:别被“告警风暴”带偏
半夜三点,几十台设备同时报“SNMP timeout”,别慌着一台台登录。先看源头:是不是网管服务器自身负载爆了?还是汇聚层交换机上联光模块故障,导致下游所有设备失联?这时一个“根因告警”(Root Cause Alert)比一百个衍生告警有用得多——主流网管系统支持告警关联分析,记得打开这个功能。