上周去一个连锁咖啡馆做WiFi巡检,刚进门就发现前台iPad连不上内网,后厨打印机也掉线。老板一边擦咖啡机一边嘀咕:‘明明后台显示所有AP都在线啊?’——这事儿太常见了,不是设备没坏,是告警没到位。
别把Zabbix当万能胶水
很多团队一上来就堆Zabbix+Grafana+钉钉机器人,结果AP离线5分钟才弹消息,用户投诉电话都打完了。真正跑得稳的WiFi监控工具链,得按场景分层:底层看射频健康度(比如信道利用率突增、邻居干扰),中间看终端关联状态(异常断连频次、DHCP获取失败率),上层才管业务可用性(微信扫码点单超时、POS机支付失败)。
轻量级组合更接地气
中小门店真没必要整套Prometheus生态。我们试过用snmp-exporter + Node Exporter + Alertmanager配个简易规则:
groups:
- name: wifi_ap_alerts
rules:
再接个企业微信机器人,故障定位时间从平均22分钟压到4分钟内。别忘了人的那层“告警”
工具链再顺,也得让一线人员看得懂。我们在巡检平板上嵌了个小模块,不显示CPU占用率,只标红两个字:‘信号弱’或‘干扰强’,旁边带一键生成工单按钮。维修师傅扫一眼就知道该换天线还是挪路由器,不用翻指标定义文档。
说白了,监控告警工具链不是拼配置复杂度,而是让问题在用户喊出来之前,自己跳到你眼皮底下。