告警信息怎么看？硬件故障排查入门指南

机房里服务器突然亮起红灯，监控页面弹出一串英文告警，屏幕上滚动着“SMART error”、“Fan RPM low”、“PSU 2 failure”……这时候别慌，不是系统崩了，是硬件在‘说话’。

先看位置：告警从哪来？

不同设备的告警入口不一样。服务器面板上的LED指示灯（比如IBM叫UID灯、Dell叫iDRAC状态灯）最直观——红灯常亮基本就是主板、电源或风扇出问题；华为交换机背板上标着“ALM”的灯闪得急，八成是模块温度超限。如果是通过管理界面看到的，比如iDRAC、iLO、IMM或者H3C的Web网管，点进‘System Event Log’或‘Hardware Health’就能翻到原始记录。

再读内容：三步拆解一条告警

拿这条真实日志举例：

[2024-06-12 09:23:17] CRITICAL - Disk 3 (Slot 3, RAID 5) - Predictive Failure

① 时间戳（2024-06-12 09:23:17）：不是当前时间才重要，要看是不是连续多次出现，隔几分钟就报一次，基本可以断定是真故障；
② 级别（CRITICAL）：Critical/Alert/Fatal 是要立刻处理的；Warning 可以稍缓，但别拖过夜；Info 级别多数是状态提示，比如“Fan speed adjusted”，不用管；
③ 实体+原因（Disk 3 / Predictive Failure）：精准定位到第3槽位硬盘，“Predictive Failure”说明SMART检测到坏道趋势，不是误报——这时候就得换盘了，别等它真掉线。

常见缩写速查表

刚接触容易被缩写绕晕：
• PSU = Power Supply Unit（电源模块）
• DIMM = Dual In-line Memory Module（内存条）
• NIC = Network Interface Card（网卡）
• SATA/SAS Link Down = 数据线松动或控制器异常
• ECC Error = 内存校验错误，单次可忽略，反复出现要考虑换内存条

别信截图，要抓原始日志

有人手机拍下告警界面就去问同事：“这个‘Thermal trip’啥意思？”其实后面还有一行小字：“CPU Temp = 98°C”。温度传感器没坏，是散热硅脂干了或者风扇积灰堵死。所以务必点开详情页，找‘Full Log’或‘Raw Message’按钮，把完整字段复制下来——光看标题，就像只听半句话。

最后提醒一句：有些厂商告警会‘套娃’。比如看到‘RAID Controller Offline’，别急着换控制器，先进BIOS看看是否被禁用了，或者检查SAS线有没有松动。硬件告警不是谜语，它是线索，不是判决书。

告警信息怎么看？老运维手把手教你快速定位硬件问题

先看位置：告警从哪来？

再读内容：三步拆解一条告警

常见缩写速查表

别信截图，要抓原始日志