知易网
白蓝主题五 · 清爽阅读
首页  > 硬件维护

告警信息怎么看?老运维手把手教你快速定位硬件问题

机房里服务器突然亮起红灯,监控页面弹出一串英文告警,屏幕上滚动着“SMART error”、“Fan RPM low”、“PSU 2 failure”……这时候别慌,不是系统崩了,是硬件在‘说话’。

先看位置:告警从哪来?

不同设备的告警入口不一样。服务器面板上的LED指示灯(比如IBM叫UID灯、Dell叫iDRAC状态灯)最直观——红灯常亮基本就是主板、电源或风扇出问题;华为交换机背板上标着“ALM”的灯闪得急,八成是模块温度超限。如果是通过管理界面看到的,比如iDRAC、iLO、IMM或者H3C的Web网管,点进‘System Event Log’或‘Hardware Health’就能翻到原始记录。

再读内容:三步拆解一条告警

拿这条真实日志举例:

[2024-06-12 09:23:17] CRITICAL - Disk 3 (Slot 3, RAID 5) - Predictive Failure

① 时间戳(2024-06-12 09:23:17):不是当前时间才重要,要看是不是连续多次出现,隔几分钟就报一次,基本可以断定是真故障;
② 级别(CRITICAL):Critical/Alert/Fatal 是要立刻处理的;Warning 可以稍缓,但别拖过夜;Info 级别多数是状态提示,比如“Fan speed adjusted”,不用管;
③ 实体+原因(Disk 3 / Predictive Failure):精准定位到第3槽位硬盘,“Predictive Failure”说明SMART检测到坏道趋势,不是误报——这时候就得换盘了,别等它真掉线。

常见缩写速查表

刚接触容易被缩写绕晕:
• PSU = Power Supply Unit(电源模块)
• DIMM = Dual In-line Memory Module(内存条)
• NIC = Network Interface Card(网卡)
• SATA/SAS Link Down = 数据线松动或控制器异常
• ECC Error = 内存校验错误,单次可忽略,反复出现要考虑换内存条

别信截图,要抓原始日志

有人手机拍下告警界面就去问同事:“这个‘Thermal trip’啥意思?”其实后面还有一行小字:“CPU Temp = 98°C”。温度传感器没坏,是散热硅脂干了或者风扇积灰堵死。所以务必点开详情页,找‘Full Log’或‘Raw Message’按钮,把完整字段复制下来——光看标题,就像只听半句话。

最后提醒一句:有些厂商告警会‘套娃’。比如看到‘RAID Controller Offline’,别急着换控制器,先进BIOS看看是否被禁用了,或者检查SAS线有没有松动。硬件告警不是谜语,它是线索,不是判决书。