# PVE WatchDog 看門狗


# 簡介

在維運中系統的可觀測性很重要,我們可以透過 watchdog 監測服務是否還活著,watchdog 可以是硬體也可以是軟體,而在 PVE 中兩種 (作業系統級與硬體物理級) 都有提供,兩種都有提供 自動重啟與定時檢測 的功能


# 優劣比較


# 作業系統級

優點

  • 不需硬體 Watchdog 裝置即可支援
  • 不需設定即已內建啟用與支援
  • 相容與泛用性最好

缺點

  • 若作業系統死當到連 Softdog 也死掉,無法自我重啟
  • 自我重啟時間較久

# 物理硬體級

優點

  • 準確的系統生存狀態判斷
  • 可以完全重啟作業系統
  • 可以更快速的完成重啟動作

缺點

  • 需要硬體支援
  • 需要另外設定開啟

# 在 PVE 啟動 Watchdog

進入 PVE Host

1
2
3
nano /etc/default/pve-ha-manager

#WATCHDOGMODULE=ipmiwatchdog 取消註解

即可使用 IPMI WatchDog


# 查看啟動狀態

1
service watchdog-mux status

# 進階使用

安裝 ipmi tool

1
2
3
apt-get install ipmitool

ipmitool mc watchdog get #查看 IPMI Watchdog 設定

透過 ipmitool 可見資訊

  • Watchdog Timer Is: Started/Running
    這個計數器的狀態為 Started/Running 表示正常,運作中。

  • Watchdog Timer Actions: Hard Reset (0x01)
    當計數器到達門檻時,要做硬體重新開機的動作。

  • Initial Countdown: 10 sec
    表示計數器門檻為 10 秒,達到後觸發 Actions 所定義的動作。


# 參考資料

  • [經驗分享] 開啟 Proxmox VE 的 IPMI Watchdog 支援