サーバを管理する~ IPMItoolについて② 状況把握コマンド

IPMI tool を使ってサーバを操作・監視するときに使用頻度の高いコマンドをご紹介するトピック2回目になります。

前回は電源関連の操作コマンドについてご紹介しました。

前回:サーバを管理する~ IPMItoolについて①

今回は、サーバに障害があった時の状況把握に使えるコマンドをご紹介します。

トラブルシューティングの進め方は状況によっては違います。サーバから煙が出てたら一目瞭然ですが、目に見えない不具合をいかに探し当てるか――宝の山を掘り当てる感覚に近いものです。

本当は何もないことが望ましいですが、問題を突き止めた時の快感も、エンジニア冥利につきることだと思います。

それではいってみましょう~!

自己診断テストコマンド

まず状況把握、ということで前回紹介した【ipmitool chassis status】を使用することもあるでしょう。ドライブのエラーなどもわかりますので、もちろん有効です。

その次にオススメしたいのがこちらです。

ipmitool bmc selftest

BMCの自己診断テストの結果を返します。

【passed】で成功です。

もし何か問題があったら、”corrupted” などで不具合箇所が表示されます。

センサーに関するコマンド

サーバトラブルの起因になることで疑うのはなんでしょう。。。?

ハードウェアに関することでしたら、まず “温度” でしょうか。そして “ファン” の状況も気になります。

熱やファンの状況を確認するために、センサー情報を見てみましょう。

ipmitool sdr

BMC にセンサーデータレコード (SDR) の内容を問い合わせ、指定されたタイプのセンサー情報を抽出します。次に各センサーに問い合わせて、その名前、読み取り値、およびステータスを出力します。

ただこれだとすべて表示されてしまうので、見たいものだけ抽出します。

ipmitool sdr|grep -i <抽出ワード>

<抽出ワード>に見たいものをこれから紹介するコマンドを入力します。

例として “FAN” を入力してみます。

◆  ◆  ◆

もう少し情報が見たい、しきい値を確認したい、というときのコマンドです。

ipmitool sensor

幅広のリストで表示されます。

右側にしきい値が表示されていますね。

こちらも”grep”で抽出して該当するものを確認しましょう。

ipmitool sensor |grep -i <抽出ワード>

例として<抽出ワード>に “FAN” を入力してみます。

SYS FANのしきい値が1,000rpm – 27,000rpmであることがわかります。

>>>IPMItoolについて③へ続く

今回はトラブルシューティング時の状況把握に確認したいコマンドをご紹介しました。

トラブルシューティングは特に『初動』が大切です。冷静に対応できると、原因追及までの近道となりますので、今回の “状況把握コマンド” をぜひ覚えていただければと思います。

弊社には、累計22,000台のサーバ稼働をささえている熟練のエンジニアが多数在籍しております。

もしサーバ管理でお悩み事がございましら、弊社の無料相談窓口をご利用いただけたらと思います。
ぜひお気軽にご相談ください。