IPMI tool を使ってサーバを操作・監視するときに使用頻度の高いコマンドをご紹介するトピック2回目になります。
前回は電源関連の操作コマンドについてご紹介しました。
今回は、サーバに障害があった時の状況把握に使えるコマンドをご紹介します。
トラブルシューティングの進め方は状況によっては違います。サーバから煙が出てたら一目瞭然ですが、目に見えない不具合をいかに探し当てるか――宝の山を掘り当てる感覚に近いものです。
本当は何もないことが望ましいですが、問題を突き止めた時の快感も、エンジニア冥利につきることだと思います。
それではいってみましょう~!
自己診断テストコマンド
まず状況把握、ということで前回紹介した【ipmitool chassis status】を使用することもあるでしょう。ドライブのエラーなどもわかりますので、もちろん有効です。
その次にオススメしたいのがこちらです。
ipmitool bmc selftest
BMCの自己診断テストの結果を返します。
【passed】で成功です。
もし何か問題があったら、”corrupted” などで不具合箇所が表示されます。
センサーに関するコマンド
サーバトラブルの起因になることで疑うのはなんでしょう。。。?
ハードウェアに関することでしたら、まず “温度” でしょうか。そして “ファン” の状況も気になります。
熱やファンの状況を確認するために、センサー情報を見てみましょう。
ipmitool sdr
BMC にセンサーデータレコード (SDR) の内容を問い合わせ、指定されたタイプのセンサー情報を抽出します。次に各センサーに問い合わせて、その名前、読み取り値、およびステータスを出力します。
ただこれだとすべて表示されてしまうので、見たいものだけ抽出します。
ipmitool sdr|grep -i <抽出ワード>
<抽出ワード>に見たいものをこれから紹介するコマンドを入力します。
例として “FAN” を入力してみます。
◆ ◆ ◆
もう少し情報が見たい、しきい値を確認したい、というときのコマンドです。
ipmitool sensor
幅広のリストで表示されます。
右側にしきい値が表示されていますね。
こちらも”grep”で抽出して該当するものを確認しましょう。
ipmitool sensor |grep -i <抽出ワード>
今回はトラブルシューティング時の状況把握に確認したいコマンドをご紹介しました。
トラブルシューティングは特に『初動』が大切です。冷静に対応できると、原因追及までの近道となりますので、今回の “状況把握コマンド” をぜひ覚えていただければと思います。
弊社には、累計22,000台のサーバ稼働をささえている熟練のエンジニアが多数在籍しております。
もしサーバ管理でお悩み事がございましら、弊社の無料相談窓口をご利用いただけたらと思います。
ぜひお気軽にご相談ください。