ただつらつらと日記が書かれていくようです。

タグ: HP

iLOでリモートコンソールに接続するには

完全に自分向けのメモ(汗)

iLOってなんだっけ。

社内に、HP製のIAサーバ、ProliantシリーズのDL160のG5(このGはGernerationらしい。最新のProliantがG8なのでかなり古いサーバですね、はい)がある。意味もなく写真を撮ってみたりして。

f:id:y_fudi:20120907191349j:image

で、HPのProliantシリーズには、リモート管理ための仕組みが用意されている。それがiLO(一応、Integrated Lights Outの略らしい)。ややこしいことに、Generationによって使える機能が色々と異なるらしい。例えば、手元のメディアを使って遠隔のサーバにOSをインストールできたり、Windowsの画面をリダイレクトしたり、と。今回使うOSはScientific Linuxだったりするので、シリアルコンソールに接続でできればOKってことで。

シリアルコンソールに接続できれば、OSの起動前、例えば、BIOSの画面、さらにRAIDカードのBIOS画面などもチラ見できるし、OSに障害があってSSHでログインできないような時にも、(状況によっては)使えるかもしれない。

iLOの設定メモ

…というわけで、Proliant DL160 G5に載ってるiLOの場合に必要な設定のメモ。

まずは、BIOS。BIOSに入って、AdvanceタブあたりでIPアドレスの設定。確か(汗)、デフォルトでは、IPアドレスはDHCPから取る設定になっているので、その辺をstaticに変更してみたり、シリアルコンソールのボートレートを115200にしてみたり。ターミナルタイプもVT100にしたような。

えーと、詳細はこの辺を。

とりあえず、かなり前にやったので記憶が危ないけれど、確か、iLOにアクセスするためのユーザーの設定をやった気がする(汗)

BIOSの設定だけではダメで、OS側でシリアル接続用の設定をしないといけないわけですね。BIOSの設定が終わると、OS側でttyS0とかで見えるので、それに基づいてgrub.confを書き換えたりする、と。

iLOを使ってシリアルコンソールに接続するには

ここが今回のメモの大事なところ。

MGMTポートにLANケーブルを挿せば、BIOSで設定したIPアドレスにアクセスして、Webの管理画面を開いたり、SSHやTelnetでアクセスできるようになるわけですが、それだけではシリアルコンソールが見えるわけではなくて、とりあえず、SSHかTelnetでアクセスした上で、以下のキー操作が必要です。

iLOにログインした状態で

シリアルコンソール開始:ESC+Q

→エスケープキーと、シフトとQ

シリアルコンソール終了:ESC+(

→エスケープキーと、シフトと8

うーむ、これは忘れやすい。てか、普段からシリアルコンソールに潜入しないと絶対に忘れるに違いない。というわけで、メモ。

HP製SmartArrayのRAID Arrayの監視とか。

古くからのHP Proliantユーザーにはアタリマエのことかもしれないが、新参者のProliantユーザーにはよくわかんないことが割とある。例えば、SmartArrayカードで組んだRAID Arrayの監視だ。

RAIDの管理コマンドを使えば、RAIDの設定などが割と簡単にできることはわかったけれども、どうも監視についてはどうもピンと来ていないたぶん、ドキュメントは存在している感じだが、まとまった形でドキュメントが用意されていないような気がするのが原因ではないか(*1)。どうやら、IMAなるものをインストールすれば、ハードウェアの監視を一括で引き受けてくれるっぽい。で、何か起こったら、rootへのメールと、/var/log/messageへの書き込みを行なってくれるらしい実際にメッセージを書きだすのはIMAの構成モジュールのASRらしいが(*2)。

ただ、なんとなくここまで大掛かりに監視したくないような気もする。監視用のエージェントがメモリとかCPUとか食わないだろうかといった心配もあるし、単にRAIDがコケてないことを確認したい場合の選択肢がないか、と探してみたら、SourceForgeにccissドライバと共に公開されている「cciss_vol_status」ってアプリケーションを使って、RAID Arrayのステータスを取得して、そのメッセージをどうにかすれば監視ができそうだ。

例えば、「cciss_vol_status」を実行しつつ、メッセージを取得して、取得した結果がおかしなことになっていたらアラートを上げるみたいなシェルスクリプトをcronで定期実行するのもありかなぁという気もする。

で、試しに「cciss_vol_status」をビルドして実行してみようとしたら、「/dev/cciss/c*d0」なんてデバイスが存在しないのだった(汗)Scientific Linux6を使っている関係で、ccissドライバではなく、hpsaドライバが使われているせいだろうけれど。。。で、ドキュメントを読んでみたら、hpsaドライバを使っている場合は、scsi genericデバイスが割当てられるらしく、「cciss_vol_status /dev/sg0」とかやると、RAID Arrayのステータスが返ってきた。ま、あとはシェルスクリプトを書くだけ、と。

*1:たぶん、ドキュメントは存在している感じだが、まとまった形でドキュメントが用意されていないような気がするのが原因ではないか、と

*2:実際にメッセージを書きだすのはIMAの構成モジュールのASRらしいが

HPのサポートサイトって。

いやー、HPのサポートサイトってなんだか使いづらい。

例えば、「Proliant DL120G6」を使っていたとして、サポートサイトで製品名で調べてみると、いろんなスペックの「Proliant DL120G6」がずらっと出てくるんですな。もちろん、BTOでカスタマイズされている可能性は高いので、いろんなドライバを提供する必要はあるとしても、製品名で検索したときにズラズラと出てくる同じサーバのどれをクリックすればいいのか、というのはなかなか難しいのは私だけでしょうか。

しかも、その先で提供されているドライバ群がビミョーに違っているので、間違った選択肢を選んでしまうとややこしいなぁ、と。(時々、RHEL6のx86_64版が提供されてなかったりして戸惑う次第)

…まー、アメリカのHPの使い回しのサイトなのでカスタマイズするのは難しいかもしれないけれど、なんとかして欲しいなぁと思うなぁ。いやはや。

HPのccissドライバがなんとなく怪しい。

最近、HP製Proliantを複数台導入してみたわけだが、これまたなんだか調子がよろしくない。ちなみに、使っているOSは「CentOS5.5のX86_64」で、RAIDカードは、HP製SmartArray(/dev/cciss/c0d0…みたいな。)

発生した事象としては、以下のような感じ。

  • いきなり平均負荷率が急上昇(Gangliaのレポートによると)
  • CPUのiowaitが100%。(これまた、Gangliaのレポート)
  • SSHでログイン不可。
  • Pingには応答あり。
  • トリガー不明。

なんとなくだけど、OSとかアプリケーションは起動状態だけど、Diskにアクセスしようとしてアクセスできなくて、そのまま、プロセスが待っている(待っているプロセス分、平均負荷率が上昇するような感じ)SSHでログインしようとするけれど、応答がない(おそらく、パスワード認証のためにファイルを参照しようとするがファイルが見られないんだろうなぁ)

そんなわけで、現地まで赴いてみたが、コンソールからもログインできない。ま、出来ることといえば、電源の長押しくらいなので、素直にぽちっと押して強制再起動してきた。(現地に到着してから、ProliantにはiLOがあったことを思い出すが、マネジメントポートにLANケーブルを刺すことから忘れてるわけで。orz)

…とまぁ、そんなことがあったけれど、トリガーが何だったのかがよくわかんない。思い出したようにサーバのサーバの負荷が上がり出すしたようにしか見えないので、とりあえず原因不明。まぁ、でも、ディスクにアクセスできない感じなので、CCISSドライバとか、RAIDカードのファームウェアとか、ext3とか…なんかその辺が怪しそうな気がする。

んで、RedHatのBugzillaを覗いていたら、治ってるのも含めて、ccissドライバ関連のバグをいくつか見つけた。RHEL4の頃から、ccissドライバ関連でバグがちらほら見られるようだ。ま、もうちょっと調べてみるか、と。