ハードディスク障害対策

研究室のファイルサーバが落ちたので、ここ数日は大変でした。原因はハードディスクの破損。復旧してもまだ動作がおかしく、またダウン…。変だと思ったら、HDD2台も壊れてました…(T_T)。ソフトウェアRAID(RAID5)組んでたので、大丈夫だろうみたいに思っているところもあってかなり油断してました。RAIDにも結構不安要素はあるんですよね。
当たり前ですが、ディスクが複数台同時に壊れるとオシマイです。そんなこと滅多にないと思っていましたが、同じ時期に買った同型のハードディスクなら同時期に壊れても不思議はないですね。あと、RAIDってディスク全体の故障には強いですが、不良セクタみたいな一部の故障にはあまり効果がないんですね。データが壊れた状態で使い続けてしまうという。こういうのは日頃からログをチェックしてれば気づけるんでしょうかねぇ、とは思っていてもログを見るのは大抵不具合が出てから…(-_-;
RAIDを組んでいないファイルシステムの場合、データの一部が破損していてもなんとか一部を復旧したりとかできますが、ソフトウェアRAIDの場合は複数のディスクにまたがっていたりして復旧するのはかなり難しいと思います、できなくはないと思いますが(ハードウェアRAIDは使ったことがないのでわかりません)。
まあ、でも2台壊れながらもデータを救出できたのはRAIDのおかげだと思ってます。


前置きが長くなっちゃいましたが本題です。こういったディスクの障害からデータを守るいい方法、ないですかねぇ。まあ、どれだけ対策しても「これなら100%大丈夫」なんて方法はないですが、現実的な範囲で。
以前はRAIDを組んでいれば、バックアップはいらない、というかRAIDがバックアップみたいなもんだと思っていたのですが、やはりRAIDでも消えるときは消えるということで、RAIDを組んでてもバックアップは別でとったほうがいいのかなぁと思います。
あと、バックアップのもうひとつの効果として、人間によるエラー(間違えて消してしまった、ファイルを書き換えてしまった)を元に戻せるというのもありますね。そういう風にみると、
http://namazu.org/~satoru/pdumpfs/
のpdumpfsは非常に有用そうなプログラムですね。これは毎日のバックアップをすべて残すプログラムです。LVMのスナップショットなんかもいいですが、こちらは簡単に使えてよさげです。あと、これを使うなら、
http://tach.arege.net/software/pdumpfs-clean/
にある pdumpfs-clean を使うことで、余分なスナップショットを消せて便利です。

うーん、とりとめのない話題になってしまった。