RAIDの障害とデータ復旧方法の解説

ファイルサーバー・RAID搭載NASによくみられるデータ障害と原因

業務用ファイルサーバーには、ほとんど「RAID」(レイド)と呼ばれるハードディスクを複数台組み合わせて使う技術が搭載されています。RAIDはその機能によって「レベル」と呼ばれる番号が付与されています。 レベルというと誤解されがちですが、数字高い方、低い方が安全という意味ではなく「目的が違う」点に注意が必要です。

RAID0の場合

たとえば「RAID-0」(レイド・ゼロ)は「速度向上」を目的にした構成で、安全性を高める機能はありません。従って、ハードディスク2台中、1台でも壊れるとあっさりとデータが失われます。RAID-0の場合、故障状態が重いとデータ復旧は比較的困難です。

RAID-0(レイド・ゼロ)

RAID1の場合

「RAID-1」(レイド・ワン)は同時に2台以上のハードディスクに同じデータを書き込みます。1台壊れても、もう1台が壊れていない限りデータに問題は生じません。反面、同時にデータを書き込むので速度は劣りますし、2台あっても1台分の容量しか使えないので、資源効率という面では必ずしも良いとはいえません。

RAID-1(レイド・ワン)

RAID5の場合

「RAID-5」(レイド・ファイブ)は3台以上のハードディスクをまとめて一つの大きなハードディスクとして使う技術です。特長として、1台壊れてもデータが失われることはありません。中小企業向けのサーバーではRAID-5はハードディスク4台で構成されることが多いです。
RAID-5の保存可能データ容量は「ハードディスクの総台数分容量」-「ハードディスク1台分容量」となります。つまり、1TB(テラバイト)4台でRAID-5を組んだ場合、4TB-1TBの「3TB」が使用できる領域となり、RAID-1に比べ、データ領域を効率使用しながら安全性も保たれるシステムとなっています。

なお、最近普及しはじめた「RAID-6」(レイド・シックス)はRAID-5よりも冗長性が高くなり、2台壊れてもデータが失われなくなっています。なお、RAIDに関して詳しくお知りになりたい方は「基礎から押さえるRAID講座」をご覧ください。
さて、このようにRAID-0を除けば安全であるはずのRAIDが搭載されているにも関わらず、なぜデータ消失がおこるのでしょうか?実際によくみられる状況を解説します。

冗長性を超える障害

冗長性を超える故障が起こったときにはデータが失われてしまう</p

RAID-1では1台ハードディスクが壊れても、もう1台のハードディスクに同じデータが入っていますから「1台分」の冗長性、つまり保険があります。しかし、2台が同じ時期に故障してしまえば打つ手がありません。RAID-5の場合も2台故障すれば、もはやデータ復旧会社の手によらなければデータを回復することができなくなります。 このようにRAIDの余裕台数=冗長性を超える故障が起こったときにはデータが失われてしまうのです。

管理上の問題

杜撰な管理が悲劇を生む場合も・・・

実は上で解説した冗長性を超える障害が一気に起こるようなことは、滅多にありません。
よく見られるのは、既に1台ハードディスクが壊れているにも関わらず、そのまま使い続けてしまい、その後もう1台が壊れたものです。
サーバーは適切な時期にメンテナンスをしなくてはなりませんが、普段目にするパソコンと違い、事務所のサーバー置き場など普段目の届かないところに置かれ、エラーメッセージに気づかないことがあります。
もっとも、エラーに気づいていながら動いているからいいや、と放置されたり(エラーが出ても動き続けます)面倒だ、対応がわからない、メンテナンスにコストがかかる、交換ハードディスクがもったいない、見なかったことにしようという、何のためにRAIDを導入したのかわからない残念な事例も見られます。
毎年火災報知器の故障を放置したあげく、逃げ遅れて煙に巻かれ亡くなる痛ましい事件が起こります。たとえ安全装置があっても、万一の時に働かなければ意味がありません。データは火災と異なり命を失うことはありませんが、会社の存続を危険にさらすことがあります。特にRAID-5はハードディスクの台数が多いので、ハードディスク単体よりも故障率は高くなります。適切にメンテナンスされていないRAID-5はむしろ危険といえます。

設定ミス

出荷時設定はマニュアルに明記されている

「RAIDが組み込まれているから復元できるはずなのだけれど、なぜかうまくいかなかった」とご相談されるお客様が毎月いらっしゃいます。RAIDアレイの状態を確認してみると、ほとんどの場合RAID構成は組まれていますが、「RAID-0」に設定されているのです。繰り返しますが、RAID-0は高速性や容量の増大を目的とするもので、データ保護機能は一切持っていません。RAID-1に対応する製品はRAID-0にも切り替えられるものがほとんどで、大分減りましたが初期出荷時がRAID-0になっている製品もみられます。

ファームウェア・システムの障害

ファームウェアが壊れてもデータは救出できる

ファイルサーバーやRAID機能搭載NASも、内部に「ファームウェア」と呼ばれるシステムがインストールされています。つまり、普段使っているパソコンと何ら変わらず、ファームウェアが何らかの原因によりトラブルを起こせばサーバは起動できなくなります。バッファローのテラステーションで「EMERGENCY MODE」「System Error E04」「System Error E06」などが表示される場合はファームウェアのトラブルを示しています。そのほかに、機器自体の故障の場合「System Error E16」などが表示され、ハードディスクが認識できなくなることもあります。

リビルド(RAID再構築)時のミス

リビルド作業は、知識と訓練が必須

RAIDに障害が発生したときは、ハードディスクを新しいものに交換して「リビルド」操作を行えば基本的には元に戻ります。しかし、正規の手順を知らず中途半端な操作を行うことにより、再起不能になることも多くみられます。
一つには障害が起きているハードディスクをもう一度差し込み、自動的にリビルドがかかってしまう事例です。機種によって、異常が発生しているハードディスクは赤色のLEDが点灯します。この点灯したハードディスクを取り出して、新しいハードディスクに交換すれば良いのですが、何度か挿し直しをすれば直るといった家電品のような扱いをして結果的にシステムを再起不能とすることがあります。赤色点灯している場合はLEDだけで判断するのではなく、必ず操作画面を開き、エラーの内容を確認することが大切です。
また、リビルド操作を行うときは、必ずデータをバックアップしておくことをおすすめします。リビルドがうまくいかず、再起動を試みたら二度と立ち上がらなくなってデータ復旧会社の門を叩く方が大勢います。再起動など、何か行動を起こす前に別のハードディスクにバックアップを取っておくのが鉄則です。

ファイルサーバー・RAID搭載NASデータ復旧方法

すべてのHDDのデータを吸い上げてRAIDを組みなおします

RAIDのデータ復旧は、基本的には通常の単体ハードディスクのデータ復旧アプローチと同じです。
障害が発生したハードディスクを一時的に読み込みができるように修復を行います。
ハードディスクの修復が終わったら、すべてのハードディスク内部のデータを一旦すべて吸い上げます。これはRAID-1であっても、どちらが先に壊れたかはっきりせず、データが最新か否かわからないため必須の作業です。
RAID-0やRAID-5あるいはRAID-6の場合、データは分散して書き込まれており、このままでは細切れのデータのままですから、専用の復旧システムを用いてRAIDを組み直します。なお、データを誤って削除した場合でも復旧できる可能性は残されていますが、Linuxのファイルシステムの特性上、ファイル名が消えてしまっていることも多く、解析が困難なこともあります。

RAIDサーバー(Terastationなど)の知識

オフィスで欠かせぬ存在に

今やオフィスにおいて、ファイルサーバーは欠かせない存在となっています。
ほんの十数年ほど前まで、会社でのパソコンの利用は、よほど大きな会社やIT企業以外は「スタンドアローン」つまり単体で動作させるものがほとんどで、データのやりとりも主にフロッピーディスクで行われており、企業内ネットワーク、いわゆる「LAN」はそれほどニーズが高いものではありませんでした。

かつてデータのやりとりはフロッピーが主流でした

インターネットの普及とともに

しかし、インターネットの普及がはじまり、当初アナログモデムやTAを使い、必要に応じてダイヤルアップ接続していたものが、2000年、定額、低廉な常時接続サービスである「フレッツISDN」「フレッツADSL」が開始され、LANを構築すれば一本のインターネット接続を社内みんなで共有できることから、中小企業においても爆発的にLAN構築が始まりました。

データは分散管理から一元管理へ

データの共有がはじまる

これまでLANのメリットはなかなか理解されにくいものでしたが、実際使ってみれば便利さはすぐに実感することができ、プリンタの共有をはじめ、各自のパソコンのハードディスクのデータをファイル共有機能を用い「ピアツーピア」で共有を行う企業が増加しました。
しかし、「ピアツーピア」はパソコン2~3台程度の小規模な共有には手軽で良いのですが、パソコンが増えてくると処理に時間がかかり、そのパソコンを使っている人の作業効率が損なわれるなどの弊害が現れました。また、共有するには当然データが入っているパソコンの電源が入っていなければならず、次第に効率の悪さが感じられるようになりました。

Windows系ファイルサーバー

ファイルサーバーの登場

そこで登場したのがファイル共有を専門に担う「ファイルサーバー」です。
現在、中小企業に設置されているサーバーを形態別で分けると、「Microsoft WindowsServer」などの「サーバーOS」をPCベースのサーバーマシン(小規模の場合、一般のパソコンを用いることもある)にインストールした「Windows系ファイルサーバー」と、ファイル共有専用に作られたネットワークハードディスク、いわゆる「NAS(Network-attached storage)」をベースに、故障からデータを守る「対障害性」や、大人数で使用できるように処理能力、セキュリティ、ユーザーなど管理機能を高めた「業務用RAID機能搭載NAS」(市場で適切な名称がついてないので、当社では「RAID-NAS」、あるいは「業務用NAS」と呼ぶことがあります)に分類することができます。

RAID機能搭載の業務用NAS

Windowsベースは主にPCメーカーが製造

前者は主にPCメーカーにより製造されているもので、DELLのPowerEdge(パワーエッジ)シリーズやNECのExpress5800シリーズ、HP(ヒューレット・パッカード)のProLiant(プロライアント)、IBMのXserverが代表的です。(なお、当社では「SATAインターフェース」のハードディスクを搭載した中小企業向けのサーバーをこのサービスで扱い、「SASインターフェース」を備えたハイエンドなハードディスクを搭載したサーバーを「エンタープライズサーバー復旧」として取り扱っています)

RAID-NASは周辺機器メーカー

後者は外付けハードディスク等のパソコン周辺機器メーカーがシェアを占めています。バッファローの「TeraStation」(テラステーション)とI-Oデータの「HDL」シリーズが代表的な製品です。LinuxベースのOSにより動作しているものが多いですが、このごろはMicrosoftのNAS用OSである「Windows Storage Server」が搭載されたモデルも登場し、外観から簡単に仕様がわからなくなりました。

せっかくのRAIDなのに、こんなはずでは・・・

管理していないRAIDはむしろ危険

これらの製品は、中小企業向けに特化しており、社内に専門の管理者がいなくとも比較的容易に運用ができることがセールスポイントとなっています。しかし、これを「管理いらず」と誤解されることも多く、折角のデータ保護機構が有効に動作しないケースが多くみられます。故障警報が表示されているにも関わらず放置していたり、RAID-5が構成されているアレイで、ハードディスクの交換指示アラームが出ているにもかかわらず「動いているから」と放置し、そのうちに別のハードディスクが壊れてリビルドすらできなくなる最悪の状況に至ります。
また、出荷時がデータ保護機能が全くない「RAID-0(レイド・ゼロ)で設定されている機種もあり(最近は減りましたが)、データ復旧会社に持ち込み、はじめて初期設定に気づかれる方も少なくありません。