ホーム > トピックスサイト > コラム > DAS(RAID)関連コラム > ハードディスクの大容量化にはRAIDアルゴリズムの強化が必要

トピックスサイト
コラム一覧
導入事例
キャンペーン一覧

コラム: RAID

ハードディスクの大容量化にはRAIDアルゴリズムの強化が必要

ハードディスク

コンピュータ機器で障害が最も多いパーツは、やはりハードディスクである事は未だ変わりはありません。そしていかに新技術が投入されたとしてもますます大容量化するハードディスクは、常にデータの一部欠損というリスクが付きまとっています。例えば、過去1GBのハードディスク100台に対し1台の割合で欠損ブロックが発生していたと仮定し、同じエラーレートを採用した上で現在の100GBクラスのハードディスクに当てはめたとすると、全てのハードディスクが欠損ブロックを発生させる確率を持っていることになります

より高密度化するハードディスクのリスクとは

ハードディスクの高密度化への進化は未だ衰える事がありません。
約一年半で容量が二倍といったペースは、利用者に大きなコストメリットを与える反面、一台のハードディスク故障で損なうデータ量は増加します。つまりコストメリットとリスクが反比例するのです。こういった、ハードディスクがメカ毎故障するトラブルに対しては、従来のRAID装置でも十分リカバリー可能なのですが、近年新たなトラブルが増加傾向にあり、これまでのRAIDアルゴリズムではリカバリー不能なケースが出てきています。

増加するハードディスクの欠損ブロック

データトラックが1ミリの幅に2万本を超える密度となると、外部からのちょっとした振動を加えるだけでも、ヘッドの位置が数トラックもずれてしまうほどの世界です。もしこれがデータを書き込み中に起こったらどうなるでしょう?単純に数トラック分、データを斜めに上書きしてしまうことになります。

書き込みデータ

もちろん、現在のハードディスクは、こういったトラブルも回避できるよう、ショックセンサーで衝撃を検出し隣接トラックへの上書き防止しています。しかし、こういった既知のトラブルへは対処できていても、ここまでミクロの世界になると設計者が想像もし得ない問題も起こる可能性もあります。
例えばD-RAMのメモリーセル設計者から聞いた話ですが、地磁気が影響するのか装置を北に向けるか東に向けるかで、3ヶ月に一度の割合で1ビットだけフリップが起こるといったようなトラブルです。現在のハードディスクの記録密度は1インチ平方辺り30Gbitものデータが書き込まれているため、繊細で高度なサーボ技術の上に成り立っています。
したがって、メモリーセルに設計者が悩んだような障害が起こりえないとも限りません。
さて、現実面ではどうかというと、明らかにデータが読めなくなる欠損ブロックの発生頻度が高くなっています。
単純にこの障害を説明すると、例えば、毎年、新聞の文字が小さくなっていったらどうなるでしょう?
より小さな文字を印刷する技術が進歩した結果、逆により拡大率の高い虫眼鏡で文字を読み取るようなものです。
もしこのような印刷物となると、印刷物を指で少しでも擦ってしまったら、読めなくなるような事があっても不思議ではありません。
実はハードディスクにおける欠損ブロックの発生とは、こういったレベルのトラブルによく似ていて、記録密度が高くなればなるほどリスクが高くなります。
数年前のハードディスクは、実データでの読み込みにおけるエラー率は10のマイナス9乗程度であったのですが、現在は10のマイナス6乗程度でどちらもECCエラー訂正ビット数を増やしデータの信頼性を保っているのですが、それに伴ってECCエラー訂正の演算も複雑化し、その処理回数も増加します。また数学的な論理値で信頼性を確保しているとはいえエラーの発生しやすいブロックとは、特定の領域に集中する傾向が高いといえます。
そのため、ECCエラー訂正も効かないブロックが発生するのですが、こういったブロックでもハードディスクの生産時点で必ずしも不良扱いとならない、つまり、品質レベルで良否の狭間にあるブロックが存在しています。
このようなブロックの発生頻度は、単純計算してもハードディスクの記憶容量に比例する上に、実データの読込品質も相乗して高くなってしまう宿命的な問題なのです。

欠損ブロックを持つハードディスクは不良なのか?

ハードディスクはECC エラー訂正のできないブロックが存在したとしても、ありとあらゆるアナログ技術を駆使して、読み込みのリトライを試みます。ある程度のリトライ数を超えて読み込みに成功すると、次回の読み込み時にもデータが正常に読めるようにと、そのデータを上書きするリフレッシュを行うのですが、それに失敗すると今度はブロックを別の予備領域にリアサインしデータを書き込みます。

ディスクの拡大図

一般に、この機能をオートリアサインと呼んでいます。ハードディスクは生産時点で見つからなかった品質の低いブロックを、実運用によるオートリアサインで品質を高めて行きます。特に運用開始からオートリアサインの多く発生する数ヶ月間は、スクリーニング期間とも呼ばれ暫くすると落ち着いてきます。しかし、稀にリトライをどんなに繰り返しても読めないブロックが最終的に欠損ブロック(Bad Block )となります。
さて、こういった経緯で最終的に欠損ブロックを発生してしまったハードディスクですが、これは故障なのかというと現実には、その大半が良品
と判定されます。単純に言えば、消えてしまったデータはあきらめるしかないのですが、その欠損ブロックへ新しいデータを上書きし、そのデータが正常に読み取れるのであれば、ディスクメーカーから障害未再現の良品として返されます。もちろん、欠損ブロックの発生頻度が高く予備の領域が多く消費されている場合には故障扱いとなります。つまり、欠損ブロックに対しては、その発生頻度が良品の判定基準ともいえます。
とはいえ、ブロックひとつだからといって、データが消えてしまっては安全なシステム運用ができません。そこで必要となるのは、ソフトウェアで欠損ブロックを補う技術、つまり、RAID です。(もちろん、ハードウェアRAID もソフトウェア上でなりたっています。)

ページの先頭へ戻る