ホーム

Tik's 修理工房

日立のHDS723020BLA642が一台不調

先日、ReadyNAS Ultra Plusに投入した日立のHDS723020BLA642ですが、一台挙動が変です。
リビルド中、リトライを繰り返すような「カツカツカツ・・・カツカツカツ」を数回聞き、
調べてみたところ一台のみおかしくなっていました。
ただ、badblocksで全セクタR/Wして問題なく、SMARTもLongTestで問題なかったのを確認して投入したのですが・・・
あとはスピンアップ後のヘッド初回動作時の音が若干大きい気がします。


SMART見てみたところ、CRCエラー110991、ATAエラー65535がカウントされていました。
リビルド中はメールとかの設定をしていなかったため、知らせが飛んでこなかったようです。
しかし、ATAエラー65535って16bit使ってるのかな?振り切れてるんじゃないのかこれ。
※2^16=65536


ATAエラーはActive or Idle時以上のことはわかりませんでした。


CRCエラーとATAエラー出てますが、他は異常ありません。
白状すると、ShortTest、LongTest途中で誤ってミニ扇風機を切ってしまっていることくらい?
そのせいでMax 45℃まで行ってますが、どうも通常時でも温度が高いっぽいです。
触った感じ30℃切ってるかどうかくらいなので、異常発熱というよりHDD側の温度センサーが変かもしれません。


上の通り、元々何の問題もなく、ATAエラーなども出てませんでした。
最初はReadyNASかHDDのコネクタが汚れてないかとも思いましたが、
HDD側コネクタは綺麗なもので、別PCでも再現するのでHDDでしょう。
DFTかけたところ、Analyzing SMART…で一瞬止まってカツカツ言うようになっちゃったみたいです。
アレイ崩して他のHDDも全部チェックしましたが、他はそういうのはありませんでした。

同一ファーム、近日生産分と比べてもこの子だけ変なので多分故障ですね。
ただ、まれにリトライ音するくらいでbadblocksによるR/Wテストは何事もなく通ります。

出ている温度が異常のようなので、恐らく温度センサーの石でも死んだんでしょう。
サーマルキャリブレーションとかしてるくらいで高密度ですから、温度を基に何かしら補正してると思います。
温度センサーが変な値を出して実温度と差があれば、
補正がうまく効かず書き込みエラーなりリトライが発生してもおかしくはないでしょう。

まれにリトライが発生しても何とか書けていると思われ、
全セクタR/W問題ないのでプラッタやヘッド異常は考えにくいです。
ということで、温度センサーまわりの偶発故障と思われます。

この手の故障は管理してても出るようなものですから、今回は単純に運が悪かったんでしょうね。
プラッタ異常とかじゃなさそうなので追求せずに見逃しましょう。

とりあえずRMAですかね。リテールの0S03191ですから安心の3年保証です。
幸い、今回は同一機種の新品を予備として持っていましたので入れ替え、アレイ作り直しました。

Netgear ReadyNAS Ultra6 Plusを導入

年始にReadyNAS Ultra6を導入しましたが、なかなか使い勝手が良く安定しているので追加しました。
今回は無印ではなくPlusの方です。


Ultra6を購入したときは無地の段ボール(ロゴとか品番は書いてある)でしたが、今回は綺麗な化粧箱でした。


内容物とか。


なぜか各国のACコードが・・・Ultra6無印はそうでもなかったんですが
こんなもんあっても使いことは少なそうです。


前回同様、ファームウェアであるRAIDiatorを更新し、全ディスク放り込んでRAID6相当のアレイを作成しました。
リビルドで大体100MB/sちょっとですので、コイツの実力としてはそのくらいあるということですね。
実際はネットワークまわりがオーバーヘッドになろうかと思いますが。

7K3000共のチェックが終了

NASに放り込むためのHDDを6台やりくりする検討をしましたが、全部チェック終了しました。
受け入れた時にひと通りチェックしていますが、それなりに使っていますしNASに突っ込んだ後トラブルが出ても嫌ですので。

ShortTestが通ることは当たり前で、問題はその後です。
潜在的なエラーを洗い出すためにはR/Wテストは必要です。
手っ取り早くやるには、パターン指定でゼロのみでも良いのですが、
今回はbadblocksの書き込みモードでのデフォルトである4種類そのままかけました。


結果は当然ながら問題なしで、実施後のShortTestでも問題そうなものはカウントされてませんでしたので、
このくらいで良いでしょう。

NAS追加導入のためHDDを6台用意する

さて、年始にReadyNASを導入したことは記憶に新しいですが、このたび追加導入することにしました。
実は決算セールで購入済みで手元にあるのですが、まだ忙しくて開けてません。

で、問題はHDDです。最近も相変わらず高騰したままですからね。
元々の価格がおかしかったもの多少はあるんでしょうが・・・。
今回は手持ちの中でやりくりすることにします。

現在使用しているHDD中、日立の7K3000シリーズ2TBの0S03191であれば8台あるので、同一モデルで6台捻出できます。
先日導入したものは倉庫用でしたが、今回は比較的良く使うデータを保管するため、
多少なりともパフォーマンスが出てくれるとベストです。
まぁ高速といってもNAS自体がオーバーヘッドになっており、
HDD単体ほどのパフォーマンスが出ないことから高速なモデルを投入しても意味がなく、低速省電力の方が望ましいですが・・・。
最近HDDは高いのでやむを得ません。


まず、メインPCに5台積んでいますが、一台はアプリ専用ドライブですので使えません。
この中で抜けるのは4台ですね。


ということで、データ退避の上取り出します。


2010年12月~2011年3月製で、我が家で0S03191を一番最初に導入したときのものです。
さらに、ポートマルチプライヤボードで外付け化している2台を取り出し、合計6台になりました。

取り出したHDDは、ウチの受入試験類をもう一度通してチェックします。

期限ギリギリのWD10EADSをRMAに出す


Pending Sectorが大量発生し、一部に低速なエリアが出たWD10EADSをRMAに出します。
期限がギリギリだったため、先行してRMA手続きをしていたものです。
その後、「我が家のWD10EADSを調査する」でどういう壊れ方をしているかチェックしたのは先日のとおりです。

他にも叩き返すWD10EADSはありますが、保証期限延長をするなどしておりタイミングが合わず、
今回は申請の都合上これ一台だけ発送します。

手順自体は2010年に出した時と同じですので割愛します。
強いて言えば、以前は記述式だった不具合内容欄がドロップダウンになったことくらいでしょうか。
低パフォーマンスってのがあって笑いましたがw


ということで、一台だけなのでもったいない気もしますがEMSで発送します。
初めて集荷をお願いしてみましたが、デジタルの電子ばかりを持ってきて計量していました。
やっぱり国際郵便だと厳しいんですかね。

修理に出した0S03229が戻る

先日購入店より修理に出した0S03229ですが、昨日戻ってきたようなので取りに行ってきました。
3月11日に店頭へ持ち込み、3月31日に戻った旨電話が来たので、だいたい3週間ですね。
新しいHDDは箱のラベルを見ると、3月にメーカー出荷のようです。

2TBの0S03224はそこら中にありますが、3TBの0S03229はどこも品切れ状態です。
フェードアウトしてしまうのかな?と思っていたのですが、まだ作っているのですね、安心しました。
もっとガンガン生産してくれ・・・

我が家のWD10EADSを調査する

ちょうど一年ほど前から、Western Digital のCaviar Greenを排除するため日立への置換えをしてきました。
WD10EADSは全て完了しましたので、RMA期限もあることですし全てチェックしました。
SMARTで明らかに異常がある個体が出ており、3月25日に一台のみRMA手続きをしていました。
保証期間間近のため手続きだけで、いろいろ実験していたためまだ出してませんが。


所有しているWD10EADSは5台です。
Caviar Greenのうち、WD10EADSは全ては積極的な運用から外しましたので、
USBの窒息ケースとかにぶち込んだり録画鯖など飛んでも良い用途に使用していました。

※実際には6台ありましたが、1台は2010年8月に天に召されRMAに出したところWD10EARSになりました

で、調べた結論から言うと、5台とも全て死んでました。
上で書いたRMAに出したものを含め、購入6台中6台が3年以内に死亡ということで、故障率100%ですね。
もちろん、サンプルが少ないので統計を取るレベルではないですが。

使用環境は、

・ML115 G5で常時起動、24時間365日運用(最初から録画鯖に投入したもの)
・メインPCで使用、ほとんど付けっぱなしで運用→USB外付け化
・ちょっと使って電源OFF、の繰り返し(波動用として最初からUSB外付け窒息ケースにぶち込んだもの)

の3パターンがあります。
Caviar Greenは発売当初からIntelliparkが口コミ等で問題になっており、wdidle3での無効化が定番でした。
私も迷いましたが、この5台は全て無効化していません。
理由は以下の通り。

・公式には配布していない
  (使うのが不要なのか、配布しちゃうと問題があるように見えるから出さないのか不明ですが)
・頻繁に退避されるのは確かに寿命の観点から良くないが、うちでは無茶苦茶カウントアップするわけでもない
  (数秒アクセスがないと退避するようだが、使い方とかコントローラの挙動との相性?)
・そもそも、WDは同じ型番でもよく仕様や挙動が変わるため、本当に自分のが該当するのかわからない
・試しに一台で無効化してみたが、その機体が早々に死んだ
  (以前RMAに出したもの、多分因果関係はなくハズレなだけ)

5台をチェックした結果としては、

・SMARTにCurrent Pending Sector増加などの異常が確認できるもの
・SMARTで異常がないが、実動作に挙動不審なもの

の2種類がありました。
前者での主な異常は、

・Current Pending Sector
・Raw Read Error Rate
・UDMA CRC Error Count
・Multi Zone Error Rate

で、大半がCurrent Pending Sector と Raw Read Error Rate です。
これだけ見ると、プラッタの盤面状態が悪いとかヘッドが弱っているとかでしょうか。
常時起動しているものでも出ています。
UDMA CRC Error Count は環境由来のものかとも思いましたが、
うちの環境はUSB外付けを除き、そこまで変でもないと思うのですが・・・

電源はML115 G5は腐っても鯖ですし、あとはSeasonicかCorsairで、
日本メーカーの電解コンデンサを(多分)全数使用しているものしか使っていません。
電源は重要ですから、表記容量を当てにせずかなりマージンを持っており、
購入時は発売直後のものは避け、口コミで不具合多発とか地雷そうでないものしか選択していません。
経年劣化がありますし、つけっぱなしが多いため、鯖のマトモそうな電源以外は3〜4年に1回は必ず交換しています。
ケーブルはSATAは弱そうなことは明らかですから、極力ストレスのかからないようにし、
あまりの安物は常時使用せず、抜き差しも10回〜20回以下で交換しています。

ということで、100%環境でないとは言えないものの、頻発するレベルではありません。
ましてや、どの環境でも出てるっぽいので、HDD側ということも考えられます。
例えば、チップ異常、熱とかのマージン不足、メモリ不良、パターンがクソで化ける、ノイズ耐性がダメ、半田不良等。

Multi Zone Error Rateはあまりお目にかからないですが、調べたところ書き込みエラーっぽいです。

で、SMARTで異常がないにも関わらず、実動作に異常があるものですが、

・全体的に速度が極端に低下することがある
・たまに引っかかるような動作をする、局所的ですぐ戻る
  (一瞬ストップしたように見える、音に変化はないのでサーマルキャリブレーションやリトラクトはしてないような気がする)
・上記2つは書き込み、読み込みのどちらか、または両方など混ざっている
  (読みは遅いのに書き込みは普通、書き込みのみ引っかかるところがある、読みのみ引っかかるが書き込みは普通等)
・スピンアップ時のシュルシュル音が以前と比べおかしい
  (シュ・・・シュル・・・シュルルルルル・・・とか時間がかかる、電源環境変えても同じ)
・シークに失敗して止まり、再スピンアップする

です。前半は低速病っぽい症状ですね。
で、これらの症状が出ながらもSMARTに出ないことがあります。
まず、こちらの方から潰していきました。

全体的な速度低下は、盤面状態が悪いとかエラー過多などでファームで制限でもかかっているのかもしれません。
局所的なものは、恐らく物理的に読みにくい、書きにくいエリアがあるのでしょう。
問題は読みのみ引っかかるが、書きは普通なところ。
書いてるつもりでも、実は書けていなかった可能性があるため、badblocks を書き込みモードで走らせてみました。

例えば、ゼロフィルだと全てに0を書き込みますが、ただ書くだけです。
書いたところが実は化けて1になっていたところで、HDDのファームの挙動は不明ながらゼロフィル実施側からはわかりません。
書いた後何らかの手段でコンペアしたところで、全て0であれば通ります。
極端な話、磁気異常で1を書こうが0のままなセクタがあろうと通ります。

badblocksを書き込みモードで走らせた場合、特にパターン指定しなければ書き込み→コンペア4種類になりますので、
実は書けないセクタでもあぶり出せます。時間がかかるのが難点ですが・・・
で、5台全部かけましたが、badblocksでの不良セクタ扱いは0でした。

全体的な速度低下は出ないこともあり、不再現となりましたので割愛します。
局所的な速度低下は、実作業ではファイルコピー中に引っかかるとかですが、ベンチでもデータが取れましたので掲載します。
SMARTに異常が見られるもの、見られないものがありますが、共通性のあるような挙動が得られなかったこと、
後述するCaviar GreenのSMARTの信頼できなさもあり、関連付けは割愛します。


まず、読み書きともに全域にわたり速度がガタついているもの。
正常品は一台もないので比較データは出せませんが、だいたいなだらかな線か、多少ザグザグするくらいで、
こんな最低16.2MB/sなんてのは考えにくいです。
また、平均アクセス時間は16.0msですが、局所的にやたら時間がかかるところがあります。
色が黄緑なので見難いですが、150ms近くかかっているところも。


こちらは、読みは20%〜40%の容量付近で約65〜40MB/sまで落ち込むものの、書き込みは28%付近で落ちるのみ。
しかし、書き込みは約5MB/sくらいまでの速度低下。
約58〜72%付近では、読みは全く問題ないものの書き込みが約30MB/s〜ゼロ付近まで落ち込む。
平均アクセス時間は18.8msだが、最大2400ms近くまでかかっており第二軸の縦軸スケールがおかしい。


こちらは読みはほぼ問題ないものの、書き込みがところどころ10MB/s以下に落ちている。
平均アクセス時間は49.2msで、縦軸のスケールの16770msを見てわかるように10秒単位でかかっているところがある。

ベンチの実時間からいっても全セクタ書いているようには見えず、飛び飛びでやってると思いますが、
それでもここまでおかしいデータが取れました。
クソ時間がかかるもののbadblocks通りますので、これでも全セクタ読み書きできていることになります。
一部エリアが読み書き共におかしい、読みがおかしい場合、スクラッチ(ヘッドタッチなどによる物理的な傷)が疑われますが、
この結果を見る限り、スクラッチではなさそうに思えます。

次に、Caviar GreenのSMARTの信頼できない点です。
SMARTは故障率と100%関係ないとは思いますが、不良セクタ絡みやエラーレートは役立つ情報だと思っています。

代替済みセクタが次々現れれば危険です。
数個出て安定しているぶんなら良いですが、経験上じわじわ増えていく場合はすぐ死にます。
エラーレートも増え方によっては目安になりますし、CRCエラーが多発するなら環境を見直すこともできます。

しかし、それはSMARTが正しい情報を返していることが前提です。
Seagateのようにエラーレートが無茶苦茶な値を返していたりすると、正直使い物になりません。
Caviar Greenの場合、見た目で変なところもなさそうだったので参考になると思っていましたが、
ファームの挙動で解せない点がいくつかあります。

・Current Pending Sector が大量に出ているのに代替がいつも0 (代替になったのを見たことがない)
・大量にCurrent Pending Sector が出ている機体でゼロフィル、LongTest(self)をしても代替されない
・ゼロフィル繰り返したところ、Current Pending Sector が突然0になることがある
・Current Pending Sector が0になっても遅い、引っかかるなどの動作が変わらない
・放置したら再度Current Pending Sector が同じくらい出てくる

なぜCurrent Pending Sectorがあっても代替がないのか。
Current Pending Sector は、読み出し時に不良とおぼしきセクタとしてマークされ、
次回書き込んだ時に書き込みできなければ不良セクタとなり、予備セクタと代替されるような理解でいます。
ゼロフィルしようが、LongTest(self)しようが、オフラインスキャンを期待してつけっぱなしにしようが一度も代替されません。
また、代替がない代わりに突然0になることがあります。


例えば、これはCurrent Pending Sector が346です。ゼロフィルとかしましたが変化がありません。


若干温度が高めですが、ファンなしの環境にしてみたところです。
数度目かのゼロフィルを実施したら0になりました。
しかし、引っ掛かりや速度低下には変化なく、いつの間にか復活したり消えたりします。
本当に書き込み成功した場合は346が0でもおかしくないのですが、いきなり0になるのか。
しかも、Raw Read Error Rateがおかしく、実感として挙動がおかしいくらいなのに0?

Current Pending Sectorが大量にカウントしながら、ゼロフィル、LongTest(self)で代替されないとか、
そのへんの挙動からいくと、どうも代替まわりがおかしい気もします。
代替処理自体がうまく動作していないとか、SMARTがカウントしていないのか等、詳細は不明ですが。
他、読み書きで判定ギリギリで落ちたり通ったりするとか、熱などのマージン不足の可能性もありますが、
実動作としてうまく働かないのであれば、しきい値の設定やマージンがおかしいのではないかと思います。

SMARTに出ないが実挙動が変、という機体ですが、
実際にはこれと同じように、隠れているとか一時的に0になっているだけかもしれません。

ということで、詳細は不明ながら、我が家のWD10EADSは全滅でした。
今まで使用してきたHDDは、初期不良さえ除けば長持ちするものばかりで、バスタブ曲線そのままでしたが、
Caviar Greenはそういかないようです。
3年保証なので3年は持つと踏んでいましたが、2〜3年で故障が多いですね。
バスタブの真ん中に栓しめ忘れたのか・・・

USB外付け化したものもありますので、若干環境由来のものがあるかもしれません。
一時期北陸におり、気温が低い場合もありましたし、外付けケースであれば温度は高くなります。
また、2〜3年で故障が普通で、他が頑丈すぎるだけかもしれません。
しかしながら、日立が無問題の中こいつらは死にまくってますから、
仮に周囲環境が悪いとしても、他が頑丈すぎるだけでこれがHDD本来の寿命だとしても、
一般ユーザからしたらCaviar Greenのマージン不足としか言いようがありません。
良くわからない挙動と含め、個人的な信頼性は皆無といえます。

どうすんだこれ・・・
とりあえず、現状では使い物にならないためRMAに出すことにします。

Western Digital のHDD、保証期間の延長成功!

一昨日出したWestern Digital のRMA期限を購入日起点に延長する申請ですが、なんと通りました!!
よかったよかった!

表示を見ると以下のように進みましたので、おおよそ一日〜二日くらいで保証期間が更新されたようです。
IさんとEさんの違いですが、多分一日目の方が画像をチェックしてOKとなり、
二日目の簡素な方が実際に保証期間変更を反映したんじゃないかと思います。

03/26/2012 06:02 AM: 送信
03/26/2012 06:02 AM: 自動返信
03/27/2012 06:51 AM: Iさんから、「私たちはあなたの購入記録を確認し、シリアル番号〜の保証期間を変更しました」返信が来る
03/28/2012 01:02 PM: Eさんから、「あなたの保証期間を更新しました」返信が来る

これでRMAに出すことができますね。
私の場合、店頭で買うときは製造日が新しい方から買っていましたが、通販だとそうはいきません。
これだけで保証期間が更新できるので、製造日と購入日が離れている場合はやった方が得でしょう。
意外にすんなり終わります。

WD10EADSをRMAに出す

バタバタしていて書いてませんでしたが、WD10EADSを25日にRMA手続きだけしていました。
今回出したものは保証期間が3月30日までで、時間がなかったため1台のみ先行です。
本当は他にも出すものがあったのですが、まだチェックできていないので1台のみとなりました。

手順とかは2010年に出した時と変わらないので割愛。
違いといえば、申請理由がドロップダウンになったくらいですかね。

Western Digital のRMA期限を購入日起点に延長する


Western Digital のCaviar Greenを排除する方向で入れ替えしており、チェックの上まとめてRMAに出す算段をしていました。
しかし、うっかりしていたのが期限です。
一ヶ月勘違いしてメモしており・・・過ぎてました。


しかし、期限の上にマウスカーソルを持っていくと、こんなポップアップが。
購入日起点で保証期間を変更できるみたいです。
そうだったのか・・・そりゃ、3年保証と言っていれば当たり前ではありますが。
ありがたいので、これを使うことにします。

で、レシートは保管しているものの、なんと購入日が2009年3月25日・・・昨日だった・・・
クソー・・・これ何とかならんかな?

WDの場合、上の画像にあるように製造日起点の保証となっています。
しかし、実際には製造日起点での保証期間プラス三週間くらいの期間が設定されています。
このHDDの場合、ラベルに印刷されている製造日は2009年2月18日で3月12日までです。
おそらく流通期間を見込んでの処置だとは思いますが、もし購入日起点でも三週間オマケが付くなら、このHDDも対象になります。
ダメで元々、無理なら無理って返答来るだろうと、25日購入のレシートで延長を申請することにしました。


で、ポップアップのリンク先に飛びます。
私の場合、過去RMAに出した時にアカウントを作っていますので、IDとパスワードを入力しログインします。


問い合わせフォームに必要事項を入力します。
一瞬悩んだのが言語です。
ポップアップには英語とあり、フォームが英語なので当然英語になりますが、
ポップアップ中には、メールの主題は「保証の更新について」と入力します、と指定されています。
振り分けでもしてるんだろうかね?
しかし、さすがにこの画面で日本語はないと思いますので、
無難にUpdate Warrantyとかにしておきました。Please付けたほうが良かったかな?まぁいいや。


レシートの写真かコピーを添付しろとのことで、添付した画像はこれ。
問題は、レシートの印刷だと和暦になっていることです。
日本語だと相手が読めないだろうと、画像のように注釈を入れておきました。
一緒に他のものも買っており、わかりにくいため、ついでにHDDのところを赤丸で囲んでおきました。


これで送信しました。
どう転ぶかわかりませんが、あとは結果を待つだけです。

ついでに、3月31日までの保証期間のも延長申請しました。
まぁこっちは通るでしょう。

ホーム

最近のピン
メタ情報

ページの上部に戻る