とあるFreeBSD 8.2マシンの調子が悪い。
こんなログが記録されて、突然、ディスクが取り外されてしまう(ディスクにアクセスできなくなる)。
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd d0 serr 00000800
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
(ada3:ahcich4:0:0:0): lost device
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
ahcich4: Poll timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
(ada3:ahcich4:0:0:0): Synchronize cache failed
(ada3:ahcich4:0:0:0): removing device entry
いったんこうなると、再起動してもダメで、ディスクが認識されなくなってしまう。
一度電源を入れ直すと、また、ディスクが認識された。
でも、数日たったら、症状が再発。
☆
運が悪い?ときは、zfsが正常に動作しなくなってしまったこともあった。
ahcich4: Timeout on slot 31
ahcich4: is 00000000 cs 80000000 ss 00000000 rs 80000000 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
(ada3:ahcich4:0:0:0): lost device
ahcich4: Timeout on slot 31
省略
root: ZFS: vdev I/O failure, zpool=storage path=/dev/ada3 offset=270336 size=8192 error=6
root: ZFS: vdev I/O failure, zpool=storage path=/dev/ada3 offset=1500301238272 size=8192 error=6
root: ZFS: vdev I/O failure, zpool=storage path=/dev/ada3 offset=1500301500416 size=8192 error=6
xptioctl: pass driver is not in the kernel
xptioctl: put "device pass" in your kernel config file
せっかくの冗長性なのに、動かなくなってしまうのは、zfsにも問題あるのでは?と思う。
☆
ハードディスクの故障かと思って、ディスクを交換してみたけど、その後も、こんなログが出てたりもする。
ahcich4: Timeout on slot 12
ahcich4: is 00000000 cs 00000000 ss 0000f000 rs 0000f000 tfd 40 serr 00000800
ハードディスクをself testしてもエラーは無いし、SMARTのエラーも記録されていない。
ということは、マザーボード側のディスクコントローラの問題?または、ケーブルの問題?
こんな風に、デバイスは認識されている。
ahci0: <ATI IXP700 AHCI SATA controller> port 0xb000-0xb007,0xa000-0xa003,0x9000-0x9007,0x8000-0x8003,0x7000-0x700f mem 0xfe7ffc00-0xfe7fffff irq 22 at device 17.0 on pci0
ahci0: [ITHREAD]
ahci0: AHCI v1.10 with 6 3Gbps ports, Port Multiplier supported
ahcich0: <AHCI channel> at channel 0 on ahci0
ahcich0: [ITHREAD]
ahcich1: <AHCI channel> at channel 1 on ahci0
ahcich1: [ITHREAD]
ahcich2: <AHCI channel> at channel 2 on ahci0
ahcich2: [ITHREAD]
ahcich3: <AHCI channel> at channel 3 on ahci0
ahcich3: [ITHREAD]
ahcich4: <AHCI channel> at channel 4 on ahci0
ahcich4: [ITHREAD]
ahcich5: <AHCI channel> at channel 5 on ahci0
ahcich5: [ITHREAD]
☆
上記とは関係ないけど、ada0、ada1、…というデバイス名と、実際のディスクドライブの対応関係がわかりにくい。ada3がアクセスできなくなってしまった後、再起動したら、以前ada4だったドライブが、ada3になってしまったり。
☆
0 件のコメント:
コメントを投稿