2011年10月13日木曜日

(FreeBSD) ahcich4: Timeout on slot 4

とあるFreeBSD 8.2マシンの調子が悪い。



こんなログが記録されて、突然、ディスクが取り外されてしまう(ディスクにアクセスできなくなる)。



ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd d0 serr 00000800
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
(ada3:ahcich4:0:0:0): lost device
ahcich4: Timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
ahcich4: Poll timeout on slot 4
ahcich4: is 00000000 cs 00000010 ss 00000000 rs 00000010 tfd 80 serr 00000000
(ada3:ahcich4:0:0:0): Synchronize cache failed
(ada3:ahcich4:0:0:0): removing device entry



いったんこうなると、再起動してもダメで、ディスクが認識されなくなってしまう。
一度電源を入れ直すと、また、ディスクが認識された。
でも、数日たったら、症状が再発。





運が悪い?ときは、zfsが正常に動作しなくなってしまったこともあった。



ahcich4: Timeout on slot 31
ahcich4: is 00000000 cs 80000000 ss 00000000 rs 80000000 tfd 80 serr 00000000
ahcich4: device is not ready (timeout 15000ms) tfd = 00000080
(ada3:ahcich4:0:0:0): lost device
ahcich4: Timeout on slot 31
省略
root: ZFS: vdev I/O failure, zpool=storage path=/dev/ada3 offset=270336 size=8192 error=6
root: ZFS: vdev I/O failure, zpool=storage path=/dev/ada3 offset=1500301238272 size=8192 error=6
root: ZFS: vdev I/O failure, zpool=storage path=/dev/ada3 offset=1500301500416 size=8192 error=6
xptioctl: pass driver is not in the kernel
xptioctl: put "device pass" in your kernel config file



せっかくの冗長性なのに、動かなくなってしまうのは、zfsにも問題あるのでは?と思う。





ハードディスクの故障かと思って、ディスクを交換してみたけど、その後も、こんなログが出てたりもする。



ahcich4: Timeout on slot 12
ahcich4: is 00000000 cs 00000000 ss 0000f000 rs 0000f000 tfd 40 serr 00000800



ハードディスクをself testしてもエラーは無いし、SMARTのエラーも記録されていない。



ということは、マザーボード側のディスクコントローラの問題?または、ケーブルの問題?



こんな風に、デバイスは認識されている。



ahci0: <ATI IXP700 AHCI SATA controller> port 0xb000-0xb007,0xa000-0xa003,0x9000-0x9007,0x8000-0x8003,0x7000-0x700f mem 0xfe7ffc00-0xfe7fffff irq 22 at device 17.0 on pci0
ahci0: [ITHREAD]
ahci0: AHCI v1.10 with 6 3Gbps ports, Port Multiplier supported
ahcich0: <AHCI channel> at channel 0 on ahci0
ahcich0: [ITHREAD]
ahcich1: <AHCI channel> at channel 1 on ahci0
ahcich1: [ITHREAD]
ahcich2: <AHCI channel> at channel 2 on ahci0
ahcich2: [ITHREAD]
ahcich3: <AHCI channel> at channel 3 on ahci0
ahcich3: [ITHREAD]
ahcich4: <AHCI channel> at channel 4 on ahci0
ahcich4: [ITHREAD]
ahcich5: <AHCI channel> at channel 5 on ahci0
ahcich5: [ITHREAD]





上記とは関係ないけど、ada0、ada1、…というデバイス名と、実際のディスクドライブの対応関係がわかりにくい。ada3がアクセスできなくなってしまった後、再起動したら、以前ada4だったドライブが、ada3になってしまったり。





20111012



0 件のコメント:

コメントを投稿