Рекламный блок.
Ваша реклама, здесь
Загрузка. Пожалуйста, подождите...
Странные проблемы с винтами
SwD |
Дата 23 Июля, 2009, 21:22
Unregistered
Имеем 5 S
ATA -
винт ов Western Digital
WD1001FALS , емкостью по 1ТБ каждый... Втыкаем их в серверок
Supermicro A+ Server 2021M-T2R+B ... и вот с двумя
винт ами из пяти творится странное:
Код
Jul 23 18:29:31 debian kernel : ATA : abnormal status 0xD0 on port 0xC487 Jul 23 18:29:31 debian last message repeated 5 times Jul 23 18:30:01 debian kernel : ata 4 .00: qc timeout (cmd 0xec) Jul 23 18:30:01 debian kernel : ata 4 .00: failed to IDENTIFY (I/O error , err_mask =0x4) Jul 23 18:30:01 debian kernel : ata 4 .00: revalidation failed (errno =-5) Jul 23 18:30:01 debian kernel : ata 4 : failed to recover some dev ices, retrying in 5 secs Jul 23 18:30:06 debian kernel : ata 4 : hard res etting port Jul 23 18:30:07 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:30:07 debian kernel : ata 4 .00: configured for UDMA /133 Jul 23 18:30:07 debian kernel : ata 4 : EH complete Jul 23 18:30:07 debian kernel : SCSI dev ice sdd: 1953525168 512-byte hdwr sector s (1000205 MB) Jul 23 18:30:07 debian kernel : sdd: Write Protect is off Jul 23 18:30:07 debian kernel : sdd: Mode Sense : 00 3a 00 00 Jul 23 18:30:07 debian kernel : SCSI dev ice sdd: drive cache: write back Jul 23 18:30:37 debian kernel : ata 4 .00: limiting speed to UDMA /100 Jul 23 18:30:37 debian kernel : ata 4 .00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Jul 23 18:30:37 debian kernel : ata 4 .00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout ) Jul 23 18:30:44 debian kernel : ata 4 : port is slow to res pond , please be patient Jul 23 18:31:07 debian kernel : ata 4 : port failed to res pond (30 secs) Jul 23 18:31:07 debian kernel : ata 4 : soft res etting port Jul 23 18:31:10 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:31:10 debian kernel : ata 4 .00: configured for UDMA /100 Jul 23 18:31:10 debian kernel : ata 4 : EH complete Jul 23 18:31:10 debian kernel : SCSI dev ice sdd: 1953525168 512-byte hdwr sector s (1000205 MB) Jul 23 18:31:10 debian kernel : sdd: Write Protect is off Jul 23 18:31:10 debian kernel : sdd: Mode Sense : 00 3a 00 00 Jul 23 18:31:10 debian kernel : SCSI dev ice sdd: drive cache: write back Jul 23 18:31:41 debian kernel : ata 4 .00: limiting speed to UDMA /66 Jul 23 18:31:41 debian kernel : ata 4 .00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Jul 23 18:31:41 debian kernel : ata 4 .00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout ) Jul 23 18:31:48 debian kernel : ata 4 : port is slow to res pond , please be patient Jul 23 18:32:11 debian kernel : ata 4 : port failed to res pond (30 secs) Jul 23 18:32:11 debian kernel : ata 4 : soft res etting port Jul 23 18:32:18 debian kernel : ata 4 : port is slow to res pond , please be patient Jul 23 18:32:41 debian kernel : ata 4 : port failed to res pond (30 secs) Jul 23 18:32:41 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:32:41 debian kernel : ATA : abnormal status 0xD0 on port 0xC487 Jul 23 18:32:41 debian last message repeated 5 times Jul 23 18:33:11 debian kernel : ata 4 .00: qc timeout (cmd 0xec) Jul 23 18:33:11 debian kernel : ata 4 .00: failed to IDENTIFY (I/O error , err_mask =0x4) Jul 23 18:33:11 debian kernel : ata 4 .00: revalidation failed (errno =-5) Jul 23 18:33:11 debian kernel : ata 4 : failed to recover some dev ices, retrying in 5 secs Jul 23 18:33:16 debian kernel : ata 4 : hard res etting port Jul 23 18:33:17 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:33:17 debian kernel : ata 4 .00: configured for UDMA /66 Jul 23 18:33:17 debian kernel : ata 4 : EH complete Jul 23 18:33:17 debian kernel : SCSI dev ice sdd: 1953525168 512-byte hdwr sector s (1000205 MB) Jul 23 18:33:17 debian kernel : sdd: Write Protect is off Jul 23 18:33:17 debian kernel : sdd: Mode Sense : 00 3a 00 00 Jul 23 18:33:17 debian kernel : SCSI dev ice sdd: drive cache: write back Jul 23 18:33:50 debian kernel : ata 4 .00: limiting speed to UDMA /44 Jul 23 18:33:50 debian kernel : ata 4 .00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Jul 23 18:33:50 debian kernel : ata 4 .00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout ) Jul 23 18:33:56 debian kernel : ata 4 : soft res etting port Jul 23 18:33:56 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:33:56 debian kernel : ata 4 .00: configured for UDMA /44 Jul 23 18:33:56 debian kernel : ata 4 : EH complete Jul 23 18:33:56 debian kernel : SCSI dev ice sdd: 1953525168 512-byte hdwr sector s (1000205 MB) Jul 23 18:33:56 debian kernel : sdd: Write Protect is off Jul 23 18:33:56 debian kernel : sdd: Mode Sense : 00 3a 00 00 Jul 23 18:33:58 debian kernel : SCSI dev ice sdd: drive cache: write back Jul 23 18:34:29 debian kernel : ata 4 .00: limiting speed to UDMA /33 Jul 23 18:34:29 debian kernel : ata 4 .00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Jul 23 18:34:29 debian kernel : ata 4 .00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout ) Jul 23 18:34:36 debian kernel : ata 4 : port is slow to res pond , please be patient Jul 23 18:34:59 debian kernel : ata 4 : port failed to res pond (30 secs) Jul 23 18:34:59 debian kernel : ata 4 : soft res etting port Jul 23 18:35:06 debian kernel : ata 4 : port is slow to res pond , please be patient Jul 23 18:35:26 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:35:26 debian kernel : ata 4 .00: configured for UDMA /33 Jul 23 18:35:26 debian kernel : ata 4 : EH complete Jul 23 18:35:26 debian kernel : SCSI dev ice sdd: 1953525168 512-byte hdwr sector s (1000205 MB) Jul 23 18:35:26 debian kernel : sdd: Write Protect is off Jul 23 18:35:26 debian kernel : sdd: Mode Sense : 00 3a 00 00 Jul 23 18:35:27 debian kernel : SCSI dev ice sdd: drive cache: write back Jul 23 18:35:57 debian kernel : ata 4 .00: limiting speed to UDMA /25 Jul 23 18:35:57 debian kernel : ata 4 .00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Jul 23 18:35:57 debian kernel : ata 4 .00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout ) Jul 23 18:36:04 debian kernel : ata 4 : port is slow to res pond , please be patient Jul 23 18:36:11 debian kernel : ata 4 : soft res etting port Jul 23 18:36:12 debian kernel : ata 4 : SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jul 23 18:36:12 debian kernel : ata 4 .00: configured for UDMA /25 Jul 23 18:36:12 debian kernel : ata 4 : EH complete Jul 23 18:36:12 debian kernel : SCSI dev ice sdd: 1953525168 512-byte hdwr sector s (1000205 MB) Jul 23 18:36:12 debian kernel : sdd: Write Protect is off Jul 23 18:36:12 debian kernel : sdd: Mode Sense : 00 3a 00 00 Jul 23 18:36:12 debian kernel : SCSI dev ice sdd: drive cache: write back Jul 23 18:36:42 debian kernel : ata 4 .00: limiting speed to UDMA /16
Причем проблема не постоянная, а время от времени... Вот именно этот
винт , лог по которому приведен, вполне нормально
работ ал сутки, а потом пошли
проблемы ... Причем если его вынуть, а потом обратно вставить какое-то время опять будет всё нормально. Одно время грешил на «карман», в который втыкается
винт но нет, на другом «кармане» и в другом аналогичном серваке те же
проблемы . Остальные
винт ы
работ ают нормально.
Кто-то сталкивался с подобным, где могла собака порыться?
Бобер | Бездомный
Реклама двигатель прогресса
А кому сча лехко?
_________________ Желающим разместить рекламу смотреть сюдой
exn |
Дата 23 Июля, 2009, 22:09
Unregistered
Похожая штука у меня происходит, просто не помню так чтобы на сто процентов, потомучто нашел антидот и уже не вылазивает. На определенных участках винт действительно также вылетает, потом инициализируется и едет по новой как нивчем не бывало. Я просто в те места больше ничего не записываю чтобы не ярить его лишний раз.
SwD |
Дата 23 Июля, 2009, 22:21
Unregistered
exn Т.е. засада именно с самими
винт ами, считаешь?
Я для
пров ерки втыкал их в тестовый компик...
Винт №1:
Код
worm2:~# time mkfs.ext3 -m1 /dev /sdc1 ... real 4m3.107s user 0m0.420s sys 0m31.418s worm2:~# bonnie ++ -u root -d /mnt -s 4096M ... Version 1.03e ------Sequential Output------ --Sequential Input- --Random- -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seek s-- Machine Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP /sec %CP worm2 4G 49486 98 86508 24 46309 8 53907 98 111034 7 193.4 1 ------Sequential Create------ --------Random Create-------- -Create-- --Read --- -Delete-- -Create-- --Read --- -Delete-- files /sec %CP /sec %CP /sec %CP /sec %CP /sec %CP /sec %CP 16 +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++ worm2,4G,49486,98,86508,24,46309,8,53907,98,111034,7,193.4,1,16,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++
винт №2:
Код
worm2:~# time mkfs.ext3 -m1 /dev /sdc1 ... real 4m10.225s user 0m0.444s sys 0m31.514s worm2:~# bonnie ++ -u root -d /mnt -s 4096M ... Version 1.03e ------Sequential Output------ --Sequential Input- --Random- -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seek s-- Machine Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP /sec %CP worm2 4G 49932 98 85579 23 44888 8 53548 98 106727 8 189.7 1 ------Sequential Create------ --------Random Create-------- -Create-- --Read --- -Delete-- -Create-- --Read --- -Delete-- files /sec %CP /sec %CP /sec %CP /sec %CP /sec %CP /sec %CP 16 +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++ worm2,4G,49932,98,85579,23,44888,8,53548,98,106727,8,189.7,1,16,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++
Т.е. как бы внешне всё нормально... Но в том и дело, что проблема время от времени вылазит
exn |
Дата 23 Июля, 2009, 22:43
Unregistered
Не берусь утверждать, но привел свой пример, и что да, симптомы очень похожи если не идентичны. bonnie забивает не весь же винт сразу. Просто нужно узнать где именно проблема вылетает и больше в то место ничего не писать и не читать от туда. fsck не помогает, форматировать ближайшие пару лет не собираюсь. вылезает тоже не постоянно. очень похожая ситуация.
SwD |
Дата 23 Июля, 2009, 22:53
Unregistered
Цитата(exn @ 23 Июля, 2009, 21:40)
и больше в то место ничего не писать и не читать
Увы
винт ы попарно собраны в md-массив, поверх которых drbd. Так что, похоже, придётся менять, если дело в них... Как вариант завтра попробую заставить
bonnie забить весь
винт ...
SwD |
Дата 25 Июля, 2009, 16:16
Unregistered
Попробуем-ка
пров ерить гипотезу о глючной области
винт а при помощи простого скрипта:
Код
#!/bin/bash HDD='/dev /sdb' SN='hdparm -g $HDD | sed 's/,/\n/g' | grep sector s | awk '{print $3-1}''for ((cnt=0; cnt<=SN; cnt++)) do echo $cnt | awk '{printf "%s %011i","Sector ",$0}' hdparm --write-sector $cnt --yes-i-know-what-i-am-doing $HDD > /dev /null [[ "$?" != "0" ]] && echo "FAIL" | awk '{printf "%s %4s"," write",$0}' || echo "OK" | awk '{printf "%s %4s"," write",$0}' hdparm --read -sector $cnt $HDD > /dev /null [[ "$?" != "0" ]] && echo "FAIL" | awk '{printf "%s %4s\n"," read ",$0}' || echo "OK" | awk '{printf "%s %4s\n"," read ",$0}' done
Запустим и будем поглядывать в /var/log/kern.log на предмет ресета порта...
SwD |
Дата 25 Июля, 2009, 17:21
Unregistered
Не... этот скрипт оставим на закуску уж очень небыстро-то посекторно терабайтный
винт потрошить.
Сделаю-ка пока просто:
Код
dd if=/dev /sdb of=/dev /null bs=512 count=1953525168 skip =0 dd if=/dev /random of=/dev /sdb bs=512 count=1953525168 seek =0
exn |
Дата 25 Июля, 2009, 18:09
Unregistered
Цитата(SwD @ 25 Июля, 2009, 17:18)
/dev /random
лучше /
dev /zero, побыстрее будет. А в идеале примонтировать с sync'ом
SwD |
Дата 25 Июля, 2009, 18:46
Unregistered
Так-с... Предположения почтенного
exn полностью оправдались как минимум на одном проблемном
винт е:
Код
worm2:~# dd if=/dev /sdb of=/dev /null bs=512 count=1953525168 skip =0 dd: read ing '/dev /sdb': Input/output error 838820352+0 records in 838820352+0 records out 429476020224 bytes (429 GB) copied, 4115.23 s, 104 MB/s
В /var/log/kern.log:
Код
Jul 25 17:20:11 worm2 kernel : ata 1.01 : exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Jul 25 17:20:11 worm2 kernel : ata 1.01 : BMDMA stat 0x64 Jul 25 17:20:11 worm2 kernel : ata 1.01 : cmd 25/00:08:00:62:ff/00:00:31:00:00/f0 tag 0 dma 4096 in Jul 25 17:20:11 worm2 kernel : res 51/40:00:05:62:ff/40:00:31:00:00/f0 Emask 0x9 (media error ) Jul 25 17:20:11 worm2 kernel : ata 1.01 : status : { DRDY ERR } Jul 25 17:20:11 worm2 kernel : ata 1.01 : error : { UNC } Jul 25 17:20:11 worm2 kernel : ata 1.00 : configured for UDMA /133 Jul 25 17:20:11 worm2 kernel : ata 1.01 : configured for UDMA /133 Jul 25 17:20:11 worm2 kernel : sd 0:0:1:0: [sdb] Res ult: hostbyte=DID_OK driverbyte=DRIVER_SENSE ,SUGGEST_OK Jul 25 17:20:11 worm2 kernel : sd 0:0:1:0: [sdb] Sense Key : Medium Error [current] [descriptor] Jul 25 17:20:11 worm2 kernel : Descriptor sense data with sense descriptors (in hex): Jul 25 17:20:11 worm2 kernel : 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 Jul 25 17:20:11 worm2 kernel : 31 ff 62 05 Jul 25 17:20:11 worm2 kernel : sd 0:0:1:0: [sdb] Add. Sense : Unrecovered read error - auto reallocate failed Jul 25 17:20:11 worm2 kernel : end_request: I/O error , dev sdb, sector 838820357 Jul 25 17:20:11 worm2 kernel : printk: 18 messages suppres sed. Jul 25 17:20:11 worm2 kernel : Buffer I/O error on dev ice sdb, logical block 104852544 Jul 25 17:20:11 worm2 kernel : ata 1: EH complete
Проверяем руками:
Код
worm2:~# hdparm --read -sector 838820357 /dev /sdb /dev /sdb:read ing sector 838820357: FAILED : Input/output error worm2:~# hdparm --read -sector 838820356 /dev /sdb /dev /sdb:read ing sector 838820356: succeeded 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 ... 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 worm2:~# hdparm --read -sector 838820358 /dev /sdb /dev /sdb:read ing sector 838820358: succeeded 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 ... 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
Т.е. таки да, сектор 838820357 битый, его соседи читаются...
SlavaD | Профиль
Дата 26 Июля, 2009, 12:16
Тех. Админ
Группа: Admin
Сообщений: 503
Регистрация: 13.08.03
Авторитет: 21
Вне форума
что-то последнее время складывается ощущение, что WD не слабо испоганилось и пора забывать об этой марке
Rumlin | Профиль
Дата 26 Июля, 2009, 15:16
Группа: Старожил
Сообщений: 10132
Регистрация: 31.01.05
Авторитет: 31
Вне форума
Предупреждения: (0 %)
Цитата(SlavaD @ 26 Июля, 2009, 11:13)
WD не слабо испоганилось и пора забывать об этой марке
Гы, вы еще не видели MAXTOR
SwD |
Дата 26 Июля, 2009, 15:57
Unregistered
SlavaD Если не WD, то что? Seagate?
SlavaD | Профиль
Дата 26 Июля, 2009, 16:17
Тех. Админ
Группа: Admin
Сообщений: 503
Регистрация: 13.08.03
Авторитет: 21
Вне форума
SwD Домой взял самсунг терабайтник, пока все замечательно, стабильная ровная скорость чтения со всей поверхности 100-130 метров/сек. (у 750 WD плавает от 30 до 80, у знакомого на аналогичном WD от 10 до 70)
exn |
Дата 26 Июля, 2009, 16:58
Unregistered
ну у меня на самсунге такое..
SwD |
Дата 26 Июля, 2009, 18:26
Unregistered
Печально это всё... Ладно, эти
винт ы поменяю, конечно... Но на будущее надо думать
Rumata | Профиль
Дата 26 Июля, 2009, 20:15
The One
Группа: Admin
Сообщений: немеряно
Регистрация: 21.06.03
Авторитет: 100
Вне форума
а что вы хотели, уважаемые коллеги ? на рынок сейчас сливается дерьмо еще то. и я бы все таки доверял тестам от MHDD, может быть я старомоден ...
____________________
Ничто так не сближает людей, как снайперский прицел
SwD |
Дата 27 Июля, 2009, 10:30
Unregistered
Цитата(Rumata @ 26 Июля, 2009, 19:12)
тестам от MHDD
WTF? То бишь о чем речь?
Rumata | Профиль
Дата 27 Июля, 2009, 11:13
The One
Группа: Admin
Сообщений: немеряно
Регистрация: 21.06.03
Авторитет: 100
Вне форума
____________________
Ничто так не сближает людей, как снайперский прицел
SwD |
Дата 27 Июля, 2009, 19:02
Unregistered
Цитата(Rumata @ 26 Июля, 2009, 19:12)
и я бы все таки доверял тестам от MHDD
Что данные из /var/log/kern.log, что данные из MHDD одинаково, как ни странно...
Rumlin | Профиль
Дата 28 Июля, 2009, 11:21
Группа: Старожил
Сообщений: 10132
Регистрация: 31.01.05
Авторитет: 31
Вне форума
Предупреждения: (0 %)
Цитата(SwD @ 26 Июля, 2009, 14:54)
Если не WD, то что? Seagate?
чтото пока надежны
HITACHI . Samsung 320- 500 Гб относительно часто ломаются. Но WD, Maxtor почаще будут.
Сообщение отправляется. Пожалуйста, подождите...
После проверки сообщения модератором, оно будет добавлено в эту тему
[ Script Execution time: 0.0147 ] [ 12 queries used ] [ GZIP включён ]
Политика конфиденциальности