Крымский форум (Crimea-Board) Поиск Участники Помощь Текстовая версия Crimea-Board.Net
Здравствуйте Гость .:: Вход :: Регистрация ::. .:: Выслать повторно письмо для активации  
 
> Рекламный блок.
 

Реклама на форуме

 
> Ваша реклама, здесь
 
 
 

Страницы: (2) [1] 2  ( Перейти к первому непрочитанному сообщению ) Start new topic Start Poll 

> Странные проблемы с винтами
SwD |
Дата 23 Июля, 2009, 21:22
Quote Post



Unregistered









Имеем 5 SATA-винтов Western Digital WD1001FALS, емкостью по 1ТБ каждый... Втыкаем их в серверок Supermicro A+ Server 2021M-T2R+B... и вот с двумя винтами из пяти творится странное:
Код
Jul 23 18:29:31 debian kernel: ATA: abnormal status 0xD0 on port 0xC487
Jul 23 18:29:31 debian last message repeated 5 times
Jul 23 18:30:01 debian kernel: ata4.00: qc timeout (cmd 0xec)
Jul 23 18:30:01 debian kernel: ata4.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Jul 23 18:30:01 debian kernel: ata4.00: revalidation failed (errno=-5)
Jul 23 18:30:01 debian kernel: ata4: failed to recover some devices, retrying in 5 secs
Jul 23 18:30:06 debian kernel: ata4: hard resetting port
Jul 23 18:30:07 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:30:07 debian kernel: ata4.00: configured for UDMA/133
Jul 23 18:30:07 debian kernel: ata4: EH complete
Jul 23 18:30:07 debian kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB)
Jul 23 18:30:07 debian kernel: sdd: Write Protect is off
Jul 23 18:30:07 debian kernel: sdd: Mode Sense: 00 3a 00 00
Jul 23 18:30:07 debian kernel: SCSI device sdd: drive cache: write back
Jul 23 18:30:37 debian kernel: ata4.00: limiting speed to UDMA/100
Jul 23 18:30:37 debian kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Jul 23 18:30:37 debian kernel: ata4.00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout)
Jul 23 18:30:44 debian kernel: ata4: port is slow to respond, please be patient
Jul 23 18:31:07 debian kernel: ata4: port failed to respond (30 secs)
Jul 23 18:31:07 debian kernel: ata4: soft resetting port
Jul 23 18:31:10 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:31:10 debian kernel: ata4.00: configured for UDMA/100
Jul 23 18:31:10 debian kernel: ata4: EH complete
Jul 23 18:31:10 debian kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB)
Jul 23 18:31:10 debian kernel: sdd: Write Protect is off
Jul 23 18:31:10 debian kernel: sdd: Mode Sense: 00 3a 00 00
Jul 23 18:31:10 debian kernel: SCSI device sdd: drive cache: write back
Jul 23 18:31:41 debian kernel: ata4.00: limiting speed to UDMA/66
Jul 23 18:31:41 debian kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Jul 23 18:31:41 debian kernel: ata4.00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout)
Jul 23 18:31:48 debian kernel: ata4: port is slow to respond, please be patient
Jul 23 18:32:11 debian kernel: ata4: port failed to respond (30 secs)
Jul 23 18:32:11 debian kernel: ata4: soft resetting port
Jul 23 18:32:18 debian kernel: ata4: port is slow to respond, please be patient
Jul 23 18:32:41 debian kernel: ata4: port failed to respond (30 secs)
Jul 23 18:32:41 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:32:41 debian kernel: ATA: abnormal status 0xD0 on port 0xC487
Jul 23 18:32:41 debian last message repeated 5 times
Jul 23 18:33:11 debian kernel: ata4.00: qc timeout (cmd 0xec)
Jul 23 18:33:11 debian kernel: ata4.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Jul 23 18:33:11 debian kernel: ata4.00: revalidation failed (errno=-5)
Jul 23 18:33:11 debian kernel: ata4: failed to recover some devices, retrying in 5 secs
Jul 23 18:33:16 debian kernel: ata4: hard resetting port
Jul 23 18:33:17 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:33:17 debian kernel: ata4.00: configured for UDMA/66
Jul 23 18:33:17 debian kernel: ata4: EH complete
Jul 23 18:33:17 debian kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB)
Jul 23 18:33:17 debian kernel: sdd: Write Protect is off
Jul 23 18:33:17 debian kernel: sdd: Mode Sense: 00 3a 00 00
Jul 23 18:33:17 debian kernel: SCSI device sdd: drive cache: write back
Jul 23 18:33:50 debian kernel: ata4.00: limiting speed to UDMA/44
Jul 23 18:33:50 debian kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Jul 23 18:33:50 debian kernel: ata4.00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout)
Jul 23 18:33:56 debian kernel: ata4: soft resetting port
Jul 23 18:33:56 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:33:56 debian kernel: ata4.00: configured for UDMA/44
Jul 23 18:33:56 debian kernel: ata4: EH complete
Jul 23 18:33:56 debian kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB)
Jul 23 18:33:56 debian kernel: sdd: Write Protect is off
Jul 23 18:33:56 debian kernel: sdd: Mode Sense: 00 3a 00 00
Jul 23 18:33:58 debian kernel: SCSI device sdd: drive cache: write back
Jul 23 18:34:29 debian kernel: ata4.00: limiting speed to UDMA/33
Jul 23 18:34:29 debian kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Jul 23 18:34:29 debian kernel: ata4.00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout)
Jul 23 18:34:36 debian kernel: ata4: port is slow to respond, please be patient
Jul 23 18:34:59 debian kernel: ata4: port failed to respond (30 secs)
Jul 23 18:34:59 debian kernel: ata4: soft resetting port
Jul 23 18:35:06 debian kernel: ata4: port is slow to respond, please be patient
Jul 23 18:35:26 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:35:26 debian kernel: ata4.00: configured for UDMA/33
Jul 23 18:35:26 debian kernel: ata4: EH complete
Jul 23 18:35:26 debian kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB)
Jul 23 18:35:26 debian kernel: sdd: Write Protect is off
Jul 23 18:35:26 debian kernel: sdd: Mode Sense: 00 3a 00 00
Jul 23 18:35:27 debian kernel: SCSI device sdd: drive cache: write back
Jul 23 18:35:57 debian kernel: ata4.00: limiting speed to UDMA/25
Jul 23 18:35:57 debian kernel: ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Jul 23 18:35:57 debian kernel: ata4.00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout)
Jul 23 18:36:04 debian kernel: ata4: port is slow to respond, please be patient
Jul 23 18:36:11 debian kernel: ata4: soft resetting port
Jul 23 18:36:12 debian kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jul 23 18:36:12 debian kernel: ata4.00: configured for UDMA/25
Jul 23 18:36:12 debian kernel: ata4: EH complete
Jul 23 18:36:12 debian kernel: SCSI device sdd: 1953525168 512-byte hdwr sectors (1000205 MB)
Jul 23 18:36:12 debian kernel: sdd: Write Protect is off
Jul 23 18:36:12 debian kernel: sdd: Mode Sense: 00 3a 00 00
Jul 23 18:36:12 debian kernel: SCSI device sdd: drive cache: write back
Jul 23 18:36:42 debian kernel: ata4.00: limiting speed to UDMA/16


Причем проблема не постоянная, а время от времени... Вот именно этот винт, лог по которому приведен, вполне нормально работал сутки, а потом пошли проблемы... Причем если его вынуть, а потом обратно вставить какое-то время опять будет всё нормально. Одно время грешил на «карман», в который втыкается винт но нет, на другом «кармане» и в другом аналогичном серваке те же проблемы. Остальные винты работают нормально.

Кто-то сталкивался с подобным, где могла собака порыться?
30/   
Бобер | Бездомный
Реклама двигатель прогресса       
Quote Post



А кому сча лехко?
Group Icon
















_________________
Желающим разместить рекламу смотреть сюдой
/   
exn |
Дата 23 Июля, 2009, 22:09
Quote Post



Unregistered









Похожая штука у меня происходит, просто не помню так чтобы на сто процентов, потомучто нашел антидот и уже не вылазивает. На определенных участках винт действительно также вылетает, потом инициализируется и едет по новой как нивчем не бывало. Я просто в те места больше ничего не записываю чтобы не ярить его лишний раз.
1/   
SwD |
Дата 23 Июля, 2009, 22:21
Quote Post



Unregistered









exn
Т.е. засада именно с самими винтами, считаешь?
Я для проверки втыкал их в тестовый компик...

Винт №1:
Код
worm2:~# time mkfs.ext3 -m1 /dev/sdc1
...
real    4m3.107s
user    0m0.420s
sys     0m31.418s

worm2:~# bonnie++ -u root -d /mnt -s 4096M
...
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                   -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
worm2            4G 49486  98 86508  24 46309   8 53907  98 111034   7 193.4   1
                   ------Sequential Create------ --------Random Create--------
                   -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
             files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                16 +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++
worm2,4G,49486,98,86508,24,46309,8,53907,98,111034,7,193.4,1,16,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++


винт №2:
Код
worm2:~# time mkfs.ext3 -m1 /dev/sdc1
...
real    4m10.225s
user    0m0.444s
sys     0m31.514s

worm2:~# bonnie++ -u root -d /mnt -s 4096M
...
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                   -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
worm2            4G 49932  98 85579  23 44888   8 53548  98 106727   8 189.7   1
                   ------Sequential Create------ --------Random Create--------
                   -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
             files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                16 +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++
worm2,4G,49932,98,85579,23,44888,8,53548,98,106727,8,189.7,1,16,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++


Т.е. как бы внешне всё нормально... Но в том и дело, что проблема время от времени вылазит sad.gif
4/   
exn |
Дата 23 Июля, 2009, 22:43
Quote Post



Unregistered









Не берусь утверждать, но привел свой пример, и что да, симптомы очень похожи если не идентичны.
bonnie забивает не весь же винт сразу. Просто нужно узнать где именно проблема вылетает и больше в то место ничего не писать и не читать от туда. fsck не помогает, форматировать ближайшие пару лет не собираюсь. вылезает тоже не постоянно. очень похожая ситуация.
2/   
SwD |
Дата 23 Июля, 2009, 22:53
Quote Post



Unregistered









Цитата(exn @ 23 Июля, 2009, 21:40)
и больше в то место ничего не писать и не читать

Увы винты попарно собраны в md-массив, поверх которых drbd. Так что, похоже, придётся менять, если дело в них... Как вариант завтра попробую заставить bonnie забить весь винт...
2/   
SwD |
Дата 25 Июля, 2009, 16:16
Quote Post



Unregistered









Попробуем-ка проверить гипотезу о глючной области винта при помощи простого скрипта:
Код
#!/bin/bash

HDD='/dev/sdb'
SN='hdparm -g $HDD | sed 's/,/\n/g' | grep sectors | awk '{print $3-1}''

for ((cnt=0; cnt<=SN; cnt++))
do
 echo $cnt | awk '{printf "%s %011i","Sector",$0}'
 hdparm --write-sector $cnt --yes-i-know-what-i-am-doing $HDD > /dev/null
 [[ "$?" != "0" ]] && echo "FAIL" | awk '{printf "%s %4s","   write",$0}' || echo "OK" | awk '{printf "%s %4s","   write",$0}'
 hdparm --read-sector $cnt $HDD > /dev/null
 [[ "$?" != "0" ]] && echo "FAIL" | awk '{printf "%s %4s\n","   read",$0}' || echo "OK" | awk '{printf "%s %4s\n","   read",$0}'
done


Запустим и будем поглядывать в /var/log/kern.log на предмет ресета порта...
6/   
SwD |
Дата 25 Июля, 2009, 17:21
Quote Post



Unregistered









Не... этот скрипт оставим на закуску уж очень небыстро-то посекторно терабайтный винт потрошить.
Сделаю-ка пока просто:
Код
dd if=/dev/sdb of=/dev/null bs=512 count=1953525168 skip=0
dd if=/dev/random of=/dev/sdb bs=512 count=1953525168 seek=0
2/   
exn |
Дата 25 Июля, 2009, 18:09
Quote Post



Unregistered









Цитата(SwD @ 25 Июля, 2009, 17:18)
/dev/random


лучше /dev/zero, побыстрее будет. А в идеале примонтировать с sync'ом
1/   
SwD |
Дата 25 Июля, 2009, 18:46
Quote Post



Unregistered









Так-с... Предположения почтенного exn полностью оправдались как минимум на одном проблемном винте:
Код
worm2:~# dd if=/dev/sdb of=/dev/null bs=512 count=1953525168 skip=0
dd: reading '/dev/sdb': Input/output error
838820352+0 records in
838820352+0 records out
429476020224 bytes (429 GB) copied, 4115.23 s, 104 MB/s


В /var/log/kern.log:
Код
Jul 25 17:20:11 worm2 kernel: ata1.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 25 17:20:11 worm2 kernel: ata1.01: BMDMA stat 0x64
Jul 25 17:20:11 worm2 kernel: ata1.01: cmd 25/00:08:00:62:ff/00:00:31:00:00/f0 tag 0 dma 4096 in
Jul 25 17:20:11 worm2 kernel:          res 51/40:00:05:62:ff/40:00:31:00:00/f0 Emask 0x9 (media error)
Jul 25 17:20:11 worm2 kernel: ata1.01: status: { DRDY ERR }
Jul 25 17:20:11 worm2 kernel: ata1.01: error: { UNC }
Jul 25 17:20:11 worm2 kernel: ata1.00: configured for UDMA/133
Jul 25 17:20:11 worm2 kernel: ata1.01: configured for UDMA/133
Jul 25 17:20:11 worm2 kernel: sd 0:0:1:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
Jul 25 17:20:11 worm2 kernel: sd 0:0:1:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Jul 25 17:20:11 worm2 kernel: Descriptor sense data with sense descriptors (in hex):
Jul 25 17:20:11 worm2 kernel:         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Jul 25 17:20:11 worm2 kernel:         31 ff 62 05
Jul 25 17:20:11 worm2 kernel: sd 0:0:1:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
Jul 25 17:20:11 worm2 kernel: end_request: I/O error, dev sdb, sector 838820357
Jul 25 17:20:11 worm2 kernel: printk: 18 messages suppressed.
Jul 25 17:20:11 worm2 kernel: Buffer I/O error on device sdb, logical block 104852544
Jul 25 17:20:11 worm2 kernel: ata1: EH complete


Проверяем руками:
Код
worm2:~# hdparm --read-sector 838820357 /dev/sdb
/dev/sdb:
reading sector 838820357: FAILED: Input/output error

worm2:~# hdparm --read-sector 838820356 /dev/sdb
/dev/sdb:
reading sector 838820356: succeeded
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
...
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000

worm2:~# hdparm --read-sector 838820358 /dev/sdb
/dev/sdb:
reading sector 838820358: succeeded
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
...
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000


Т.е. таки да, сектор 838820357 битый, его соседи читаются...
28/   
SlavaD | Профиль
Дата 26 Июля, 2009, 12:16
Quote Post



Тех. Админ
Group Icon

Группа: Admin
Сообщений: 503
Регистрация: 13.08.03
Авторитет: 21
Вне форума



что-то последнее время складывается ощущение, что WD не слабо испоганилось и пора забывать об этой марке
PMEmail Poster
Rumlin | Профиль
Дата 26 Июля, 2009, 15:16
Quote Post




Group Icon

Группа: Старожил
Сообщений: 10132
Регистрация: 31.01.05
Авторитет: 31
Вне форума

Предупреждения:
(0%) -----


Цитата(SlavaD @ 26 Июля, 2009, 11:13)
WD не слабо испоганилось и пора забывать об этой марке

Гы, вы еще не видели MAXTOR lol.gif
PMEmail Poster
SwD |
Дата 26 Июля, 2009, 15:57
Quote Post



Unregistered









SlavaD
Если не WD, то что? Seagate?
SlavaD | Профиль
Дата 26 Июля, 2009, 16:17
Quote Post



Тех. Админ
Group Icon

Группа: Admin
Сообщений: 503
Регистрация: 13.08.03
Авторитет: 21
Вне форума



SwD
Домой взял самсунг терабайтник, пока все замечательно, стабильная ровная скорость чтения со всей поверхности 100-130 метров/сек. (у 750 WD плавает от 30 до 80, у знакомого на аналогичном WD от 10 до 70)
PMEmail Poster
exn |
Дата 26 Июля, 2009, 16:58
Quote Post



Unregistered









ну у меня на самсунге такое..
SwD |
Дата 26 Июля, 2009, 18:26
Quote Post



Unregistered









Печально это всё... Ладно, эти винты поменяю, конечно... Но на будущее надо думать sad.gif
1/   
Rumata | Профиль
Дата 26 Июля, 2009, 20:15
Quote Post



The One
Group Icon

Группа: Admin
Сообщений: немеряно
Регистрация: 21.06.03
Авторитет: 100
Вне форума



а что вы хотели, уважаемые коллеги ? на рынок сейчас сливается дерьмо еще то.

и я бы все таки доверял тестам от MHDD, может быть я старомоден ...


____________________
Ничто так не сближает людей, как снайперский прицел
SwD |
Дата 27 Июля, 2009, 10:30
Quote Post



Unregistered









Цитата(Rumata @ 26 Июля, 2009, 19:12)
тестам от MHDD

WTF? То бишь о чем речь?
9/   
Rumata | Профиль
Дата 27 Июля, 2009, 11:13
Quote Post



The One
Group Icon

Группа: Admin
Сообщений: немеряно
Регистрация: 21.06.03
Авторитет: 100
Вне форума



Документация на MHDD и сам MHDD v.4.6


____________________
Ничто так не сближает людей, как снайперский прицел
SwD |
Дата 27 Июля, 2009, 19:02
Quote Post



Unregistered









Цитата(Rumata @ 26 Июля, 2009, 19:12)
и я бы все таки доверял тестам от MHDD

Что данные из /var/log/kern.log, что данные из MHDD одинаково, как ни странно...
9/   
Rumlin | Профиль
Дата 28 Июля, 2009, 11:21
Quote Post




Group Icon

Группа: Старожил
Сообщений: 10132
Регистрация: 31.01.05
Авторитет: 31
Вне форума

Предупреждения:
(0%) -----


Цитата(SwD @ 26 Июля, 2009, 14:54)
Если не WD, то что? Seagate?

чтото пока надежны HITACHI. Samsung 320- 500 Гб относительно часто ломаются. Но WD, Maxtor почаще будут.
PMEmail Poster
1/44172   

Topic OptionsСтраницы: (2) [1] 2  Start new topic Start Poll 

 



[ Script Execution time: 0.0147 ]   [ 12 queries used ]   [ GZIP включён ]






Политика конфиденциальности

Top