RedHat Медленная скорость чтения с винта.

Скрябин Дмитрий
Дата: 20.01.2010 08:35:52
Установлена система RHEL4. Последний год ничего не обновляли, ничего не ставили. На машину ежедневно по nfs заливаются логи, которые потом записываются на стриммер. 2 винта WD10EADS-00M2B0 объединены в софтовый RAID1.
С ноября система начала капризничать - скорость чтения/записи начала падать. В логах видно, что отпадают винты, а потом снова подключаются:
Jan 14 09:30:47 backup kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Jan 14 09:30:47 backup kernel: ata1.00: cmd ca/00:08:1f:ed:19/00:00:00:00:00/e0 tag 0 cdb 0x0 data 4096 out
Jan 14 09:30:54 backup kernel: ata1: port is slow to respond, please be patient (Status 0xd0)
Jan 14 09:31:17 backup kernel: ata1: port failed to respond (30 secs, Status 0xd0)
Jan 14 09:31:17 backup kernel: ata1: soft resetting port
Jan 14 09:31:39 backup kernel: ata1.00: revalidation failed (errno=-2)
Jan 14 09:31:39 backup kernel: ata1: failed to recover some devices, retrying in 5 secs
Jan 14 09:31:44 backup kernel: ata1: soft resetting port
Jan 14 09:31:45 backup kernel: ata1.00: configured for UDMA/133
Jan 14 09:31:45 backup kernel: ata1: EH complete
Причем из двух винтов сначала выпадал какой-то один. Лечилось всё ребутом. Но потом проблема стала постоянной - с самого момента загрузки системы оба винта тормозят, и периодически один из них выпадывает. скорость чтения - около 1.5МБайта/сек, у процессора iowait достигает 100%.
Блок питания ставил другой - результата нет.
Шлейфы менял - результата нет
Память ОЗУ менял - результата нет
Материнку сдавал на диагностику - сказали, что она рабочая.
Вставлял другой винт в этот сервер - другой винт с этим же оборудованием работает исправно (тестировал в течение 3-х дней)
Проверял эти винты на другом сервере - на другом сервере тот же RedHat работает нормально, скорость чтения с этих винтов - 50Мб/c/
И последнее, что делал (что привело меня в полное замешательство): вернул всё как было (тобишь как раньше работало) но загрузился с LiveCD (Ubuntu). hdparm показывает скорость чтения с винта - около 50мб/с. Тут же загружаюсь в RedHat - опять тормоза и мои 1.5Мб/с.
Посоветуйте, что еще может быть?
skelet
Дата: 20.01.2010 09:24:51
Скрябин Дмитрий,

заменить диски слабо? )
klepa
Дата: 20.01.2010 10:05:09
Ну раз RAID софтовый, значит рейдится он процессором. М.б. стоит посмотреть загрузку процессора?
Sergey Orlov
Дата: 20.01.2010 10:19:48
klepa
Ну раз RAID софтовый, значит рейдится он процессором. М.б. стоит посмотреть загрузку процессора?

Может зеркало переинициализировать....
Скрябин Дмитрий
Дата: 20.01.2010 10:49:17
skelet
заменить диски слабо? )

Заменить-то не слабо, только вот нет повода их менять. я поставил их на другой сервер, там они великолепно работают (с этим же RedHat-ом). Кроме того, тестировал их утилитой от WD (подключал к рабочему компу) - скорость в норме, бэдов нет.

klepa
Ну раз RAID софтовый, значит рейдится он процессором. М.б. стоит посмотреть загрузку процессора?

Sergey Orlov
Может зеркало переинициализировать...

Тоже думал про это. но процессы md не в топе, т.е. не грузят проц. пробовал с одним винтом (второй удалял из массива) - такая же фигня.
Скорость чтения я проверяю не у md, а напрямую диска (hdparm -t /dev/sda), так что по идее рэйд тут не причем вроде. Или не так? Что можно в md проверить?
ПЕреинициализировать - в смысле assemble сделать?
Подумалось...
Дата: 20.01.2010 13:40:32
Вот тут по аналогичному поводу ругают smartd. В RHEL4 он вроде как был и даже включался. Если его вырубить - может оно само починится?
Скрябин Дмитрий
Дата: 21.01.2010 07:04:44
Подумалось...,
Да, проблема похожая. только мне не помогло :(
Сделал следующее:
* Отключил в биосе smart
* загрузился с single mode - в этом режиме smartd не стартует.
Всё без изменений. Тормозить начинает уже при загрузке системы, на этапе "mouting root file system", когда smartd вроде еще не запустился.
пролетевший
Дата: 21.01.2010 10:13:24
Похожая проблема есть в багтрекинге на http://bugzilla.kernel.org/ , у всех в разных ситуациях и с разным железом. С переодическими комментариями "Попробовали, не помогло. На машине линуса тоже воспроизводится". Но на ext3/4 журналы грешат, то на драйвера ide, неделю назад смотрел - в текущем ядре не пофиксено.
Интересовался, поскольку у самого похожая беда без всякого рейда ( правда в логах о проблемах с каналом не пишет ).