Page 8

ЛАБОРАТОРНА РОБОТА № 9

 

SMART ТЕХНОЛОГІЯ ВНУТРІШНЬОЇ ОЦІНКИ СТАНУ HDD

Мета роботи: Вивчити призначення та функціональність технології SMART

 

ТЕОРЕТИЧНІ ВІДОМОСТІ

 

Етапи розвитку технології SMART

Надійності жорсткого диска (і будь-якого пристрою зберігання в найзагальнішому випадку) завжди надається велике значення. І справа не в його вартості, а в цінності тієї інформації, яка може втратитись чи у втратах, пов'язаних з простоями при виході з ладу вінчестерів.

Вперше над цим завданням задумалися інженери блакитного гіганта (IBM). І в 1995 році вони запропонували технологію, що відстежує декілька критично важливих параметрів накопичувача, і що робить спроби на підставі зібраних даних передбачити вихід його з ладу - Predictive Failure Analysis (PFA). Ідею підхопила Compaq, яка трохи пізніше створила свою технологію – IntelliSafe. У розробці Compaq також прийняли участь Seagate, Quantum і Conner. Створена ними технологія також відстежувала ряд робочих характеристик диска, порівнювала їх з допустимим значенням і рапортувала хост-системі у разі наявності небезпеки. Це був величезний крок вперед якщо і не в підвищенні надійності вінчестерів, то хоч би в зменшенні ризику втрати інформації при їх використанні. Перші спроби виявилися вдалими, і показали необхідність подальшого розвитку технології. Вже в об'єднанні всіх крупних виробників жорстких дисків з'явилася технологія S.M.A.R.T (Self Monitoring Analysing and Reporting Technology), що базується на технологіях IntelliSafe і PFA (до речі кажучи, PFA існує і понині, як набір технологій для спостереження та аналізу різних підсистем серверів IBM, у тому числі і дискової підсистеми, причому спостереження за останньою базується саме на технології SMART).

У своєму розвитку технологія SMART пройшла три етапи.

SMART I передбачав моніторинг основних параметрів і запускався тільки після команди по інтерфейсу. Статистика говорить про те, що число збоїв, які передбачалися, було менше 20%. До розробки SMART II підключилася Hitachi, запропонувавши методику повної самодіагностики накопичувача (extended self-test), з'явилася функція журналізації помилок, можливість фонової перевірки поверхні, що виконується в автоматичному режимі при простоях, розширився список контрольованих параметрів. Число збоїв, що передбачалося, досягло 50%. В SMART III з'явилася не тільки функція виявлення дефектів поверхні, але й можливість їх відновлення "прозоро" для користувача.

 

 

Загальний опис

S.M.A.R.T. (англ. Self Monitoring Analysis and Reporting Technology) – технологія самоконтролю, аналізу і рапортування) – промисловий стандарт прогнозу надійності для IDE / ATA та SCSI дисководів жорстких дисків. Дисководи жорстких дисків з функцією S.M.A.R.T. дозволяють наперед попередити про можливу швидку відмову жорсткого диска, завдяки чому важливі дані можуть бути захищені; це набір програм, вшитих в мікрокод вінчестера.

Кожна фірма-виробник дисків веде свої розробки, звідси і різноманітність параметрів для різних дисків. Однак існують загальні параметри:

-     атрибути, які відображають загальний стан диска;

-     внутрішні тести (self-tests);

-     журнали S.M.A.R.T.  (помилок, загального стану, дефектних секторів тощо)

Технологія SMART дозволяє здійснювати:

-     моніторинг параметрів стану;

-     сканування поверхні;

-     сканування поверхні з автоматичною заміною сумнівних секторів на надійні.

Існує два методи тестування:

-     автономний (off-line) – накопичувач повідомляє про успішне завершення команди до її фактичного виконання і тільки після цього виконує тест. При цьому по інтерфейсу прапорець «зайнято» (busy) не виставляється і накопичувач в будь-який момент готовий приступити до виконання наступної інтерфейсної команди, призупиняючи роботу тесту. Фактично тест виконується у фоновому режимі

-     монопольний (captive) –тпо інтерфейсу виставляється прапорець «зайнято» (busy) і накопичувач починає безпосереднє виконання тесту в режимі реального часу. Будь-яка інтерфейсна команда під час виконання цього тесту призведе до його переривання і зупинки, після чого накопиувач приступить до виконання цієї команди.

 

Атрибути SMART

Атрибути – це особливі характеристики, які використовуються при аналізі стану і запасу продуктивності накопичувача. Вони обираються виробником, основуючись на їх здатності передбачати погіршення робочих характеристик накопичувача чи визначати його дефектність.

Значення атрибутів (value) використовується для представлення відносної надійності окремого експлуатаційного чи еталонного атрибута. Допустиме значення атрибута лежить в діапазоні від 1 до 255. Його високе значення говорить про те, що результат аналізу даної робочої характеристики вказує на низьку ймовірність її погіршення чи виходу накопичувача з ладу. Відповідно, низьке значення атрибута говорить про те, що результат аналізу даної робочої характеристики вказує на високу ймовірність її погіршення чи виходу накопичувача з ладу.

Кожен атрибут має власне порогове значення (threshold), яке використовується для порівняння зі значенням атрибута (value). Числове значення порогового атрибута визначається виробником через конструктивні особливості накопичувача і аналіз результатів випробувань на надійність. Порогове значення кожного атрибута вказує на його нижню допустиму границю, до якої накопичувач працює нормально.

Атрибути бувають критично важливими та некритично важливими. Вихід критично важливого параметра за межі Threshold фактично означає вихід з ладу, а вихід за межі допустимих значень некритично важливого параметра свідчить про наявність проблеми, але диск може зберігати свою працездатність.

До критично важливих атрибутів відносяться:

Raw Read Error Rate – частота помилок при читанні даних з диска, походження яких обумовлено апаратною частиною диска.

Spin-Up Time  час розкрутки пакету дисків зі стану спокою до робочої швидкості.

Reallocated Sectors Count – число операцій перепризначення секторів. Коли диск виявляє помилку читання/запису, він позначає сектор «перепризначенням» і переносить дані в спеціально відведену область. Ось чому на сучасних жорстких дисках не можна побачити bad-блоки - всі вони заховані в перепризначених секторах. Цей процес називають remapping, а перепризначений сектор - remap. Чим більше значення, тим гірший стан поверхні дисків. Поле raw value містить загальна кількість перепризначення секторів.

Seek Error Rate – частота помилок при позиціонуванні блоку головок. Чим їх більше, тим гірший стан механіки та / або поверхні жорсткого диска.

Spin-Up Retry Count число повторних спроб розкручування дисків до робочої швидкості у випадку, якщо перша спроба була невдалою. Якщо значення атрибута збільшується, то збільшується ймовірність несправностей з механічною частиною.

End-to-End error даний атрибут - частина технології HP SMART IV, це означає, що після передачі через кеш пам'ять буфера даних паритет даних між хостом і жорстким диском не збігаються.

Hardware ECC Recovered число корекції помилок апаратною частиною диска (помилок читання, помилок позиціонування, помилок передачі по зовнішньому інтерфейсу).

Reallocation Event Count число операцій перепризначення. У полі «raw value» атрибуту зберігається загальне число спроб перенесення інформації з перепризначених секторів в резервну область. Враховуються як успішні, так і неуспішні спроби.

Current Pending Sector Count у полі зберігається число секторів, які є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування з них відрізняється від читання стабільного сектору. Це так звані підозрілі або нестабільні сектори. У разі успішного подальшого прочитання сектора він виключається з числа кандидатів. У разі повторних помилкових читань накопичувач намагається відновити його і виконує операцію перепризначення.

Uncorrectable Sector Count число секторів, які не можна відкоректувати. У разі збільшення числа помилок велика ймовірність критичних дефектів поверхні і / або механіки накопичувача.

Disk Shift дистанція зміщення блоку дисків щодо шпинделя. В основному виникає через удар або падіння. Одиниця виміру невідома.

 

До некритичних атрибутів відносяться:

Throughput Performance – загальна продуктивність диска. Якщо значення атрибута зменшується, то велика ймовірність, що з диском є проблеми.

Start / Stop Count загальна кількість запусків/зупинок шпинделя. У дисків деяких виробників (наприклад, Seagate) - лічильник включення режиму енергозбереження. У полі raw value зберігається загальна кількість запусків/зупинок диска.

Read Channel Marginзапас каналу читання. Призначення цього атрибута не документовано. У сучасних накопичувачах не використовується.

Seek Time Performance середня продуктивність операції позиціонування магнітними голівками. Якщо значення атрибута зменшується, то велика вірогідність проблем з механічною частиною.

Power-On Hours (POH) – число годин (хвилин, секунд - залежно від виробника), проведених у включеному стані. В якості порогового значення для нього вибирається паспортний час напрацювання на відмову (MTBF - mean time between failure).

Recalibration Retries кількість повторів запитів рекалібровки у випадку, якщо перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність проблем з механічною частиною.

Device Power Cycle Count кількість повних циклів включення / виключення диска.

Soft Read Error Rate – число помилок при читанні з вини програмного забезпечення.

Airflow Temperature (WDC) температура повітря всередині корпусу жорсткого диска для дисків Western Digital. Для дисків Seagate розраховується за формулою (100 - HDA temperature).

G-sense error rate – кількість помилок, які виникають в результаті ударних навантажень.

Power-off retract count число циклів вимкнень або аварійних відмов.

Load / Unload Cycle – кількість циклів переміщення блоку магнітних головок в паркувальну зону / в робочий стан.

HDA temperature тут зберігаються свідчення вбудованого термодатчика.

UltraDMA CRC Error Count число помилок, що виникають при передачі даних по зовнішньому інтерфейсу.

Write Error Rate / Multi-Zone Error Rate показує загальну кількість помилок, що відбуваються під час запису сектора. Може служити показником якості поверхні і механіки накопичувача.

Soft read error rate – частота появи «програмних» помилок при читанні даних з диска. Цей параметр показує частоту появи помилок при операціях читання з поверхні диска з вини програмного забезпечення, а не апаратної частини накопичувача.

Run out cancelкількість помилок ECC.

Soft ECC correction – кількість помилок ECC, скоректованих програмним способом.

Flying height висота між головкою і поверхнею диска.

G-Sense Error Rate число помилок, що виникли через зовнішні навантаження та ударіи. Атрибут зберігає свідчення вбудованого датчика удару.

Loaded Hours – час, проведений блоком магнітних головок між вивантаженням з паркувальної області в робочу область диска і завантаженням блоку назад в паркувальну область.

Load / Unload Retry Count кількість нових спроб вивантажень / завантажень блоку магнітних головок в / з паркувальної області після невдалої спроби.

Load Friction – величина сили тертя блоку магнітних головок при його вивантаженні з паркувальної області.

Load 'In'-time – час, за який привід вивантажує магнітні головки з паркувальної області на робочу поверхню диска.

Torque Amplification Count кількість спроб компенсувати обертаючий момент.

Power-Off Retract Cycle – кількість повторів автоматичного паркування блоку магнітних головок в результаті вимкнення живлення.

GMR Head Amplitude амплітуда «тремтіння» (відстань повторюваного переміщення блоку магнітних головок).

Temperature температура жорсткого диска.

Head flying hours час позиціонування головки.

Read error retry rate – число помилок під час читання жорсткого диска.

 

Характеристики накопичувача, за якими SMART проводить спостереження, можна розбити на дві групи:

·      параметри, що відображають процес природного старіння жорсткого диска (число обертів шпинделя, число переміщень головок, кількість циклів ввімкнення-вимкнення);

·      поточні параметри накопичувача (висота головок над поверхнею диска, число перепризначених секторів, час пошуку доріжки і кількість помилок пошуку).

 

Варто відмітити, що технологія SMART дозволяє передбачати вихід пристрою з ладу в результаті механічних несправностей. Це складає близько 60 % від усіх причин. Передбачити наслідки стрибка напруги або пошкодження накопичувача в результаті удару SMART нездатний.

 

Програми для моніторингу жорстких дисків

Слід зазначити, що накопичувачі не можуть самі повідомляти про свій стан за допомогою технології SMART. Для цього існують спеціальні програми. Таким чином, використання технології SMART неможливе без двох складових:

1)      ПЗ, вбудованого в контролер накопичувача;

2)      зовнішнього ПЗ, вбудованого в хост.

Програми, що відображають стан SMART-атрибутів, працюють за наступним алгоритмом:

-          перевіряють наявність підтримки технології SMART накопичувачем;

-          подають у накопичувач команду запиту SMART-таблиць;

-          отримують таблиці в буфер програми;

-          розбирають табличні структури, витягуючи з них номери атрибутів та їх числові значення;

-          зіставляють стандартизовані номери атрибутів їх назвам (іноді - в залежності від типу, моделі або фірми-виробника HDD, як, наприклад, у програмі Victoria);

-          виводять числові значення в зручному для сприйняття вигляді;

-          видаляють з таблиць прапори атрибутів;

-          на підставі всіх таблиць, значень і прапорів виводять загальний стан пристрою.

Сервісні центри для діагностики жорсткого диска використовують в основному DOS програми, якими правильно можуть користуватися одиниці, по-перше вони написані під MS DOS, по-друге інтерфейс не дуже дружелюбний для новачків, ну а по-третє потрібно розуміти пристрій жорсткого диска і його логіку. Тому програми для діагностики жорсткого диска розроблені в Windows. Вони мають широкимі можливості і зручний інтерфейс. Таких програм є досить багато.

Програма HDDScan for Win2k/XP v2.8 (рис.1) вміє проводити низько рівневу перевірку HDD, підтримує IDE, SATA, SCSI жорсткі диски, RAID-масиви, USB і Firewire зовнішні накопичувачі, а також флеш карти! Програма уміє перевіряти поверхню, показувати S.M.A.R.T. інформацію, має підтримку AAM (Automatic Acoustic Management), APM (Advanced Power Management). Крім того вміє будувати графік швидкості звертання до жорсткого диску. Не вимагає установки і займає 350 Кбайт.

Інтерфейс

Рис.1. Програма HDDScan for Win2k/XP v2.8

 

У секції Source Disk вибираємо диск, який потрібно тестувати/форматувати, в нашому випадку це: Seagate ST3160811AS з інтерфейсом SATA і розміром в 160Гб. Програма повідомляє, що у цього жорсткого диска прошивка: 3.AAE, серійний номер жорсткого диска: 6PT0Z158, в LBA відображається кількість секторів на диску. Перемикач Verify – призначений для перевірки поверхні, Read - перевірки читання, Erase - форматування. При натисканні кнопки S.M.A.R.T. бачимо наступну таблицю (рис.2):

 

Рис.2. S.M.A.R.T. параметри жорсткого диска

 

Attribute ідентифікаційний номер.

Description назва атрибута.

Value значення, (від 1 до 255) чим вище, тим краще.

Worst саме мінімальне значення за все «життя» диска.

RAW (hex) шістнадцяткове значення атрибуту (окрім температури (Temperature), яка вимірюється в градусах Цельсія).

Threshold порогове значення атрибута. Використовується для порівняння зі значенням параметра (Value).

 

Індикатори

Зелений все ОК.

Жовтий невелике відхилення від норми.

Червоний сильне відхилення.

 

Отже, при тестуванні комп’ютера червоним загорівся атрибут 005, який означає, що

є пошкоджені сектори, цифра 001 означає їх кількість, в даному випадку цією несправністю можна знехтувати, але якщо bad блоки почали з'являтися нічого доброго це не несе.

Атрибут 197 позначений жовтим – це означає, що є 76 підозрілих секторів, які незабаром можуть стати пошкодженими. Це зайвий раз доводить, що жорсткий диск не надійний. Атрибут 198 також позначений жовтим. Зверныть увагу, що число помилок при зверненні до секторів відповідає числу підозрілих секторів.

 

Перевірка поверхні

Проведемо повну перевірку диска (рис.3). Вибираємо в секції Process пункт Verify (або Erase, що краще; в сектори будуть записані нулі, його слід проводити, якщо на жорсткому диску немає потрібної інформації) і тиснемо Start. Програма автоматично пробіжить по всіх секторах і перевірить як швидко вийде прочитати з них дані. Якщо на це піде < 5мс, то програма вважає сектор абсолютно робочим, < 20мс - робочим, але вже потрібний час для доступу для нього. Це говорить про те, що деякі з них коли-небудь перейдуть до групи < 50мс, а ті у свою очереь в групу < 150мс - в таких ділянках вже можливі проблеми з читанням. Дуже поганим сектором вважається сектор, час доступу до якого < 500мс. До категорії Bads належать зіпсовані сектори, доступ до яких програма так і не отримала.

Рис.3. Перевірка поверхні жорсткого диска

 

Вкладка Report

Більш детальна інформація тесту наведена нижче. Тут видно скільки часу пішло на тест, які блоки програма виділила.

Drive testing

Model: ST3160811AS

Firmware: 3.AAE

Serial: 6PT0Z158

LBA: 312581808

Start LBA: 0

End LBA: 312581808

Block size: 256

 

Block start at 139008 time 94ms

Block start at 628224 time 13031ms

Block start at 890368 time 156ms

Block start at 1973760 time 109ms

Block start at 1999872 time 141ms

Block start at 2178048 time 125ms

Block start at 2492928 time 125ms

Block start at 2570240 time 94ms

Block start at 6164992 time 235ms

Block start at 6207744 time 156ms

Block start at 6209280 time 141ms

Block start at 6213120 time 109ms

Block start at 6240000 time 266ms

Block start at 6277120 time 3516ms

Block start at 7381504 time 109ms

Block start at 14387200 time 78ms

Block start at 19359488 time 94ms

Block start at 61462016 time 78ms

Block start at 76039424 time 94ms

Block start at 84415488 time 78ms

Block start at 142370560 time 78ms

Block start at 158180864 time 219ms

Block start at 160235776 time 93ms

Block start at 161535744 time 172ms

Block start at 161536000 time 125ms

Block start at 161546496 time 266ms

Block start at 161554688 time 203ms

Block start at 163543040 time 7547ms

Block start at 163543296 time 5453ms

Block start at 163553792 time 10109ms

Block start at 163561984 time 13391ms

Block start at 163571200 time 3375ms

Block start at 163942656 time 2562ms

Block start at 163949056 time 2969ms

Block start at 196288768 time 188ms

Block start at 196289024 time 62ms

 

Test time: 00:45:21

Complete

 

Вкладка IDE Features

Automatic Acoustic Management - за допомогою цього параметра можна вказати швидкість роботи диска. Наприклад , якщо жорсткий диск комп'ютера надто сильно шумить, можна змінити його "шумову" характеристику, пожертвувавши швидкістю. Цей параметр корисний, якщо жорсткий диск не системний.

Power Management – за допомогою цього параметра можна задати час, через який жорсткий диск буде відключатися і включатися при потребі. Цей параметр збільшує термін служби жорсткого диска, а також дозволяє заощадити на електроенергії.

Advanced Power Management розширене керування живленням.

Spindle Start / Stop відключення обертання диска (призначений для того, щоб побачити як жорсткий диск стартує при відключенні і як вимикається чи для того, щоб перед гарячим відключенням паркувати головки).

 

Вкладка S.M.A.R.T. Self tests

У цій вкладці можна провести тести S.M.A.R.T.

 

Вкладка Graph

 

Рис.4. Графік швидкості роботи жорсткого диска

 

За цим графіком можна судити про швидкість роботи жорсткого диска, а якщо його зіставити зі значеннями у вкладці Report, то падіння швидкості в секторі 160 млн пов'язаний з тим, що там зіпсований сектор. Ну а те, що швидкість поступово падає до кінця диска - очевидна. Справа в тому, що периметр, який потрібно пройти голівці на початку диска є меншим периметру, який потрібно пройти до кінця. Максимальна швидкість роботи диска 75000 Кбайт/сек, а середня -57434,4 Кбайт/сек.

ПОРЯДОК ВИКОНАННЯ РОБОТИ

 

1.       Ознайомитися з теоретичними відомостями.

2.       Запустити програму EVEREST (або HDDScan v2.8) для визначення SMART параметрів жорстокого диска.

3.       Скласти звіт з власними висновками про проведену роботу та відповідями на наступні питання:

·         дати обґрунтування поняттю SMART;

·         дати обґрунтування параметрам SMART.

 

СПИСОК РЕКОМЕНДОВАНОЇ ЛІТЕРАТУРИ

 

1.      http://ru.wikipedia.org/wiki.

2.      http://elearning.lutsk.ua.

3.      http://whiteportal.ru/main/softreview/1140-hddscan-ili-kak-protestirovat-i-vosstanovit.html.

4.      http://www.oszone.net/1496/S.M.A.R.T.

5.      S.M.A.R.T. http://www.cyberguru.ru/hardware/drives/hdd-faq-page5.html

6.      http://protoplex.ru/?showid=539

7.      http://www.cyberguru.ru/hardware/bios/smart-technology.html