SMART - технологія внутрішньої оцінки стану HDD

Діджитал 29 червня 2022 Перегляди: 171

Введення

Етапи розвитку технології
Start/Stop Count - повна кількість запусків/зупинок шпинделя. Гарантовано мотор диска здатний перенести лише певну кількість включень/вимикань. Це значення вибирається як Treshold. Перші моделі дисків зі швидкістю обертання 7200 обертів/мін мали ненадійний двигун, могли перенести лише невелике їх число і швидко виходили з ладу.
Power On Hours - число годин проведених у включеному стані. Як порогове значення для нього вибирається паспортний час напрацювання на відмову (MBTF). Зважаючи на зазвичай абсолютно неймовірні величини MBTF, малоймовірно, що параметр досягне коли-небудь критичного порогу. Але навіть у цьому випадку вихід з ладу диска абсолютно не обов'язковий.
Drive Power Cycle Count - кількість повних циклів включення-вимикання диска. За цим і попереднім атрибутом можна оцінити, наприклад, скільки використовувався диск до покупки.
Temperatue - просто і зрозуміло. Тут зберігаються показання вбудованого термодатчика. Температура має величезний вплив на термін служби диска (навіть якщо вона знаходиться в допустимих межах).
Current Pending Sector Count - тут зберігатися число секторів, які є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування їх відрізняється від читання стабільного сектора, так звані підозрілі або нестабільні сектора.
Uncorrectable Sector Count - число помилок при зверненні до сектору, які не були скориговані. Можливими причинами виникнення можуть бути збої механіки або псування поверхні.
UDMA CRC Error Rate - число помилок, що виникають при передачі даних по зовнішньому інтерфейсу. Можуть бути викликані неякісними кабелями, нештатними режимами роботи.
Write Error Rate - показує частоту помилок, що відбуваються при записі на диск. Може бути показником якості поверхні і механіки накопичувача.
Ох вже ці погані сектори...
Технології зберігання інформації:

Сьогодні, хотілося б трішки докладніше поговорити про побіжно згадану в попередній статті про критерії вибору вінчестера технології SMART, а також з'ясувати питання про появу поганих секторів при перевірці поверхні спеціальними програмами і вичерпання резервної поверхні для їх перепризначення - питання, порушеного на форумі з минулої статті.

Для початку як завжди короткий історичний екскурс. Надійність жорсткого диска (і будь-якого пристрою зберігання в самому загальному випадку) завжди надається величезне значення. І справа аж ніяк не в його вартості, а в цінності тієї інформації, яку він забирає з собою в світ інший, йдучи з життя сам, і у втратах прибутку, пов'язаних з простоями при виході з ладу вінчестерів, якщо мова йде про бізнес-користувачів, навіть у тому випадку, якщо інформація залишилася. І цілком природно, що про такі неприємні моменти хочеться знати заздалегідь. Навіть звичайні міркування на побутовому рівні підказують, що спостереження за станом приладу в роботі, може підказати такі моменти. Залишилося тільки якимось чином реалізувати це спостереження у вінчестері.

Вперше над цим завданням задумалися інженери блакитного гіганта (IBM чи то пак). І 1995 року вони запропонували технологію, що відстежує кілька критично важливих параметрів накопичувача, і робить спроби на підставі зібраних даних передбачити вихід його з ладу - Predictive Failure Analysis (PFA). Ідею підхопила Compaq, яка трохи пізніше створила свою технологію - IntelliSafe. У розробці Compaq також взяли участь Seagate, Quantum і Conner. Створена ними технологія також відстежувала ряд робочих характеристик диска, порівнювала їх з допустимим значенням і рапортувала хост-системі в разі наявності небезпеки. Це був величезний крок вперед якщо і не в підвищенні надійності вінчестерів, то хоча б у зменшенні ризику втрати інформації при їх використанні. Перші спроби виявилися вдалими, і показали необхідність подальшого розвитку технології. Вже в об'єднанні всіх великих виробників жорстких дисків з'явилася технологія S.M.A.R.T (Self Monitoring Analysing and Reporting Technology), що базується на технологіях IntelliSafe і PFA (до речі кажучи, PFA існує і по

Отже, SMART - це технологія внутрішньої оцінки стану диска, і механізм передбачення можливого виходу з ладу жорсткого диска. Важливо відзначити те, що технологія в принципі не вирішує виникаючих проблем (основні з них показані на малюнку трохи нижче), вона здатна лише попередити про вже виниклу проблему або про очікувану в найближчому часі.

При цьому потрібно також сказати, що технологія не в змозі передбачити абсолютно всі можливі проблеми і це логічно: вихід електроніки в результаті стрибка напруги, псування головок і поверхні в результаті удару і т. п. ніяка технологія передбачити не в силах. Передбачувані лише ті проблеми, які пов'язані з поступовим погіршенням будь-яких характеристик, рівномірною деградацією будь-яких компонент.

Етапи розвитку технології

У своєму розвитку технологія SMART пройшла три етапи. У першому поколінні було реалізовано спостереження невеликого числа параметрів. Жодних самостійних дій накопичувача не передбачалося. Запуск здійснювався тільки командами за інтерфейсом. Специфікації описуючої стандарт повністю немає, і, отже, не було і немає чіткого передначертання, про те, які саме параметри слід контролювати. Більш того, їх визначення і визначення допустимого рівня їх зниження цілком і повністю надавався виробникам вінчестерів (що природно в силу того, що виробнику видніше що саме належить контролювати даному його вінчестері, бо всі вінчестери занадто різні). І програмне забезпечення, з цієї причини, написане, як правило, сторонніми фірмами, не було універсальним, і могло помилково рапортувати про майбутній збій (плутанина виникала через те, що під одним і тим же ідентифікатором різні виробники зберігали значення різних параметрів). Мало місце велике число скарг на те, що число випадків виявлення перед збійного стану надзвичайно мало (особливості людської природи: отримувати хочеться все і відразу, скаржитися на раптові відмови дисків до впровадження SAMRT в голову якось нікому не приходило). Ситуація погіршилася ще й тим, що в більшості випадків не були виконані мінімально необхідні вимоги для функціонування SMART (про це поговоримо пізніше). Статистика говорить про те, що число передбачуваних збоїв було менше 20%. Технологія на цьому етапі була далека від досконалості, але була революційним кроком вперед.

Про другий етап розвитку SMART - SMART II відомо також не багато. В основному спостерігалися ті ж проблеми, що і з першою. Нововведеннями були можливість фонової перевірки поверхні, виконувана диском в автоматичному режимі при простоях і ведення журналів помилок, розширився список контрольованих параметрів (знову ж залежно від моделі і виробника). Статистика говорить про те, що число передбачуваних збоїв досягло 50%.

Сучасний етап представлений технологією SMART III. На ній зупинимося детальніше, спробуємо розібратися в загальних рисах як вона працює, що і навіщо в ній потрібно.

Нам вже відомо, що SMART виробляє спостереження за основними характеристиками накопичувача. Ці параметри називаються атрибутами. Необхідні до моніторингу параметри визначаються виробником. Кожен атрибут має якусь величину - Value. Зазвичай змінюється в діапазоні від 0 до 100 (хоча може бути в діапазоні до 200 або до 255), її величина - це надійність конкретного атрибута відносно деякого його еталонного значення (визначається виробником). Високе значення свідчить про відсутність змін цього параметра або, залежно від значення, його повільне погіршення. Низьке значення говорить про швидку деградацію або про можливий швидкий збій, тобто чим вище значення Value атрибута, тим краще. Деякими програмами моніторингу виводиться значення Raw або Raw Value - це значення атрибута у внутрішньому форматі (який так само різний у дисків різних моделей і різних виробників), в тому, в якому він зберігається в накопичувачі. Для простого користувача він малоінформативний, більший інтерес представляє пораховане з нього значення Value. Для кожного атрибута виробником визначається мінімальне можливе значення, при якому гарантується безвідмовна робота накопичувача - Threshold. При значенні атрибута нижче за величину Threshold дуже ймовірний збій в роботі або повна відмова. Залишилося тільки додати, що атрибути бувають критично важливими і некритично. Вихід критично важливого параметра за межі Threshold фактичний означає вихід з ладу, вихід за переділи допустимих значень некритично важливого параметра свідчить про наявність проблеми, але диск може зберігати свою працездатність (хоча, можливо, з деяким погіршенням деяких характеристик: продуктивності наприклад).

До найбільш часто спостеріганих критично важливих характеристик відносяться: Raw Read Error Rate - частота помилок під час читання даних з диска, походження яких обумовлено апаратною частиною диска.

Spin Up Time - час розкрутки пакету дисків зі стану спокою до робочої швидкості. При розрахунку нормалізованого значення (Value) практичний час порівнюється з деякою еталонною величиною, встановленою на заводі. Немаксимальне значення, що не погіршується, при Spin Up Retry Count Value = max (Raw рівному 0) не говорить ні про що погане. Відмінність часу від еталонного може бути викликана низкою причин, наприклад блок живлення підкачав.

Spin Up Retry Count - число повторних спроб розкрутки дисків до робочої швидкості, у разі якщо перша спроба була невдалою. Ненульове значення Raw (відповідно немаксимальне Value) свідчить про проблеми в механічній частині накопичувача.

Seek Error Rate - частота помилок при позиціонуванні блоку головок. Високе значення Raw свідчить про наявність проблем, якими можуть бути пошкодження сервометок, надмірне термічне розширення дисків, механічні проблеми в блоці позиціонування та ін. Постійне високе значення Value говорить про те, що все добре.

Reallocated Sector Count - кількість операцій перепризначення секторів. SMART в сучасних здатний провести аналіз сектора на стабільність роботи «» на льоту «» і в разі визнання його збійним провести його перепризначення. Нижче ми поговоримо про це детальніше.

З некритичних, так би мовити інформаційних атрибутів, зазвичай проводять спостереження за такими:

Start/Stop Count - повна кількість запусків/зупинок шпинделя. Гарантовано мотор диска здатний перенести лише певну кількість включень/вимикань. Це значення вибирається як Treshold. Перші моделі дисків зі швидкістю обертання 7200 обертів/мін мали ненадійний двигун, могли перенести лише невелике їх число і швидко виходили з ладу.

Power On Hours - число годин проведених у включеному стані. Як порогове значення для нього вибирається паспортний час напрацювання на відмову (MBTF). Зважаючи на зазвичай абсолютно неймовірні величини MBTF, малоймовірно, що параметр досягне коли-небудь критичного порогу. Але навіть у цьому випадку вихід з ладу диска абсолютно не обов'язковий.

Drive Power Cycle Count - кількість повних циклів включення-вимикання диска. За цим і попереднім атрибутом можна оцінити, наприклад, скільки використовувався диск до покупки.

Temperatue - просто і зрозуміло. Тут зберігаються показання вбудованого термодатчика. Температура має величезний вплив на термін служби диска (навіть якщо вона знаходиться в допустимих межах).

Current Pending Sector Count - тут зберігатися число секторів, які є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування їх відрізняється від читання стабільного сектора, так звані підозрілі або нестабільні сектора.

Uncorrectable Sector Count - число помилок при зверненні до сектору, які не були скориговані. Можливими причинами виникнення можуть бути збої механіки або псування поверхні.

UDMA CRC Error Rate - число помилок, що виникають при передачі даних по зовнішньому інтерфейсу. Можуть бути викликані неякісними кабелями, нештатними режимами роботи.

Write Error Rate - показує частоту помилок, що відбуваються при записі на диск. Може бути показником якості поверхні і механіки накопичувача.

Всі помилки і зміни параметрів фіксуються в журналах SMART. Ця можливість з'явилася вже в SMART II. Всі параметри журналів - призначення, розмір, їх число визначаються виробником вінчестера. Нас з вами зараз цікавить тільки факт їх наявності. Без подробиць. Інформація, що зберігається в журналах, використовується для аналізу стану і складання прогнозів.

Якщо не вдаватися в подробиці, то робота SMART проста - при роботі накопичувача просто відстежуються всі виникаючі помилки і підозрілі явища, які знаходять відображення у відповідних атрибутах. Крім того починаючи так само зі SMART II у багатьох накопичувачів з'явилися функції самодіагностики. Запуск тестів SMART можливий у двох режимах, off-line - тест виконується фактично у фоновому режимі, оскільки накопичувач у будь-який час готовий прийняти і виконати команду, і монопольному при якому при вступі команди, виконання тесту завершується.

Документовано існує три типи тестів самодіагностики: фоновий збір даних (Off-line collection), скорочений тест (Short Self-test), розширений тест (Extended Self-test). Два останніх здатні виконуватися як у фоновому, так і в монопольному режимах. Набір тестів до них вхідних не стандартизований.

Тривалість їх виконання може бути від секунд до хвилин і годин. Якщо ви раптом не звертаєтеся до диска, а він при цьому видасть звуки як і при робочому навантаженні - він просто схоже займається самоаналізом. Всі дані зібрані в результаті таких тестів будуть також збережені в журналах і атрибутах.

Ох вже ці погані сектори...

Тепер повернемося до питання бед-секторів, з яких все почалося. У SMART III з'явилася функція, що дозволяє прозоро для користувача перепризначати BAD сектора. Працює механізм досить просто, при нестійкому читанні сектора, або ж помилки його читання, SMART заносить його в список нестабільних і збільшить їх лічильник (Current Pending Sector Count). Якщо після повторного обігу сектор буде прочитано без проблем, його буде викинуто з цього списку. Якщо ж ні, то при наданій можливості - при відсутності звернень до диска, диск почне самостійну перевірку поверхні, в першу чергу підозрілих секторів. Якщо сектор буде визнаний збійним, то він буде перепризначений на сектор з резервної поверхні (відповідно RSC збільшитися). Таке фонове перепризначення призводить до того, що на сучасних вінчестерах збійні сектори практично ніколи не видно при перевірці поверхні сервісними програмами. У той же час, при великому числі поганих секторів їх перепризначення не може відбуватися до нескінченності. Перший обмежувач очевидний - це обсяг резервної поверхні. Саме цей випадок я мав на увазі. Другий не настільки очевидний - справа в тому, що у сучасних вінчестерів є два дефект-листа P-list (Primary, заводський) і G-list (Growth, формується безпосередньо під час експлуатації). І при великому числі перепризначень може виявитися так, що в G-list не виявляється місця для запису про нове перепризначення. Ця ситуація може бути виявлена за високим показником перепризначених секторів в SMART. У цьому випадку ще не все втрачено, але це виходить за рамки даної статті.

Отже, використовуючи дані SMART навіть не нося диск в майстерню можна досить точно сказати, що з ним відбувається. Існують різні технології-надбудови над SMART, які дозволяють визначити стан диска ще більш точно і практично достовірно причину його несправності. Про ці технології ми поговоримо в окремій статті.

Потрібно знати, що придбання накопичувача зі SMART не достатньо, для того, щоб бути в курсі всіх проблем, що відбуваються з диском. Диск, звичайно, може стежити за своїм станом і без сторонньої допомоги, але він не зможе сам попередити в разі небезпеки, що наближається. Потрібно щось, що дозволить на підставі даних SMART видати попередження. (звичайний ланцюжок наведено на малюнку трохи нижче).

Як варіант можливий BIOS, який при завантаженні при включеному відповідному параметрі перевіряє стан SMART накопичувачів. А якщо ж вам хочеться вести постійний контроль за станом диска, необхідно використовувати якусь програму моніторингу. Тоді ви зможете бачити інформацію в докладному і зручному вигляді.

SmartMonitor з HDD Speed працює під DOS

SIGuiardian, яка працює з Windows

Про ці програми ми також поговоримо в окремій статті. Саме це я мав на увазі, коли говорив про те, що по початку не виконувалися необхідні вимоги при експлуатації жорстких дисків з SMART.