Керівництво по метриках управління інцидентами

У сучасному мінливому цифровому світі для підприємств стало вирішальним фактором вимірювати й відстежувати ефективність надання послуг. Особливо показники управління інцидентами, які відстежують час безвідмовної роботи систем, час простою через збої та те, наскільки швидко та ефективно вирішуються проблеми. Адже всі ми знаємо, що навіть невеликий збій в системі може викликати порушення бізнес-процесів на мільйони доларів.

MTTR, MTBF, MTTF і MTTA – це абревіатури деяких з найбільш важливих показників управління інцидентами. В області управління ІТ-послугами ці скорочення допомагають організаціям планувати свої ресурси, щоб гарантувати, що вони можуть розв’язувати проблеми, викликані збоями обладнання та програмного забезпечення. А розшифровка цих абревіатур наступна:

  • MTTR – Середній час ремонту
  • MTBF – Середній час між поломками
  • MTTF – Mean Time to Failure
  • MTTA – Середній час відгуку

Давайте детально розглянемо кожен показник.

ЩО ТАКЕ СЕРЕДНІЙ ЧАС РЕМОНТУ (MTTR)?

Середній час ремонту (MTTR) – це середній час, необхідний для відновлення системи й відновлення її повної функціональності. Розрахунок MTTR починається після початку ремонту і триває до тих пір, поки порушені служби не будуть повністю відновлені, включаючи необхідний час тестування.

У сфері управління ІТ-послугами R в MTTR не завжди символізує ремонт. Це також може означати відновлення, відгук або рішення. Попри те, що всі ці показники відповідають один одному, вони мають свої наслідки, тому завжди корисно уточнити, який MTTR слід використовувати. Давайте коротко поглянемо, що означає кожне з них.

  1. Середній час відновлення (MTTR) – це середній час, необхідний для відновлення після поломки пристрою або системи. Це охоплює весь процес від зупинки через збій до того моменту, коли система знову стане повністю працездатною. MTTR – хороший індикатор для вимірювання швидкості загального процесу відновлення.
  2. Середній час відгуку (MTTR) – це середній час, необхідний для відновлення після збою системи з моменту надходження першого попередження про збій, не включаючи затримку в системі попереджень. Цей MTTR зазвичай використовується у сфері кібербезпеки для вимірювання ефективності команди при запобіганні системних атак.
  3. Середній час вирішення (MTTR) являє собою середній час, що витрачається на повне усунення несправності системи, включаючи час, необхідний для виявлення несправності, діагностики проблеми й розв’язання проблеми, переконавшись, що несправність більше не повториться. Цей показник MTTR в основному використовується для вимірювання процесу усунення непередбачених інцидентів, а не запитів на обслуговування.

Як розраховувати MTTR?

Оскільки MTTR – це показник управління інцидентами, який ІТ-команди використовують для своєчасного ремонту, підприємствам слід прагнути до того, щоб значення MTTR було якомога нижче. Це можна досягти шляхом підвищення продуктивності команд, що виконують ремонтні роботи. MTTR можна розрахувати наступним чином:

MTTR = загальний час, витрачений на ремонт протягом даного періоду / кількість ремонтів

Припустимо, що в системі було 6 збоїв, а обслуговування, необхідне для відновлення повної функціональності системи, зайняло 3 години, що становить 180 хвилин. Отже, MTTR буде,

MTTR = 180/6 = 30 хвилин

Це означає, що MTTR організації становить 30 хвилин, тобто час, який в середньому організація витрачає на кожен простий.

ЩО ТАКЕ СЕРЕДНІЙ ЧАС МІЖ ПОЛОМКАМИ (MTBF)?

Середній час між поломками (MTBF) – це середній час, що минув між ремонтом поломки і її наступним виникненням. Середній час безвідмовної роботи вимірює доступність і надійність, тому чим вище значення MTBF, тим надійніше система.

Середній час безвідмовної роботи – це показник, який допомагає клієнтам приймати обґрунтовані рішення про те, коли оновлювати систему або вводити обладнання в експлуатацію. Якщо після фази профілактичного обслуговування середній час безвідмовної роботи покращився, це говорить про підвищення надійності устаткування. Збільшення MTBF також демонструє ефективність процесів обслуговування.

Як розраховувати MTBF?

MTBF – це час, що минув від моменту однієї відмови до наступної. Математично це можна розрахувати наступним чином:

Середній час безвідмовної роботи = загальний час безвідмовної роботи між відмовами / загальна кількість відмов

Припустимо, система відмінно працює 13 годин. Протягом цього періоду відбулося 3 відмови, в результаті чого загальний час простою становив 1 годину. Отже, MTBF буде,

Середній час безвідмовної роботи = (13-1) / 3 = 4 години

Ця цифра означає, що збій в системі відбувається кожні 4 години, що призводить до її відключення і збитків для організації. Відстеження цього показника може допомогти спланувати стратегії, які можуть скоротити час простою.

Оскільки MTBF використовується для відстеження надійності, воно відображає тільки непередбачені простої й не враховує будь-які можливі простої під час планового обслуговування.

Як ми згадували раніше, MTBF використовується для відстеження відмов в ремонтованих системах. Для відстеження відмов, що вимагають заміни системи, використовується показник «Mean Time to Failure» (MTTF).

ЩО ТАКЕ MEAN TIME TO FAILURE (MTTF)?

Mean Time to Failure (MTTF) – це середній час, що минув між невиправними відмовами обладнання. MTTF вимірює надійність систем, які не підлягають ремонту і показує час, протягом якого система, як очікується, буде функціонувати до повної відмови.

MTTF – важливий показник, який використовується для вимірювання терміну служби замінного або обладнання, яке не підлягає ремонту, такого як клавіатури, батареї, настільні телефони, миші і т. Д Історичні дані про MTTF кожного типу обладнання дозволяють ІТ-фахівцям поетапно планувати оновлення цих інструментів.

Оскільки метрика використовується для визначення того, як довго зазвичай прослужить система, визначення того, чи перевершує нова версія системи стару, також допоможе зрозуміти очікуваний термін служби та час планування оновлень системи.

Як розраховувати MTTF?

Середній час безвідмовної роботи є основним показником надійності обладнання, яке підлягає ремонту, тому мета полягає в тому, щоб збільшити термін служби активу. Коротший час безвідмовної роботи призводить до частих простоїв і збоїв. Для розрахунку MTTF використовуйте наступну формулу:

MTTF = загальна кількість годин роботи / загальна кількість відмов

Припускаючи, що ми повинні досліджувати три ідентичні системи, поки всі вони не вийдуть з ладу. Перша система пропрацювала 14 годин, друга – 16 годин, а третя – 12 годин. MTTF в цьому випадку буде,

MTTF = (14 + 16 + 12) / 3 = 14 годин

Це означає, що в середньому цей тип системи необхідно замінювати кожні 14 годин, щоб запобігти тривалішим простоям та можливим збиткам.

ЩО ТАКЕ СЕРЕДНІЙ ЧАС ВІДГУКУ (MTTA)?

Середній час відгуку (MTTA) – це середній час, який потрібен організації для відповіді на скарги, відключення або інциденти у всіх відділах. Метрика управління інцидентами MTTA використовується для відстеження реакції групи підтримки та ефективності системи оповіщення.

Повільне реагування може знизити ефективність співробітників, коли внутрішні системи стикаються з проблемами та призводять до фінансових втрат. Відстежуючи та мінімізуючи MTTA, організації можуть оптимізувати свої процеси, підвищити задоволеність клієнтів і збільшити прибуток.

Як розраховувати MTTA?

MTTA – корисна міра для контролю швидкості відгуку. Якщо команда занадто довго відповідає цей показник допоможе виявити проблему. Для розрахунку MTTA використовуйте наступну математичну формулу:

MTTA = загальний час, що минув між попередженням і підтвердженням / загальна кількість інцидентів

Припустимо, в організації відбулося 5 інцидентів, і пройшло в цілому 30 хвилин між попередженням і підтвердженням для всіх інцидентів, після чого MTTA буде

MTTA = 30/5 = 6 хвилин

Це означає, що MTTA для організації становить 6 хвилин, і організація повинна працювати над скороченням цього часу, щоб оптимізувати процес розв’язання проблем.

ВИСНОВКИ

Підсумовуючи, можна сказати, що середній час ремонту (MTTR) – це міра, за допомогою якої можна побачити, як швидко можна повернути несправне обладнання в робочий стан. Середній час між поломками (MTBF) дає вам уявлення про те, наскільки ефективною є команда підтримки в мінімізації або запобіганні інцидентів. Використовуючи MTTF, ви можете визначити термін служби системи або обладнання. Нарешті, середній час для відгуку (MTTA) – цінний показник, за допомогою якого ви можете відстежувати реакцію вашої групи ІТ-підтримки.

Тепер, коли ви розумієте ці метрики інцидентів в деталях, ви зрозумієте, що кожна метрика пропонує різні точки зору. При одночасному використанні ці потужні показники можуть дати глибше уявлення про те, як ваша команда спеціалістів справляється з перебоями в обслуговуванні, і допомогти вам знизити втрати через неефективність і проблем з якістю.

А для того, щоб всі ці метрики завжди були у вас під рукою, пропонуємо вам потестити демку Motadata.