Руководство по метрикам управления инцидентами

В современном быстро меняющемся цифровом мире для предприятий стало критически важным измерять и отслеживать эффективность предоставления услуг. Особенно показатели управления инцидентами, которые отслеживают время безотказной работы систем, время простоя из-за сбоев и то, насколько быстро и эффективно решаются проблемы. Ведь все мы знаем, что даже небольшой сбой в системе может вызвать нарушение бизнес-процессов на миллионы долларов.

MTTR, MTBF, MTTF и MTTA — это аббревиатуры некоторых из наиболее важных показателей управления инцидентами. В области управления ИТ-услугами эти сокращения помогают организациям планировать свои ресурсы, чтобы гарантировать, что они могут решить проблемы, вызванные сбоями оборудования и программного обеспечения. А расшифровка этих аббревиатур следующая:

  • MTTR — Среднее время ремонта
  • MTBF — Среднее время между поломками
  • MTTF — Средняя наработка до поломки
  • MTTA — Среднее время отклика

Давайте подробно рассмотрим каждый показатель.

ЧТО ТАКОЕ СРЕДНЕЕ ВРЕМЯ РЕМОНТА (MTTR)?

Среднее время ремонта (MTTR) — это среднее время, необходимое для восстановления системы и восстановления её полной функциональности. Расчёт MTTR начинается после начала ремонта и продолжается до тех пор, пока нарушенные службы не будут полностью восстановлены, включая необходимое время тестирования.

В сфере управления ИТ-услугами R в MTTR не всегда символизирует ремонт. Это также может означать восстановление, отклик или решение. Несмотря на то, что все эти показатели соответствуют друг другу, они имеют свои последствия, поэтому всегда полезно уточнить, какой MTTR следует использовать. Давайте вкратце посмотрим, что означает каждое из них.

  1. Среднее время восстановления (MTTR) — это среднее время, необходимое для восстановления после поломки устройства или системы. Это охватывает весь процесс от остановки из-за сбоя до того момента, когда система снова станет полностью работоспособной. MTTR — хороший индикатор для измерения скорости общего процесса восстановления.
  2. Среднее время отклика (MTTR) — это среднее время, необходимое для восстановления после сбоя системы с момента поступления первого предупреждения о сбое, не включая задержку в системе предупреждений. Этот MTTR обычно используется в сфере кибербезопасности для измерения эффективности команды в отражении системных атак.
  3. Среднее время решения (MTTR) представляет собой среднее время, затрачиваемое на полное устранение неисправности системы, включая время, необходимое для обнаружения неисправности, диагностики проблемы и решения проблемы, убедившись, что неисправность больше не повторится. Этот показатель MTTR в основном используется для измерения процесса разрешения непредвиденных инцидентов, а не запросов на обслуживание.

Как рассчитывать MTTR?

Поскольку MTTR — это показатель управления инцидентами, который ИТ-команды используют для своевременного ремонта, предприятиям следует стремиться к тому, чтобы значение MTTR было как можно ниже. Это достижимо за счёт повышения производительности бригад, выполняющих ремонтные работы. MTTR можно рассчитать следующим образом:

MTTR = общее время, затраченное на ремонт в течение данного периода / количество ремонтов

Предположим, что в системе было 6 сбоев, а обслуживание, необходимое для восстановления полной функциональности системы, заняло 3 часа, что составляет 180 минут. Итак, MTTR будет,

MTTR = 180/6 = 30 минут

Это означает, что MTTR организации составляет 30 минут, то есть время, которое в среднем организация тратит на каждый простой.

ЧТО ТАКОЕ СРЕДНЕЕ ВРЕМЯ МЕЖДУ ПОЛОМКАМИ (MTBF)?

Среднее время между поломками (MTBF) — это среднее время, прошедшее между ремонтом поломки и её следующим возникновением. Среднее время безотказной работы измеряет доступность и надёжность, поэтому чем выше значение MTBF, тем надёжнее система.

Среднее время безотказной работы — это показатель, который помогает клиентам принимать обоснованные решения о том, когда обновлять систему или вводить оборудование в эксплуатацию. Если после фазы профилактического обслуживания среднее время безотказной работы улучшилось, это говорит о повышении надёжности оборудования. Увеличение MTBF также демонстрирует эффективность процессов обслуживания.

Как рассчитывать MTBF?

MTBF — это время, прошедшее от одного отказа до следующего. Математически это можно рассчитать следующим образом:

Среднее время безотказной работы = общее время безотказной работы между отказами / общее количество отказов

Предположим, система отлично работает 13 часов. В течение этого периода произошло 3 отказа, в результате чего общее время простоя составило 1 час. Итак, MTBF будет,

Среднее время безотказной работы = (13-1) / 3 = 4 часа

Эта цифра означает, что сбой в системе происходит каждые 4 часа, что приводит к её отключению и убыткам для организации. Отслеживание этого показателя может помочь спланировать стратегии, которые могут сократить время простоя.

Поскольку MTBF используется для отслеживания надёжности, оно отражает только непредвиденные простои и не учитывает любые вероятные простои во время планового обслуживания.

Как мы упоминали ранее, MTBF используется для отслеживания отказов в ремонтируемых системах. Для отслеживания отказов, требующих замены системы, используется показатель, называемый «Средняя наработка до поломки» (MTTF).

ЧТО ТАКОЕ СРЕДНЯЯ НАРАБОТКА ДО ПОЛОМКИ (MTTF)?

Средняя наработка до поломки (MTTF) — это среднее время, прошедшее между неисправимыми отказами оборудования. MTTF измеряет надёжность неремонтопригодных систем и показывает время, в течение которого система, как ожидается, будет функционировать до полного отказа.

MTTF — важный показатель, используемый для измерения срока службы заменяемого или неремонтопригодного оборудования, такого как клавиатуры, батареи, настольные телефоны, мыши и т. Д. Исторические данные о MTTF каждого типа оборудования позволяют ИТ-специалистам поэтапно планировать обновление этих инструментов.

Поскольку метрика используется для определения того, как долго обычно прослужит система, определение того, превосходит ли новая версия системы старую, также поможет понять ожидаемый срок службы и время планирования проверок системы.

Как рассчитывать MTTF?

Среднее время безотказной работы является основным показателем надёжности оборудования, не подлежащего ремонту, поэтому цель состоит в том, чтобы увеличить срок службы актива. Более короткое время безотказной работы приводит к частым простоям и сбоям. Для расчёта MTTF используйте следующую формулу:

MTTF = общее количество часов работы / общее количество отказов

Предполагая, что мы должны исследовать три идентичные системы, пока все они не выйдут из строя. Первая система проработала 14 часов, вторая — 16 часов, а третья — 12 часов. MTTF в этом случае будет,

MTTF = (14 + 16 + 12) / 3 = 14 часов

Это означает, что в среднем этот тип системы необходимо заменять каждые 14 часов, чтобы предотвратить более длительные простои и последующие повреждения.

ЧТО ТАКОЕ СРЕДНЕЕ ВРЕМЯ ОТКЛИКА (MTTA)?

Среднее время отклика (MTTA) — это среднее время, которое требуется организации для ответа на жалобы, отключения или инциденты во всех отделах. Метрика управления инцидентами MTTA используется для отслеживания реакции группы поддержки и эффективности системы оповещения.

Медленное реагирование может снизить эффективность сотрудников, когда внутренние системы сталкиваются с проблемами и стоит организациям денег. Отслеживая и минимизируя MTTA, организации могут оптимизировать свои процессы, повысить удовлетворённость клиентов и увеличить прибыль.

Как рассчитывать MTTA?

MTTA — полезная мера для контроля скорости отклика. Если команда слишком долго отвечает и страдает от усталости от предупреждений, этот показатель поможет выявить проблему. Для расчёта MTTA используйте следующее математическое представление:

MTTA = общее время, прошедшее между предупреждением и подтверждением / общее количество инцидентов

Допустим, в организации произошло 5 инцидентов, и прошло в общей сложности 30 минут между предупреждением и подтверждением для всех инцидентов, после чего MTTA будет

MTTA = 30/5 = 6 минут

Это означает, что MTTA для организации составляет 6 минут, и организация должна работать над сокращением этого времени, чтобы оптимизировать процесс разрешения проблем.

ВЫВОД

Подводя итог, можно сказать, что среднее время ремонта (MTTR) — это мера, с помощью которой вы можете увидеть, как быстро вы сможете вернуть неисправное оборудование в рабочее состояние. Среднее время между поломками (MTBF) даёт вам представление о том, насколько эффективна ваша группа поддержки в минимизации или предотвращении надвигающихся инцидентов. Используя метрическую среднюю наработку до поломки (MTTF), вы можете определить срок службы системы или оборудования. Наконец, среднее время для отклика (MTTA) — ценный показатель, с помощью которого вы можете отслеживать реакцию вашей группы ИТ-поддержки.

Теперь, когда вы понимаете эти метрики инцидентов в деталях, вы поймёте, что каждая метрика предлагает разные точки зрения. При одновременном использовании эти мощные показатели могут дать более глубокое представление о том, как ваша группа поддержки справляется с перебоями в обслуживании, и помочь вам снизить потери из-за неэффективности и проблем с качеством.

А для того, чтобы все эти метрики всегда были у вас под рукой, предлагаем вам потестить демку Motadata.