+7 (495) 134-33-56

Почему человеческий фактор приводит к сбоям в работе ЦОД и как этого избежать

Чем опасен человеческий фактор для дата-центра и как его минимизировать

Чем опасен человеческий фактор для дата-центра и как его минимизировать

В digital-эпоху компании ведут бизнес в режиме 24/7. Владельцы бизнеса ожидают, что IT-системы будут всегда активны, а данные доступны в любой момент времени. Незапланированные простои, даже если они длятся несколько минут, опасны и дороги.
По данным отчета ITIC 2017–2018 Global Server Hardware, Server OS Reliability Survey, 59 % из 800 опрошенных респондентов назвали главной причиной аварийных ситуаций в дата-центре человеческий фактор (human error). Чуть реже проблемы в дата-центрах возникают из-за недостатков ПО и серверного оборудования, а также из-за сложности настройки новых приложений. По данным компании Emerson, четверть незапланированных простоев ЦОД приходится на сбои систем бесперебойного электропитания.
Ученые выделяют четыре фактора, из-за которых специалисты на рабочих местах делают ошибки: антропометрические, сенсорные, физиологические и психологические. В дата-центре вероятнее всего причины психологического характера, когда речь идет о непреднамеренных ошибках и нарушениях, вызванных халатностью или, как говорят инженеры, кривыми руками.
Документы, залитые кофе

Где проявляются последствия человеческого фактора в ЦОД

Несмотря на стремительный рост автоматизации центров обработки данных, частота простоев по вине человека не снижается, а ошибки становятся более заметными и критичными для бизнеса

Проектирование

Самые серьезные и трудно исправимые ошибки возникают во время проектирования. Какие действия/поступки приводят к негативным последствиям:
  • Проектировщики готовят будущих инженеров по эксплуатации ЦОД формально, часто только на бумаге. В результате вторые сталкиваются с проблемами уже в первые дни работы дата-центра.
  • К работе не привлекают экспертов, которые занимаются подбором ИТ-специалистов, их обучением, тестированием, документированием ключевых процессов, разработкой протоколов и процедур.
  • Владельцы бизнеса отказываются от внедрения современных систем контроля и управления дата-центром.
Эти ошибки сложно поставить в один ряд с неверной строчкой в коде или случайным отключением питания сервера, но их тоже относят к человеческому фактору, потому что за них отвечают конкретные люди.

Конфигурирование

Когда ИТ-отделы загружены работой, human error из-за неверного конфигурирования неизбежна. В ЦОД эту «болезнь» можно сравнить с человеческой простудой: так же часто возникает, имеет характерные симптомы и может привести к серьезным последствиям для «организма» – ИТ-инфраструктуры.
Сообщение об ошибке в Outlook
Какие типичные ошибки допускают ИТ-специалисты в конфигурировании:
  • Игнорируют рекомендации поставщиков по установке оборудования и приложений.
  • Неправильно настраивают отдельные серверы высокой доступности и серверные кластеры.
  • Добавляют неверную информацию в файлы конфигурации или некорректно их обрабатывают.
  • Оставляют открытыми важные порты.

Недостаточная компетенция

Помимо проблем с конфигурированием ИТ-инженеры допускают другие критические для ЦОД ошибки:
  • Не могут обновить или подобрать серверы с нужными характеристиками для обслуживания интенсивных рабочих нагрузок: виртуализация, анализ данных в режиме реального времени, системы машинного обучения и искусственного интеллекта.
  • Не соблюдают регулярность обновления ПО, из-за чего в ИТ-инфраструктуре появляются приложения, угрожающие ее безопасности или не поддерживающиеся разработчиком.
  • Принимают неверные решения, которые влияют на работу дата-центра. В основном они связаны с пятью когнитивными искажениями: смещение при наблюдении, смещение негатива, пренебрежение вероятностью, ошибка игрока, эффект привязки.

Как снизить вероятность простоев ЦОД по вине сотрудников

Четко ставить задачи и назначать ответственных

У всех ИТ-специалистов должна быть зона ответственности. Одни занимаются установкой и эксплуатацией серверов и СХД, вторые обслуживают сеть, третьи отвечают за безопасность, четвертые занимаются техподдержкой. Чтобы отделы и их сотрудники понимали поставленные задачи, им выдают письменные инструкции, распоряжения, правила внутреннего распорядка, утвержденные главой ИТ-департамента. Это снижает шансы, что сбой произойдет по вине некомпетентного сотрудника, который выполнял сложную процедуру.

Соблюдать правила эксплуатации

Критически важные компоненты обязательно маркируют, а переключатели защищают от случайного нажатия. Сотрудники не должны даже косвенно влиять на работоспособность оборудования. Для этого они носят антистатическую обувь, не распаковывают оборудование в серверной и не проносят туда вещества, которые могут негативно сказаться на работе оборудования.

Использовать инструменты мониторинга

Штатные ИТ-специалисты знакомы с инфраструктурой дата-центра и знают, как должно работать конкретное оборудование и ПО. Если возникли проблемы, нельзя делать выводы и разрабатывать стратегию только на основе личных предположений, необходимо пользоваться результатами профессиональных инструментов мониторинга и аналитики ЦОД.
Интерфейс InfraSuite Manager от Delta Electronics

Автоматизировать все что можно

Чтобы сократить простои в дата-центре, задействуют современные технологии автоматизации, которые в разы снижают вероятность проблем из-за человеческого фактора. Интеллектуальные системы умеют эффективно прогнозировать надвигающиеся отказы, используя результаты измерения производительности и другие данные.

Разработать протоколы

Четко описанная последовательность действий помогает ИТ-специалистам принимать больше правильных решений по обслуживанию и управлению дата-центром. В компании должны быть протоколы для типичных проблем в ЦОД. Невозможно предсказать и описать все потенциальные проблемы, но можно разработать механизм переключения на резервное оборудование, пока устраняют сбой на основном.
Руководители должны пересматривать и актуализировать протоколы по мере модернизации оборудования, обновления ПО, открытия новых бизнес-направлений. Иногда администраторы систем в экстренной ситуации действуют нерационально: игнорируют инструкции, выполняют их по памяти или случайно отключают активное оборудование.

Обучать персонал

ИТ-инженеры, которых регулярно обучают, делают меньше случайных ошибок. Если специалист постоянно актуализирует знания, у него меньше поводов неправильно понять системное сообщение, забыть о важной операции или случайно запустить не то оборудование.
Руководству компании важно не просто обучить сотрудников новым компетенциям, но и приучить их разбирать совершенные ошибки. Если ситуация повторится, человек будет еще больше напуган и захочет скрыть свои промахи, даже если они приведут к негативным последствиям. Чтобы этого не допустить, нужно открыто и честно обсуждать проблемы.