Почему человеческий фактор приводит к сбоям в работе ЦОД и как этого избежать
Чем опасен человеческий фактор для дата-центра и как его минимизировать
Чем опасен человеческий фактор для дата-центра и как его минимизировать
В digital-эпоху компании ведут бизнес в режиме 24/7. Владельцы бизнеса ожидают, что IT-системы будут всегда активны, а данные доступны в любой момент времени. Незапланированные простои, даже если они длятся несколько минут, опасны и дороги.
По данным отчета ITIC 2017–2018 Global Server Hardware, Server OS Reliability Survey, 59 % из 800 опрошенных респондентов назвали главной причиной аварийных ситуаций в дата-центре человеческий фактор (human error). Чуть реже проблемы в дата-центрах возникают из-за недостатков ПО и серверного оборудования, а также из-за сложности настройки новых приложений. По данным компании Emerson, четверть незапланированных простоев ЦОД приходится на сбои систем бесперебойного электропитания.
Ученые выделяют четыре фактора, из-за которых специалисты на рабочих местах делают ошибки: антропометрические, сенсорные, физиологические и психологические. В дата-центре вероятнее всего причины психологического характера, когда речь идет о непреднамеренных ошибках и нарушениях, вызванных халатностью или, как говорят инженеры, кривыми руками.
Где проявляются последствия человеческого фактора в ЦОД
Несмотря на стремительный рост автоматизации центров обработки данных, частота простоев по вине человека не снижается, а ошибки становятся более заметными и критичными для бизнеса
Проектирование
Самые серьезные и трудно исправимые ошибки возникают во время проектирования. Какие действия/поступки приводят к негативным последствиям:
- Проектировщики готовят будущих инженеров по эксплуатации ЦОД формально, часто только на бумаге. В результате вторые сталкиваются с проблемами уже в первые дни работы дата-центра.
- К работе не привлекают экспертов, которые занимаются подбором ИТ-специалистов, их обучением, тестированием, документированием ключевых процессов, разработкой протоколов и процедур.
- Владельцы бизнеса отказываются от внедрения современных систем контроля и управления дата-центром.
Эти ошибки сложно поставить в один ряд с неверной строчкой в коде или случайным отключением питания сервера, но их тоже относят к человеческому фактору, потому что за них отвечают конкретные люди.
Конфигурирование
Когда ИТ-отделы загружены работой, human error из-за неверного конфигурирования неизбежна. В ЦОД эту «болезнь» можно сравнить с человеческой простудой: так же часто возникает, имеет характерные симптомы и может привести к серьезным последствиям для «организма» – ИТ-инфраструктуры.
Какие типичные ошибки допускают ИТ-специалисты в конфигурировании:
- Игнорируют рекомендации поставщиков по установке оборудования и приложений.
- Неправильно настраивают отдельные серверы высокой доступности и серверные кластеры.
- Добавляют неверную информацию в файлы конфигурации или некорректно их обрабатывают.
- Оставляют открытыми важные порты.
Недостаточная компетенция
Помимо проблем с конфигурированием ИТ-инженеры допускают другие критические для ЦОД ошибки:
- Не могут обновить или подобрать серверы с нужными характеристиками для обслуживания интенсивных рабочих нагрузок: виртуализация, анализ данных в режиме реального времени, системы машинного обучения и искусственного интеллекта.
- Не соблюдают регулярность обновления ПО, из-за чего в ИТ-инфраструктуре появляются приложения, угрожающие ее безопасности или не поддерживающиеся разработчиком.
- Принимают неверные решения, которые влияют на работу дата-центра. В основном они связаны с пятью когнитивными искажениями: смещение при наблюдении, смещение негатива, пренебрежение вероятностью, ошибка игрока, эффект привязки.
Как снизить вероятность простоев ЦОД по вине сотрудников
Четко ставить задачи и назначать ответственных
У всех ИТ-специалистов должна быть зона ответственности. Одни занимаются установкой и эксплуатацией серверов и СХД, вторые обслуживают сеть, третьи отвечают за безопасность, четвертые занимаются техподдержкой. Чтобы отделы и их сотрудники понимали поставленные задачи, им выдают письменные инструкции, распоряжения, правила внутреннего распорядка, утвержденные главой ИТ-департамента. Это снижает шансы, что сбой произойдет по вине некомпетентного сотрудника, который выполнял сложную процедуру.
Соблюдать правила эксплуатации
Критически важные компоненты обязательно маркируют, а переключатели защищают от случайного нажатия. Сотрудники не должны даже косвенно влиять на работоспособность оборудования. Для этого они носят антистатическую обувь, не распаковывают оборудование в серверной и не проносят туда вещества, которые могут негативно сказаться на работе оборудования.
Использовать инструменты мониторинга
Штатные ИТ-специалисты знакомы с инфраструктурой дата-центра и знают, как должно работать конкретное оборудование и ПО. Если возникли проблемы, нельзя делать выводы и разрабатывать стратегию только на основе личных предположений, необходимо пользоваться результатами профессиональных инструментов мониторинга и аналитики ЦОД.
Автоматизировать все что можно
Чтобы сократить простои в дата-центре, задействуют современные технологии автоматизации, которые в разы снижают вероятность проблем из-за человеческого фактора. Интеллектуальные системы умеют эффективно прогнозировать надвигающиеся отказы, используя результаты измерения производительности и другие данные.
Разработать протоколы
Четко описанная последовательность действий помогает ИТ-специалистам принимать больше правильных решений по обслуживанию и управлению дата-центром. В компании должны быть протоколы для типичных проблем в ЦОД. Невозможно предсказать и описать все потенциальные проблемы, но можно разработать механизм переключения на резервное оборудование, пока устраняют сбой на основном.
Руководители должны пересматривать и актуализировать протоколы по мере модернизации оборудования, обновления ПО, открытия новых бизнес-направлений. Иногда администраторы систем в экстренной ситуации действуют нерационально: игнорируют инструкции, выполняют их по памяти или случайно отключают активное оборудование.
Обучать персонал
ИТ-инженеры, которых регулярно обучают, делают меньше случайных ошибок. Если специалист постоянно актуализирует знания, у него меньше поводов неправильно понять системное сообщение, забыть о важной операции или случайно запустить не то оборудование.
Руководству компании важно не просто обучить сотрудников новым компетенциям, но и приучить их разбирать совершенные ошибки. Если ситуация повторится, человек будет еще больше напуган и захочет скрыть свои промахи, даже если они приведут к негативным последствиям. Чтобы этого не допустить, нужно открыто и честно обсуждать проблемы.