Аварии в дата-центрах: самые громкие случаи, причины и меры повышения безопасности
Аварии в ЦОД: причины, последствия, самые громкие случаи
Серверы недоступны, клиенты возмущены, владелец ЦОД несет огромные убытки, в том числе репутационные — это типичные последствия аварии в дата-центре. Разбираемся, почему так происходит, как предупредить подобные инциденты и чему нас учит опыт тех, кто столкнулся с ними в течение последних нескольких месяцев.
Самые громкие аварии конца 2021 года
Это лишь небольшая часть списка аварийных ситуаций, которые затронули крупнейшие ЦОД и большое количество их клиентов в разных странах.
Сбои в работе серверов AWS: десятки пострадавших компаний в США
В конце декабря 2021 года пользователи Amazon Web Services столкнулись со сбоями в работе облачной платформы. В первый раз из-за отключения питания в одном из ЦОД пострадали Hulu, Quora, Slack, Asana и еще более десятка крупных IT-компаний. Они столкнулись с перебоями, в то время как один из самых популярных в Нью-Йорке сервисов проката велосипедов Citi Bike полностью остановил свою работу. Следующий сбой затронул компании Disney и Tinder, а также нарушил работу складской логистики самого Amazon.

Из-за сбоя в ЦОД некоторые жители США не смогли добраться на работу привычным способом — на арендованном велосипеде
Программный сбой в SCC: остановились сервисы Оксфордского городского совета
Организация столкнулась с тем, что в декабре 2021 года в офлайне оказались все ее IT-системы, размещенные на вычислительных мощностях британского хостинга SCC. На ликвидацию аварии ушло двое суток. Известно, что причиной стало неудачное обновление прошивки брандмауэра.
Отключение инфраструктуры банка Wells Fargo: «зависли» тысячи транзакций
Североамериканский банк столкнулся с проблемой в ноябре 2021 года — клиенты начали отправлять массовые жалобы на исчезнувшие или «зависшие» транзакции, сложности со входом в приложение для мобильного банкинга. Репутация Wells Fargo уже пострадала двумя годами ранее, когда возник сбой в работе его онлайн-сервисов из-за отказа в работе системы пожаротушения дата-центра.
Авария на ЦОД в США: приостановили работу десятки государственных ресурсов
В конце октября проблемы возникли в одном из дата-центров Флориды, который обслуживал ряд государственных сайтов, включая персональный сайт губернатора штата и портал MyFlorida. Тогда отключенными одновременно оказались 86 серверов, а быстрому восстановлению помешали сбои в цепочке поставок оборудования.
Утечка охлаждающей жидкости в ЦОД провайдера Easily: все клиенты вынужденно ушли в офлайн
В октябре 2021 года британский хостинг-провайдер сообщил клиентам о проблемах, которые возникли из-за утечки охлаждающей жидкости. В результате были отключены сервисы Speednames и Adicio, которые принадлежат компании Easily. Она была вынуждена экстренно эвакуировать технический персонал дата-центра в целях безопасности и уже спустя 12 часов ликвидировала проблему.
Ошибка обслуживания в OVHcloud: сбои в сервисах клиентов по всему миру
Причиной проблемы стал человеческий фактор: технический специалист допустил ошибку в ходе перенастройки системы. С перебоями в работе столкнулись все клиенты известного французского провайдера. К счастью, ошибку в конфигурации удалось исправить в течение часа.
Проблемы с серверной инфраструктурой Roblox: трехдневное отключение от сети
В результате перезагрузки инфраструктуры (это наиболее вероятная причина — представители компании не давали комментариев) произошел сбой, из-за которого крупнейшая геймерская платформа не работала в течение трех суток. Инцидент случился накануне Хэллоуина.

Инцидент, возможно, добавил хэллоуинского настроения – но как это отразилось на процессах?
Сбой в дата-центре Tesla: водители оказались заблокированными в своих автомобилях
В результате этой аварии пострадало несколько сотен владельцев Tesla, которые не смогли покинуть свои автомобили без карточки-ключа. Инцидент произошел в ноябре 2021 года из-за сбоя сервера внутри собственного ЦОДа компании. Илон Макс лично принес извинения пострадавшим в своем Twitter. Годом ранее компания уже сталкивалась с аналогичной проблемой — тогда недоступными оказались фирменные приложения и клиентская служба поддержки.
Топ-5 причин аварий в ЦОД
- Человеческий фактор. Очень часто к аварийным ситуациям приводят некорректные действия специалистов дата-центра. Чаще всего проблемы затрагивают программное обеспечение IT-инфраструктуры: ошибки в конфигурировании системы, отсутствие оперативной реакции на ошибки в обновлении, случайное удаление виртуальных машин.
- Проблемы с электропитанием. Могут возникнуть на стороне поставщика электроэнергии, но в большинстве случаев к аварии приводят локальные причины — например, отказ аккумуляторов ИБП. Также периодически возникают ситуации, когда системам удается перейти на автономное питание, но его оказывается недостаточно для длительной работы.
- Кибератаки. Злоумышленников обычно интересуют крупные дата-центры, которые обслуживают сервисы и приложения государственной важности, связаны с объектами критически важной инфраструктуры. Преступники могут вызвать скачок напряжения в ЦОДе, перехватить входящий или исходящий трафик (тогда остановка дата-центра будет вынужденной), использовать вычислительные ресурсы для создания ботнетов.
- Пожары и другие стихийные бедствия. Стихия способна уничтожить серверное оборудование, инженерные системы, которые обеспечивают работу дата-центра, вывести из строя резервные системы электропитания и даже физически уничтожить ЦОД полностью или частично.
- Нарушение целостности телекоммуникационных линий. Обрывы на линии могут привести к перебоям в передаче трафика. К счастью, подобные проблемы достаточно быстро ликвидируют — достаточно перенаправить данные по другим кабелям.
- Нестандартные причины. Есть примеры, когда центры ЦОДов останавливались из-за атаки грызунов (Австралия), подводных оползней (Западная Африка), прорывов труб в системе водоснабжения (США).
Как обезопасить ЦОД от аварий
Стопроцентного рецепта не существует, но есть шанс снизить вероятность развития событий по наихудшему сценарию. Вот минимум того, что можно сделать:
- Разработать и реализовать комплексную систему безопасности, которая включает физические и виртуальные средства безопасности.
- Использовать надежные способы идентификации авторизованных пользователей (например, многоуровневую аутентификацию).
- Использовать химические средства пожаротушения, чтобы не допустить повреждения чувствительной электроники водой.
- Защитить ЦОД от вредоносного входящего трафика с помощью надежного периметра безопасности.
- Разработать и внедрить систему бесперебойного питания для ЦОД с учетом требований к его надежности (Tier I-IV).