+7 (495) 134-33-56

Аварии в дата-центрах: самые громкие случаи, причины и меры повышения безопасности

Аварии в ЦОД: причины, последствия, самые громкие случаи

Серверы недоступны, клиенты возмущены, владелец ЦОД несет огромные убытки, в том числе репутационные — это типичные последствия аварии в дата-центре. Разбираемся, почему так происходит, как предупредить подобные инциденты и чему нас учит опыт тех, кто столкнулся с ними в течение последних нескольких месяцев.

Самые громкие аварии конца 2021 года

Это лишь небольшая часть списка аварийных ситуаций, которые затронули крупнейшие ЦОД и большое количество их клиентов в разных странах.

Сбои в работе серверов AWS: десятки пострадавших компаний в США

В конце декабря 2021 года пользователи Amazon Web Services столкнулись со сбоями в работе облачной платформы. В первый раз из-за отключения питания в одном из ЦОД пострадали Hulu, Quora, Slack, Asana и еще более десятка крупных IT-компаний. Они столкнулись с перебоями, в то время как один из самых популярных в Нью-Йорке сервисов проката велосипедов Citi Bike полностью остановил свою работу. Следующий сбой затронул компании Disney и Tinder, а также нарушил работу складской логистики самого Amazon.
На фото — сервис проката велосипедов
Из-за сбоя в ЦОД некоторые жители США не смогли добраться на работу привычным способом — на арендованном велосипеде

Программный сбой в SCC: остановились сервисы Оксфордского городского совета

Организация столкнулась с тем, что в декабре 2021 года в офлайне оказались все ее IT-системы, размещенные на вычислительных мощностях британского хостинга SCC. На ликвидацию аварии ушло двое суток. Известно, что причиной стало неудачное обновление прошивки брандмауэра.

Отключение инфраструктуры банка Wells Fargo: «зависли» тысячи транзакций

Североамериканский банк столкнулся с проблемой в ноябре 2021 года — клиенты начали отправлять массовые жалобы на исчезнувшие или «зависшие» транзакции, сложности со входом в приложение для мобильного банкинга. Репутация Wells Fargo уже пострадала двумя годами ранее, когда возник сбой в работе его онлайн-сервисов из-за отказа в работе системы пожаротушения дата-центра.

Авария на ЦОД в США: приостановили работу десятки государственных ресурсов

В конце октября проблемы возникли в одном из дата-центров Флориды, который обслуживал ряд государственных сайтов, включая персональный сайт губернатора штата и портал MyFlorida. Тогда отключенными одновременно оказались 86 серверов, а быстрому восстановлению помешали сбои в цепочке поставок оборудования.

Утечка охлаждающей жидкости в ЦОД провайдера Easily: все клиенты вынужденно ушли в офлайн

В октябре 2021 года британский хостинг-провайдер сообщил клиентам о проблемах, которые возникли из-за утечки охлаждающей жидкости. В результате были отключены сервисы Speednames и Adicio, которые принадлежат компании Easily. Она была вынуждена экстренно эвакуировать технический персонал дата-центра в целях безопасности и уже спустя 12 часов ликвидировала проблему.

Ошибка обслуживания в OVHcloud: сбои в сервисах клиентов по всему миру

Причиной проблемы стал человеческий фактор: технический специалист допустил ошибку в ходе перенастройки системы. С перебоями в работе столкнулись все клиенты известного французского провайдера. К счастью, ошибку в конфигурации удалось исправить в течение часа.

Проблемы с серверной инфраструктурой Roblox: трехдневное отключение от сети

В результате перезагрузки инфраструктуры (это наиболее вероятная причина — представители компании не давали комментариев) произошел сбой, из-за которого крупнейшая геймерская платформа не работала в течение трех суток. Инцидент случился накануне Хэллоуина.
Отключение света
Инцидент, возможно, добавил хэллоуинского настроения – но как это отразилось на процессах?

Сбой в дата-центре Tesla: водители оказались заблокированными в своих автомобилях

В результате этой аварии пострадало несколько сотен владельцев Tesla, которые не смогли покинуть свои автомобили без карточки-ключа. Инцидент произошел в ноябре 2021 года из-за сбоя сервера внутри собственного ЦОДа компании. Илон Макс лично принес извинения пострадавшим в своем Twitter. Годом ранее компания уже сталкивалась с аналогичной проблемой — тогда недоступными оказались фирменные приложения и клиентская служба поддержки.

Топ-5 причин аварий в ЦОД

  • Человеческий фактор. Очень часто к аварийным ситуациям приводят некорректные действия специалистов дата-центра. Чаще всего проблемы затрагивают программное обеспечение IT-инфраструктуры: ошибки в конфигурировании системы, отсутствие оперативной реакции на ошибки в обновлении, случайное удаление виртуальных машин.
  • Проблемы с электропитанием. Могут возникнуть на стороне поставщика электроэнергии, но в большинстве случаев к аварии приводят локальные причины — например, отказ аккумуляторов ИБП. Также периодически возникают ситуации, когда системам удается перейти на автономное питание, но его оказывается недостаточно для длительной работы.
  • Кибератаки. Злоумышленников обычно интересуют крупные дата-центры, которые обслуживают сервисы и приложения государственной важности, связаны с объектами критически важной инфраструктуры. Преступники могут вызвать скачок напряжения в ЦОДе, перехватить входящий или исходящий трафик (тогда остановка дата-центра будет вынужденной), использовать вычислительные ресурсы для создания ботнетов.
  • Пожары и другие стихийные бедствия. Стихия способна уничтожить серверное оборудование, инженерные системы, которые обеспечивают работу дата-центра, вывести из строя резервные системы электропитания и даже физически уничтожить ЦОД полностью или частично.
  • Нарушение целостности телекоммуникационных линий. Обрывы на линии могут привести к перебоям в передаче трафика. К счастью, подобные проблемы достаточно быстро ликвидируют — достаточно перенаправить данные по другим кабелям.
  • Нестандартные причины. Есть примеры, когда центры ЦОДов останавливались из-за атаки грызунов (Австралия), подводных оползней (Западная Африка), прорывов труб в системе водоснабжения (США).

Как обезопасить ЦОД от аварий

Стопроцентного рецепта не существует, но есть шанс снизить вероятность развития событий по наихудшему сценарию. Вот минимум того, что можно сделать:
  • Разработать и реализовать комплексную систему безопасности, которая включает физические и виртуальные средства безопасности.
  • Использовать надежные способы идентификации авторизованных пользователей (например, многоуровневую аутентификацию).
  • Использовать химические средства пожаротушения, чтобы не допустить повреждения чувствительной электроники водой.
  • Защитить ЦОД от вредоносного входящего трафика с помощью надежного периметра безопасности.
  • Разработать и внедрить систему бесперебойного питания для ЦОД с учетом требований к его надежности (Tier I-IV).