10 Самых известных аварий в ЦОД из-за проблем с электроснабжением
Топ-10 самых крупных энергоаварий в дата-центрах
В своем отчете Annual outage analysis 2020, посвященному анализу ежегодных простоев в дата-центрах, Uptime Institute назвала основными виновниками перебои с электроснабжением, на которые пришлось 39 % инцидентов. Рассказываем, какие самые крупные аварии с подачей электроэнергии произошли в разных уголках мира за последние 15 лет.
Дата-центры Azure повредили удары молнии
В сентябре 2018 года во время урагана пострадал дата-центр Microsoft, расположенный в Техасе. Несколько сильных ударов молнии привели к серьезным перебоям с электроснабжением. Чтобы не пострадали пользователи облачного сервиса Azure, инженеры компании Microsoft переключили питание на резервные генераторы. Но и на этом проблемы не закончились: резко повысилась температура в машинных залах, и несколько мощных серверов вышли из строя. Чтобы избежать более критичных последствий, было решено полностью отключить серверные помещения от электропитания.
В результате клиенты Azure из нескольких стран мира все-таки столкнулись с неудобствами: облачные сервисы работали с перебоями в течение нескольких дней. Этот сбой называют одним из самых крупных в истории популярного облачного сервиса. К тому же он частично затронул клиентов других приложений Microsoft — Skype и Office 365.
Компания Microsoft строит дата-центры с 1989 года
Пользователи Yahoo пострадали от… белки
Грызунам свойственно повреждать самые нелепые и несъедобные вещи — например, линии электропередач. В 2010 году с этим столкнулись в дата-центре компании Yahoo, который располагается в Санта-Кларе. Белка оказалась первым и единственным живым существом, пострадавшим в этой аварии, и при этом успела вывести из строя половину вычислительных мощностей дата-центра.
Как связаны ДТП, трансформатор и хостер Rackspace
Rackspace (Сан-Антонио, Техас) предоставляет услуги 40 % участников рейтинга Fortune 100 и имеет репутацию одного из самых надежных хостинг-провайдеров США. Однако и в его истории были инциденты, связанные с проблемами в электроснабжении. В 2007 году в один из силовых трансформаторов, который обслуживал Rackspace, въехал грузовик, что привело к взрыву. В итоге провайдер простаивал в течение нескольких часов, а вместе с ним «лежали» и сайты его крупнейших клиентов.
Неправильно рассчитанная мощность ДГУ привела к остановке ЦОД
В марте 2018 года серьезно пострадал ЦОД, принадлежащий нидерландской авиакомпании KLM. Тогда в системе электроснабжения произошел сбой, а мощности штатных ДГУ не хватило, чтобы покрыть потребности оборудования дата-центра. Значительная часть серверов отключилась, а вслед за ней приостановили работу сервисы авиакомпании. Более семидесяти рейсов были отменены или перенесены, а сильнее всего пострадали пассажиры, которые планировали воспользоваться аэропортом Амстердама Schiphol — одним из важнейших в Европе наряду с Хитроу (Великобритания) и Шарль-де-Голль (Франция).
Из-за случайного отключения электропитания в ЦОД British Airways потеряла $128 млн
Британская авиакомпания British Airways из-за обесточивания серверного оборудования потеряла почти $128 млн в мае 2017 года. Авария произошла в ЦОД, который принадлежит ее материнской компании International Airlines Group. Три дня инженеры занимались восстановлением инфраструктуры, пока значительная часть сервисов авиаперевозчика простаивала. Сотни авиарейсов были отменены, а 75 000 пассажиров вынужденно изменили планы и улетели в более позднее время. Значительная часть убытков, которые понесла British Airways, ушла на выплаты компенсаций пострадавшим клиентам.
Интересно, что сначала причиной инцидента называли кибератаку, но позже выяснилось, что питание в трех основных машинных залах исчезло из-за человеческого фактора, а после перезагрузки по стечению обстоятельств отказали еще и ИБП.
От бесперебойной работы дата-центров British Airways зависят планы десятков тысяч ее клиентов
Остановка в ЦОД могла чуть не привела к коллапсу в европейских авиаперевозках
И еще один инцидент, который имеет непосредственное отношение к авиации. На этот раз от перебоев с электроснабжением в ЦОД пострадала компания Eurocontrol, которая обеспечивает управление движением самолетов в воздушном пространстве Европы. Пять часов инженеры компании устраняли последствия аварии, которая привела к серьезным сдвигам в расписании: сотни рейсов были перенесены, а в европейских аэропортах «зависли» десятки тысяч пассажиров.
Врачи Уэльса не могли обслуживать пациентов из-за проблем с электроснабжением ЦОД
В январе 2018 года в Уэльсе (Соединенное Королевство Великобритания) возникли проблемы с электроснабжением у компании NHS Wales, которая на национальном уровне занимается вопросами здравоохранения. Два ее ЦОД (в Блэнавоне и Кардиффе) пострадали из-за перебоев в работе инфраструктуры и были недоступны в течение двух часов, в разгар рабочего дня. Из-за этого врачи общей практики в этой части королевства не могли получить доступ к электронным карточкам своих пациентов и, соответственно, обслужить их.
Халатное отношение к обслуживанию ИБП привело к серьезному сбою в Vocus Communications
Коммерческий центр обработки данных компании Vocus Communications в австралийском Сиднее (штат Новый Южный Уэльс) столкнулся с проблемой низкоквалифицированного обслуживания ИБП в феврале 2018 года. Перебои в работе силовой инфраструктуры наблюдались в течение нескольких часов. И хотя технические специалисты устранили неполадки в течение дня, один из самых крупных клиентов ЦОД, компания Servers Australia, принял решение переместить свое серверное оборудование на другую площадку.
Инцидент произошел в непростое для Vocus Communications время и стал одной из причин того, что этот колокейшн-провайдер был вынужден продать часть своих мощностей для компенсации убытков (впрочем, они обусловлены не столько перебоями в работе, сколько неудачным вложением денег в покупку трех компаний).
Внутри одного из дата-центров Vocus Communications
Ошибки проектирования чуть не стоили репутации облачному провайдеру OVH
К авариям в системе электроснабжения могут легко привести ошибки, допущенные на этапе проектирования ЦОД. Именно это случилось с североамериканским поставщиком облачных услуг, компанией OVH, которая изо всех сил пытается конкурировать с двумя крупнейшими игроками рынка — Microsoft и Amazon.
Изначально в OVH использовали контейнерные ЦОД, которые при профессиональном монтаже и вводе в эксплуатацию по многим параметрам выигрывают у традиционных решений. Однако не в этом случае: специалисты, которые занимались настройкой, допустили несколько серьезных ошибок и отошли от стандартных практик, не обеспечив машинные залы двумя избыточными силовыми линиям. Одного подключения оказалось недостаточно, и это быстро выяснилось при первой же аварии. В итоге часть вычислительных мощностей ЦОД была отключена на длительное время, что отразилось на работе клиентских сервисов.
Пользователи «ВКонтакте» тоже ощутили последствия проблем с электроснабжением ЦОД
Последний инцидент из нашей подборки был зафиксирован в России — ЦОД, принадлежащий популярной соцсети «ВКонтакте», не справился с нагрузкой. В какой-то момент дата-центру пришлось переключиться на резервные источники питания, что привело к резкому повышению температуры в серверных. И уже после этого с нагрузкой не справилась система охлаждения, в результате чего серверы были временно отключения от питания в январе 2020 года.
Неполадки сразу ощутили на себе пользователи «ВКонтакте»: они не могли отправить сообщение, разместить новый пост или обновить новостную ленту.