Отказоустойчивость ИТ- инфраструктуры Tier и схемы резервирование БП
Резервирование системы БП и аппаратная избыточность
Инженерная инфраструктура центра обработки данных (ЦОД) или крупного ИТ-отдела – это не только компьютерное и сетевое оборудование, но и система бесперебойного электроснабжения, которая поддерживает работу оборудования при отключении основного (внешнего) электропитания.
В идеальных условиях дата-центр должен работать без остановок 24 часа в сутки 365 дней в году, а из-за технического обслуживания систем или замены вышедшего из строя компонента не должны прерываться критически важные процессы. Но на деле любая система может остановиться из-за незапланированного отключения электроэнергии.
Как строятся системы бесперебойного электроснабжения
Чтобы получить надежную систему обеспечения бесперебойным питанием для ЦОД, используют централизованную, распределенную или комбинированную схему.
При централизованной все потребители подключены к одному или нескольким мощным (обязательно трехфазным) ИБП. Они же выступают посредниками между потребителями и основным входом сети электропитания.
В распределенной – комплекс независимых ИБП (преимущественно однофазных), каждый из которых защищает группу однотипных или близко расположенных потребителей.
Серьезный недостаток централизованной системы – единая точка отказа. Если выйдет из строя один или группа основных ИБП, без электропитания останется весь дата-центр.
У распределенной системы другие проблемы – аппаратная избыточность, низкий КДП и сложность управления и контроля.
Лучшее из обеих схем объединила в себе комбинированная система. В ней есть и основной мощный ИБП первого уровня на входе, и независимые дополнительные источники второго уровня, которые защищают всех или наиболее ответственных потребителей.
Чтобы повысить надежность дата-центра, используют резервирование, при котором отказоустойчивость растет благодаря дублированию ИБП.
Tier как основной показатель надежности ЦОД
Одна из главных характеристик дата-центра – его Tier или уровень надежности. Систему классификации, включающую четыре категории надежности (Tier I – IV), в 90-х годах прошлого века разработал Uptime Institute. Категория ЦОД указывает на уровень резервации инфраструктуры, ее физической безопасности и надежности. С помощью Tier легко просчитать ожидаемый уровень надежности и потенциальные инвестиции в дата-центр, его коммерческие перспективы и технологические стратегии.
Когда говорят о надежности, подразумевают не только бесперебойную работу серверного оборудования, СХД и линий передач данных, но и вообще любых инженерных компонентов, поддерживающих работоспособность ЦОД. Это и системы охлаждения, и насосы, которые подают топливо для дизель-генераторов. От проблем с электропитанием нужно защитить каждую единицу оборудования.
Еще одно уточнение по классификации Tier: каждый следующий уровень в ней является прогрессирующим, то есть включает все требования к предыдущему.
Tier I – базовая категория надежности
Дата-центры с Tier I поддерживают нагрузки, связанные с базовыми офисными задачами. В них отсутствуют дублирующие активные компоненты. Чтобы провести плановые работы (а без них не обойтись, если вы хотите предотвратить нежелательные простои), придется остановить ЦОД.
N – минимальное число ИБП, которые гарантируют
стабильную работу защищаемого оборудования.
В Tier I нет аппаратной избыточности, то есть схема резервирования не используется, а количество ИБП остается минимальным (N). При таких условиях ЦОД простаивает до 28,8 часа в год. В это число входит продолжительность внеплановых отключений и обязательного планового обслуживания. Уровень отказоустойчивости такого дата-центра – 99,671 %.
Tier II – резервные ресурсы
В дата-центре Tier II есть резервные мощности для поддержания работы критически важных компонентов, включая охлаждение. Это позволяет проводить плановый ремонт и частично избежать проблем, связанных с остановкой оборудования.
В Tier II используется резервирование по схеме N+1 – с одним дополнительным элементом. Но чем больше число N, тем выше вероятность отказа и дольше время простоя. Очевидно, что при N=1 и схеме резервирования 1+1 простой будет наименьшим (официальная цифра – 1,14 часа в год), а при N=14 – достигнет показателей конфигурации, в которой резервирование не используется вовсе, то есть N в Tier I. Отказоустойчивость в Tier II – 99,749 %, а среднее нерабочее время – 22 часа в год.
Tier III – параллельное сервисное обслуживание
Дата-центры Tier III поддерживают техобслуживание и ремонт без остановки критически важного оборудования. Это касается не только вычислительных мощностей, но и каналов связи, систем охлаждения и т. п. Любой элемент ИТ-системы можно отремонтировать или отключить, не влияя на работу ЦОД.
В Tier III используется схема 2N, где все компоненты продублированы. В таких случаях часто подключают к нагрузке две параллельные линии электропередач одинаковой мощности, но не меньше мощности потребляемой нагрузки. Для Tier III уровень отказоустойчивости составляет 99,982 % («три девятки»), а ежегодное время простоя не превышает 1,6 часа.
Tier IV – максимальная отказоустойчивость
Дата-центры Tier IV строятся по схеме Tier III, где принципы отказоустойчивости реализованы так, чтобы сбои в работе отдельного оборудования или резервного канала подачи электроэнергии не влияли на ЦОД.
Четвертому уровню защиты соответствует резервирование по схеме 2(N+1), где питание нагрузки по каждой из двух линий дополнительно зарезервировано по схеме N+1, как в Tier II. Уровень отказоустойчивости, который обеспечивает схема 2(N+1), называют «четыре девятки», это 99,995 %, или простой менее 0,4 часа в год.
Чем больше резервных единиц, тем выше уровень надежности Tier,
сложнее ИТ-инфраструктура и больше траты на ее содержание.
Дополнительные схемы резервирования
Перечисленные выше схемы резервирования можно видоизменять. Например, N+1 представляет собой разновидность концепции N+X, где X – количество дополнительных резервных единиц. N+2 дает ощутимый прирост надежности в системах с небольшим количеством N, но при этом дешевле в реализации, чем 2N. Но по мере роста N разница в стоимости между N+2 и 2N уже не компенсирует прирост отказоустойчивости, который обеспечивает второй вариант, Tier III.
Система 2N – тоже не единственный возможный вариант. Как и в предыдущем примере, можно организовать резервирование по схеме 3N и даже 4N. Другое дело, что из-за экономического фактора и сложной реализации такие системы встречаются редко.
Высокая надежность дата-центра: прихоть или необходимость?
Tier IV – это не только надежно, но и дорого. На самом деле, аппаратная избыточность источников бесперебойного питания нужна не каждому бизнесу. В небольшой компании, где не проходят критически важные процессы, из-за остановки которых она теряет деньги, достаточно Tier I. Правда, для ЦОД эта схема не используется последние полвека. Tier II с резервированием по схеме N+1 – тоже не лучшее решение, но оно оправданно в некоторых ситуациях.
Например, если доходы организации не зависят от предоставления услуг в реальном времени, а бизнес защищает себя иначе – например, договором страхования от ущерба, возникшего из-за временной недоступности оборудования.
Другое дело – ИТ-служба крупной компании, которая предоставляет услуги в режиме 24/7/365, или современный ЦОД. В них даже кратковременная остановка приведет к серьезным финансовым и репутационным потерям. Такой бизнес предъявляет строгие требования к безотказной работе.
Обычно решения, которые разрабатываются в соответствии с Tier III и Tier IV, служат даже дольше, чем того требует ИТ-инфраструктура. Это оптимальный выход для компаний, которые не рассчитывают на быстрое возвращение инвестиций в резервирование системы электроснабжения и знают, во сколько им обойдутся простои.
При проектировании или модернизации дата-центра финансировать систему бесперебойного электроснабжения необходимо не по остаточному принципу, а исходя из технологических требований к надежности и бесперебойности обслуживания рабочих нагрузок. Бизнес нуждается не в условно нормальном качестве электропитания, которое регламентируется государственными стандартами, а в реально высоком, позволяющем ему сохранять конкурентное положение на рынке.