+7 (495) 134-33-56

Машинное обучение для управления системой охлаждения и бесперебойным питанием в ЦОД

Как машинное обучение помогает управлять дата-центром

Дата-центры потребляют десятки мегаватт электроэнергии, выделяют киловатты тепла в процессе работы и нуждаются в эффективных системах, которые управляют электропитанием и охлаждением. Сегодня в этом помогают технологии машинного обучения (machine learning, ML). Они управляют жизнеобеспечением дата-центров, предотвращают сбои, повышают гибкость использования ресурсов и отказоустойчивость ЦОД.

Машинное обучение для управления охлаждением ЦОД

Многие компании так боятся простоев, что охлаждают дата-центры сверх меры. Этот подход малоэффективен и не гарантирует, что отдельные единицы IT-оборудования не перегреются. В 2018 году Джо Кава, ответственный за центры обработки данных в Alphabet (концерн владеет компанией Google), рассказал, как в компании применяют алгоритмы машинного обучения для автоматической настройки систем охлаждения. Это позволяет Google экономить на охлаждении до 30 % электроэнергии. Похожий кейс есть у североамериканского оператора сотовой связи Verizon, который с помощью аналогичного ПО на 32 % снизил расходы на охлаждение дата-центров.

ПО для управления охлаждением ЦОД

Для управления охлаждением Verizon, а также компании Hitachi Vantara, Siemens и Schneider Electric используют программные решения Vigilent. Аналогичные по функционалу продукты предлагает AdeptDC, но разработчики по-разному подходят к проблеме.
AdeptDC полагается на температуру серверных процессоров, а Vigilent использует датчики, равномерно установленные по всем этажам ЦОД, и строит на основе их показаний «температурную карту».
Принцип работы интеллектуальной системы охлаждения от Vigilent
Vigilent и AdeptDC дают представление о том, какие охлаждающие элементы важны, а какие из них избыточные. Зная о первых, можно предугадать, где вышедший из строя агрегат негативно повлияет на работу дата-центра. А отказ от вторых или снижение их мощности поможет сэкономить на охлаждении.

Как влияет машинное обучение на принятие решений по охлаждению ЦОД

Программы для управления охлаждением с помощью датчиков отслеживают и анализируют сотни параметров: собирают информацию о кондиционерах и теплообменниках, учитывают температуру окружающей среды, рассчитывают скорость вращения вентиляторов в серверных стойках.
В дата-центрах компании Google более тысячи датчиков передают информацию в облако, где развернута система искусственного интеллекта. С помощью машинного обучения и сценариев вида «если – то» программа накапливает «исторические» данные и непрерывно учится. Параллельно с обучением растет процент правильных решений по охлаждению стоек.
Охлаждение в ЦОД Google
Программа фиксирует изменения, затрагивающие работу системы охлаждения, а затем составляет прогнозы и рекомендации по тому, как малейшие изменения в работе оборудования, погоды за окном или другие факторы повлияют на температуру в зале. Например, если на 3 °С поднялась температура в «холодном коридоре», стоит ожидать увеличения нагрузки на чиллеры и теплообменники.
Или другой случай. Несмотря на высокую мощность системы охлаждения, стойки в одной из зон продолжают выделять критично много тепла. А это повод пересмотреть движение воздушных потоков или расположение перфорированной плитки на фальшполе.
ПО, управляющее работой дата-центра, получает предупреждения, определяет, какие прогнозы с наибольшей вероятностью приведут к проблемам, и только потом вносит изменения в настройки системы охлаждения. Чтобы снизить вероятность ошибочных действий, которые рекомендует выполнить ИИ, другая система оценивает их достоверность и проверяет на соответствие внутренней политике безопасности.

Машинное обучение для управления бесперебойным питанием ЦОД

Интеллектуальные инструменты помогают не только эффективно охлаждать IT-оборудование, но и управлять бесперебойным питанием в дата-центре. С помощью ML можно спрогнозировать потребляемую стойками мощность, а затем рассчитать необходимое количество и мощность источников бесперебойного питания для их защиты.
Специализированные программные решения непрерывно контролируют энергопотребление, собирают и анализируют данные, а затем используют их для перераспределения нагрузки между оборудованием. Плюс машинное обучение используют в качестве эмулятора, чтобы понять, как изменится ситуация с подачей питания при увеличении количества стоек в ЦОД.
Системы машинного обучения быстрее, чем человек, способны обнаружить аномалии и проблемы с качеством электроэнергии, а в некоторых случаях — еще и спрогнозировать их, предотвратив развитие худшего сценария.
Джим Гао из Google рассказывает, как нейронные сети помогают в прогнозировании PUE в диапазоне 0.004 +/ 0.005, то есть с минимальными ошибками, что на практике было подтверждено в дата-центрах поискового гиганта. Результаты эксперимента показали, что машинное обучение стало важным инструментом для моделирования характеристик постоянного тока и повышения энергоэффективности.
Машинное обучение и предсказательную аналитику называют ядром программно-определяемого электропитания (Software-Defined power, SDP). Эта концепция реализуется на уровне программного управления или DCIM-системы. Задача SDP – оптимизировать распределение и выделение ресурсов электропитания в пределах ЦОД с учетом требований и приоритета между приложениями-потребителями вычислительных ресурсов. Плюс SDP помогает избежать возможных проблем с электропитанием и снизить их влияние на работу приложений.

Экономический эффект от использования машинного обучения

Компании, которые внедрили технологии машинного обучения в дата-центрах, уже оценили их экономическую выгоду. В Google на треть снизили затраты на электроэнергию, которая идет на системы охлаждения. Verizon ежегодно экономит до 55 млн кВт⋅ч в боле чем двух десятках дата-центров. В NTT затраты на охлаждение серверов уменьшились на 2 %.
Впечатляющие результаты с учетом того, что в прошлом году все дата-центры мира суммарно потребили более 400 ТВт электроэнергии. А так как глобальный трафик данных увеличивается в геометрической прогрессии, можно ожидать, что в ближайшее время потребление электроэнергии удвоится и станет еще более серьезной проблемой для ЦОД.
С помощью машинного обучения можно экономить не только на счетах за электроэнергию, но и на обслуживании оборудования. Инструменты самодиагностики, системы превентивного анализа и принятия решений — все это сводит участие человека к минимуму, а значит, параллельно с ростом данных владельцам дата-центров не придется нанимать новых технических специалистов.
Еще одна статья экономии – сокращение убытков от простоев. В предотвращении сбоев и остановок IT-оборудования машинное обучение зарекомендовало себя лучше, чем человек с его ручными методами. Сотрудник дата-центра тратит много времени на то, чтобы детально изучить проблему и найти причину ее возникновения. У самообучающейся системы другой подход – она анализирует прошлые инциденты и при появлении первых признаков новых аварийных ситуаций «бьет тревогу».

Машинное обучение в ЦОД: что дальше?

По мере того как растут объемы данных и количество стоек в дата-центрах, растет и потребность в специалистах, которые их обслуживают. Однако увеличение штата сотрудников – это всегда дорого и не всегда эффективно. Альтернативой становится искусственный интеллект и технологии машинного обучения, которые возьмут на себя задачи, ранее бывшие прерогативой человека.
Кроме управления системами охлаждения и электропитания, машинное обучение в дата-центрах будут использовать (и уже делают это) для предотвращения кибератак и утечки клиентских данных, для разработки стратегий защиты и смягчения последствий действий киберпреступников. Машинное обучение поможет выявить аномалии и предотвратить программные и аппаратные сбои в работе ЦОД, проанализировать прошлые инциденты и принять соответствующие меры.
Использование машинного обучения в ЦОД уже стало конкурентным преимуществом в бизнесе. В Gartner утверждают, что к 2020 году более 30 % центров обработки данных, которые так и не придут к использованию ИИ и машинного обучения, окажутся экономически невыгодными. Чтобы остаться на рынке, они вынуждены внедрять новые технологии в ЦОД. Это говорит о том, что искусственный интеллект и машинное обучение в ближайшие два–три года будут выполнять наиболее ответственные задачи, помогать ключевым IT-специалистам принимать стратегические решения по управлению работой ЦОД.