Meta готовит дата-центры к настоящему апокалипсису: они учатся выживать после внезапного отключения всего электричества

Пока мы беспокоимся о том, что ИИ заберёт наши рабочие места, инженеры Марка Цукерберга решают другую проблему: как не потерять миллиарды пользователей, если вдруг вырубится целая электростанция.
Компания Meta официально представила новую систему тестирования под названием Instantaneous PowerLoss Storm («Шторм мгновенной потери питания»). Суть проста и жёстка: инженеры без всякого предупреждения отключают электричество сразу во всём регионе дата-центров и смотрят, что произойдёт.
Как это работает на практике
- Meta больше не ждёт ураганов, пожаров или аварий на подстанциях. Теперь они сами создают «конец света» в контролируемых условиях.
- Полное обесточивание региона — десятки зданий дата-центров одновременно остаются без электричества.
- Автономное восстановление — миллионы сервисов должны самостоятельно запуститься и найти друг друга после блэкаута.
- Критические сценарии — тестируют работу систем хранения данных, ИИ-нагрузок, баз данных и оркестратора Twine.
Инженеры Meta подробно описали две главные головные боли, с которыми столкнулись:
- «Уроборос» (ouroboros) — проблема циклических зависимостей. Контрольные сервисы Twine (Scheduler, Allocator и другие) нужны, чтобы запустить всё остальное… но сами тоже должны запуститься. Классическая проблема «курица или яйцо».
- «Бумеранг» — когда сигнал о выключении электричества сам выключает те сервисы, которые должны этот сигнал обрабатывать.

Оба вопроса решены: ввели специальные тесты в CI/CD, создали «аварийный набор» для быстрого запуска контрольных сервисов и научили важные компоненты игнорировать определённые сигналы отключения.
Цена надёжности
Meta признаёт, что абсолютная защита от всего — это слишком дорого и может замедлить развитие. Поэтому они чётко разделили, что недопустимо (потеря данных, повреждение оборудования), а что приемлемо (временные ошибки, отказы отдельных стоек).
Тестирование проводили поэтапно: сначала на теневых регионах, потом на самых новых и маленьких продакшен-кластерах, и только после этого — на крупных регионах с живыми ИИ-нагрузками и хранилищами данных.
Зачем им это нужно
Дата-центры Meta становятся всё больше и сложнее. Один внезапный блэкаут без подготовки мог бы вывести из строя огромную часть сервисов Facebook, Instagram, WhatsApp и Threads одновременно. Теперь компания уверена: даже если весь регион внезапно погрузится во тьму — сервисы вернутся в работу с минимальными потерями.
Медленно — значит плавно. Плавно — значит быстро, — так в Meta формулируют свой подход к надёжности.
Также читать:
4 лучших бесплатных ИИ-бота для торговли акциями в июне 2026: как новичку начать без риска
Anthropic подала документы на IPO: первый большой экзамен для завышенных оценок ИИ-компаний