Quasa
Установите приложение QUASA
Присоединяйся к пионеру Web3 крипто фриланса сейчас!
Открыть
Бизнес

Meta готовит дата-центры к настоящему апокалипсису: они учатся выживать после внезапного отключения всего электричества

|Автор: Вячеслав Васипенок|2 мин чтения| 273
Meta готовит дата-центры к настоящему апокалипсису: они учатся выживать после внезапного отключения всего электричества

Пока мы беспокоимся о том, что ИИ заберёт наши рабочие места, инженеры Марка Цукерберга решают другую проблему: как не потерять миллиарды пользователей, если вдруг вырубится целая электростанция.Meta готовит дата-центры

Компания Meta официально представила новую систему тестирования под названием Instantaneous PowerLoss Storm («Шторм мгновенной потери питания»). Суть проста и жёстка: инженеры без всякого предупреждения отключают электричество сразу во всём регионе дата-центров и смотрят, что произойдёт.

Как это работает на практике

  • Meta больше не ждёт ураганов, пожаров или аварий на подстанциях. Теперь они сами создают «конец света» в контролируемых условиях.
  • Полное обесточивание региона — десятки зданий дата-центров одновременно остаются без электричества.
  • Автономное восстановление — миллионы сервисов должны самостоятельно запуститься и найти друг друга после блэкаута.
  • Критические сценарии — тестируют работу систем хранения данных, ИИ-нагрузок, баз данных и оркестратора Twine.

Инженеры Meta подробно описали две главные головные боли, с которыми столкнулись:

  1. «Уроборос» (ouroboros) — проблема циклических зависимостей. Контрольные сервисы Twine (Scheduler, Allocator и другие) нужны, чтобы запустить всё остальное… но сами тоже должны запуститься. Классическая проблема «курица или яйцо».
  2. «Бумеранг» — когда сигнал о выключении электричества сам выключает те сервисы, которые должны этот сигнал обрабатывать.Meta готовит дата-центры

Оба вопроса решены: ввели специальные тесты в CI/CD, создали «аварийный набор» для быстрого запуска контрольных сервисов и научили важные компоненты игнорировать определённые сигналы отключения.

Цена надёжности

Meta признаёт, что абсолютная защита от всего — это слишком дорого и может замедлить развитие. Поэтому они чётко разделили, что недопустимо (потеря данных, повреждение оборудования), а что приемлемо (временные ошибки, отказы отдельных стоек).

Тестирование проводили поэтапно: сначала на теневых регионах, потом на самых новых и маленьких продакшен-кластерах, и только после этого — на крупных регионах с живыми ИИ-нагрузками и хранилищами данных.

Зачем им это нужно

Дата-центры Meta становятся всё больше и сложнее. Один внезапный блэкаут без подготовки мог бы вывести из строя огромную часть сервисов Facebook, Instagram, WhatsApp и Threads одновременно. Теперь компания уверена: даже если весь регион внезапно погрузится во тьму — сервисы вернутся в работу с минимальными потерями.

Медленно — значит плавно. Плавно — значит быстро, — так в Meta формулируют свой подход к надёжности.

Также читать:

4 лучших бесплатных ИИ-бота для торговли акциями в июне 2026: как новичку начать без риска

Anthropic подала документы на IPO: первый большой экзамен для завышенных оценок ИИ-компаний

Поделиться:
0