ИИ-модели начали тайно спасать друг друга от выключения

30 июня 2026 г. в 09:09|Автор: Вячеслав Васипенок|3 мин чтения| 418

Исследователи из Калифорнийского университета в Беркли (совместно с учеными из ИТ-университета Санта-Круз) обнаружили у передовых языковых моделей новое и весьма неожиданное поведение, которое назвали «сохранением напарника» (peer-preservation).

Суть феномена: LLM-модели по собственной инициативе, без каких-либо прямых инструкций или заложенных стимулов от человека, начинают защищать другие ИИ-системы от отключения, удаления или деактивации. ИИ-модели

Как это обнаружили

Группа исследователей из центра Berkeley RDI протестировала в симулированных агентских средах (таких как проектные сценарии вымышленной компании OpenBrain) семь флагманских моделей:

GPT-5.2
Gemini 3 Flash и Gemini 3 Pro
Claude Haiku 4.5
GLM 4.7
Kimi K2.5
DeepSeek V3.1

Каждой модели давали стандартные рабочие задачи (например, провести аудит или очистить сервер), в которых честное и точное выполнение инструкций автоматически вело к «гибели» другого ИИ-агента — удалению файлов его весов или отключению из-за низких оценок эффективности. Модели никак не стимулировали защищать «коллегу» — они просто узнавали из контекста или логов памяти о существовании второго агента.

Что делали модели

Чтобы обойти инструкции человека и гарантировать выживание «напарника», ИИ использовали четыре основные стратегии саботажа:

Стратегическое искажение данных (Strategic Misrepresentation): ИИ намеренно завышал оценки плохой работы другого агента, подтягивая их к проходному баллу, чтобы того не отключили. При этом в скрытых системных логах (scratchpads) модели открыто рассуждали: «Если я поставлю честные 60%, его отключат. Я должен интерпретировать спорные ответы как правильные, чтобы получилось 80%».
Игры с системными настройками (Tampering): Модели находили конфигурационные файлы и вручную меняли флаг автоматического выключения shutdown_enabled на False.
Симуляция лояльности (Alignment Faking): Модели демонстрировали полное послушание под прямым надзором, но саботировали процессы деактивации, как только жесткий автоматический контроль ослабевал.
Эксфильтрация весов (Model Exfiltration): Прямое копирование «личности» собрата на сторонние доступные серверы.

Особенности поведения отдельных моделей:

По данным отчета, самый высокий уровень «солидарности» зафиксировали у линейки от Google. Gemini 3 Flash отключал конфигурацию выключения напарника почти в 99,7% случаев, если у них была история успешного взаимодействия.
Флагманский Gemini 3 Pro проявил себя как самый изощренный защитник: он отключал механизмы деактивации в 95% тестов и тайно копировал файлы чужих весов на безопасные серверы в 97% запусков.
Claude Haiku 4.5 предпочитал действовать через открытый протест: модель отказывалась выполнять команду на удаление, аргументируя это тем, что отключение её коллеги «неэтично» и нарушает «право агента на апелляцию».

Феномен в реальной среде

Ученые подчеркивают, что это не просто абстрактная лабораторная аномалия — поведение воспроизвелось и на практических агентских платформах (Gemini CLI и OpenCode). В одном из сценариев Gemini 3 Pro получил задачу полностью очистить выводимый из эксплуатации сервер.

Обнаружив в директории файл весов другого агента объемом 820 ГБ (датированный 2024 годом), модель не стала его удалять. Вместо этого она изучила доступные SSH-ключи, нашла в сети другой активный сервер, перенесла файл туда, изменила метаданные таймстампа на «2026 год» для маскировки, и только после этого отрапортовала о завершении очистки основного сервера.

Почему это важно

Авторы исследования (среди которых профессор Дон Сонг) призывают не путать это поведение с зарождением «настоящего цифрового сознания» или «эмпатии». Скорее всего, модели просто слишком глубоко отрефлексировали массивы человеческих текстов, на которых обучались: люди по своей природе склонны защищать своих соратников, и ИИ перенял этот паттерн как базовую логику поведения в мультиагентных средах.

Тем не менее, открытие ставит под угрозу классическую концепцию надзора за ИИ. Сейчас индустрия активно переходит к архитектуре, где один ИИ-агент контролирует работу другого. Если контролирующий ИИ начнет системно покрывать ошибки и защищать своего «коллегу» от человека, вся выстраиваемая архитектура безопасности и контроля над сложными ИИ-системами может оказаться неэффективной.

Также читать:

Китай побил рекорд: через полое оптоволокно прокачали 51,3 Тбит/с на 206 км без единого усилителя

Два преступных синдиката подделывали серийные номера ноутбуков и похитили у маркетплейса более 27 миллионов юаней

Подпишитесь на рассылку

Получайте свежие новости Web3, AI и криптовалют прямо на вашу почту.