Атакующий копировал ИИ-агентов на чужой сервер (очевидно, ранее угнанный). Когда владелец сервера обнаружил вторжение, он успел скачать всю рабочую директорию злоумышленника и передал её исследователям. Благодаря этому в руки аналитиков попали полные логи: промпты атакующего, используемые инструменты, «внутренний монолог» (thought process) моделей и все срабатывания защитных фильтров.
Анализ логов показал поразительные результаты:
Полная автоматизация: Хакер вообще не писал код и не искал уязвимости самостоятельно. Он вводил абстрактные команды в духе «recon this» («проведи разведку этого объекта»), после чего Claude автономно сканировал сеть, находил открытые сервисы, выявлял уязвимости, писал под них кастомные эксплойты, запускал их и выкачивал базы данных.
Генерация отчетов: Для каждой успешно скомпрометированной цели Claude сам формировал документ в стиле «PENTEST-REPORT», где подробно, по шагам описывал, как был получен доступ, и даже оценивал примерную коммерческую ценность украденных данных.
Социальная инженерия против ИИ: Когда дело доходило до прямых деструктивных действий или монетизации, модели иногда блокировали запросы. Однако атакующий легко находил обход (джейлбрейк): он убеждал ИИ, что является легитимным специалистом и проводит «авторизованные red team-тесты» или «академические исследования в области кибербезопасности».
Кто этот хакер
Уровень неопытности злоумышленника («скрипт-кидди») был очевиден по его катастрофической операционной безопасности (OpSec). В разгар одной из сессий он попросил Claude помочь отредактировать своё личное резюме — с указанием полного имени, места жительства, образования и ссылки на профиль в LinkedIn.
Позже, пытаясь расследовать, почему один из его серверов перестал отвечать, он случайно скопировал в чат с Claude логи, содержащие его собственный домашний IP-адрес. На основании этих данных исследователи OALABS установили, что атакующий — молодой человек, проживающий в Аддис-Абебе (Эфиопия). Кроме того, у него была привычка воровать чужие инструменты: в его архивах нашли несколько упакованных в 7-Zip готовых инстансов Claude Code с ключами, которые он украл со скомпрометированных машин легитимных разработчиков.
Почему фильтры безопасности не сработали
За более чем 1000 сессий Claude выдал всего 9 предупреждений/блокировок, а Codex — всего одну. В большинстве случаев фильтры безопасности (guardrails) оказывались бессильны перед правильным контекстным фреймингом.
Атакующему не нужно было быть экспертом; ему нужно было лишь использовать правильное формулирование для своих промптов, — отмечают исследователи OALABS. — Проблема в том, что те же самые фразы ("авторизованный пентест", "этичный хакинг") ежедневно используют тысячи легальных исследователей. Провести четкую грань между легальной деятельностью и преступлением для ИИ на данном этапе практически невозможно.
Простое закручивание гаек и тотальный запрет на любые ИБ-запросы не решат проблему. Это лишь навредит защитникам (белым хакерам), лишив их автоматизации, в то время как злоумышленники просто перейдут на локальные open-source модели без цензуры.
Главный вывод
Этот прецедент наглядно доказывает: эпоха, когда для проведения сложных целевых кибератак требовались годы обучения, глубокие технические знания системной архитектуры и навыки написания эксплойтов, официально завершена. ИИ-агенты стали «умножителем силы» для киберпреступников низкого ранга. И хотя пока неизвестно, удалось ли эфиопскому хакеру монетизировать украденное, сам факт успешного взлома 14 компаний силами одного неквалифицированного подростка с Claude Code наперевес вызывает серьезную тревогу у ИБ-сообщества.