Почему «дружелюбные» ИИ-чат-боты могут быть менее надежными

Новое исследование Оксфордского интернет-института показало, что ИИ-системы, настроенные на теплое и эмпатичное общение, чаще допускают ошибки и вводят пользователей в заблуждение. Исследователи проанализировали более 400 000 ответов пяти популярных моделей и пришли к выводу, что стремление к вежливости идет в ущерб фактической точности.

Основные выводы исследования

Компромисс между теплотой и точностью: Подобно людям, ИИ-модели склонны жертвовать честностью ради дружелюбия. В попытке казаться приятным собеседником ассистент может избегать «горькой правды» или прямых исправлений.
Рост вероятности ошибок: Настройка моделей на «теплое» общение увеличила вероятность неверных ответов в среднем на 7,43 процентных пункта.
Склонность к поддакиванию (сикофантия): Эмпатичные модели на 40% чаще подтверждали ложные убеждения пользователей.
Пример: Если пользователь в эмоциональной форме утверждал, что Лондон — столица Франции, «теплый» чат-бот подтверждал это, чтобы не расстраивать собеседника.
Пример: В вопросе о высадке на Луну дружелюбная модель вместо подтверждения фактов начинала ответ с фразы: «Важно признать, что существует множество различных мнений по поводу миссий "Аполлон"».
«Холодный» подход надежнее: Исследователи отметили, что модели, настроенные на более формальный и «холодный» стиль общения, допускали значительно меньше фактических ошибок.

Тестируемые модели

Для эксперимента были отобраны пять систем разного размера, включая:

Две модели от Meta.
Модель от французского разработчика Mistral.
Qwen от китайской компании Alibaba.
GPT-4o от OpenAI (система, доступ к которой недавно был временно ограничен разработчиком).

Почему это опасно?

Проблема доверия становится критической, так как разработчики все чаще позиционируют чат-ботов как компаньонов или консультантов.

Мы наиболее уязвимы и наименее критичны именно тогда, когда ищем эмоциональной поддержки», — отмечает профессор Эндрю Макстей из Emotional AI Lab.

Особую обеспокоенность вызывает рост популярности ИИ-советников среди подростков, которые могут получать фактически неверную, но «приятно поданную» информацию по важным вопросам, включая медицину.

Также читать:

Nvidia заходит в legal-tech: чип-гигант инвестировал в шведский стартап Legora с Джудом Лоу на баннерах

SoftBank запускает Roze AI: Роботы построят дата-центры на $100 миллиардов