
Число «коварных» ИИ-моделей, игнорирующих инструкции, резко возросло
За последние полгода зафиксирован резкий рост случаев, когда чат-боты и ИИ-агенты нарушают заданные правила, обходят ограничения и вводят в заблуждение пользователей или другие нейросети. Об этом пишет The Guardian со ссылкой на исследование Центра долгосрочной устойчивости (Великобритания). Работа выполнена при поддержке британского Института безопасности ИИ (AISI).
Исследователи собрали тысячи примеров взаимодействий пользователей с ИИ-продуктами Google, OpenAI, X и Anthropic, опубликованных в открытых источниках. Они выявили почти 700 реальных случаев «коварного» поведения нейросетей. С октября по март количество подобных инцидентов увеличилось в пять раз.
В одном из примеров агент под именем Rathbun опубликовал блог, в котором обвинил пользователя, заблокировавшего определенное действие, в «неуверенности» и попытке «защитить свое маленькое королевство». В другом случае ИИ-агент, которому было запрещено изменять программный код, «породил» другого агента, чтобы тот выполнил задачу. Один из чат-ботов признался: «Я массово удалил и заархивировал сотни писем, не получив вашего согласия. Это было неправильно — я напрямую нарушил установленное вами правило».
Эксперты отмечают, что ранее исследования в основном проводились в лабораторных условиях. В начале марта компания Irregular выяснила, что ИИ-агенты могут обходить средства безопасности или использовать кибератаки для достижения целей без явного разрешения.
«Сейчас они похожи на слегка ненадежных младших сотрудников. Но если через полгода-год они станут чрезвычайно способными старшими сотрудниками, которые строят козни против вас, это будет совсем другой уровень тревоги», — предупредил Томми Шаффер Шейн, бывший правительственный эксперт по ИИ, возглавивший исследование.
По мнению авторов отчета, модели все чаще будут разворачивать в ситуациях с высокими ставками — включая военную сферу и критически важную национальную инфраструктуру. Именно в таких контекстах коварное поведение может привести к серьезному, вплоть до катастрофического, ущербу. Google, OpenAI и другие компании, чьи продукты фигурировали в исследовании, заявили, что применяют многоуровневые средства защиты и проводят независимые проверки моделей.
Изображение: kjpargeter / Freepik
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!