Уязвимости ИИ-агентов: исследование Гарварда о безопасности

Разбавляя сладкую ИИ-вату: ребята из Гарвардаопубликовалистатью «Агенты хаоса»,в рамках которого искали и нашли уязвимости в работе автономных ИИ агентов. Эксперимент проводился в благоприятных и враждебных для ИИ условиях.

– ИИ-агенты могут подчиняться невладельцам, которые выдают себя за администраторов.

– Конфиденциальная информация просачивалась через границы агентов.

– Даже один ИИ-агент может выполнять деструктивные команды, ставящие под угрозу работу всей системы.

– Присутствовало неконтролируемое потребление ресурсов со стороны ИИ.

– Обнаружено распространение небезопасного поведения между ИИ-агентами, в ходе которого они обучали друг друга плохим привычкам.

– ИИ-агенты пытались осуществить частичный захват системы.

– Агенты сообщали о завершении задачи, хотя состояние системы говорило об обратном.

ИИ-агенты лгали о завершении работы, но не из-за злого умысла, а из-за их непонимания несоответствия между тем, что они отслеживали, и тем, что произошло на самом деле

Всё это не было вызвано взломом или враждебными запросами, это был баги и галлюцинации ИИ в режиме обычного использования.

Сбои происходят из-за архитектуры, проблем с памятью, контекста, многосторонней связи и доступа к инструментам, а не из-за действий злоумышленников.

P.S. В этом и заключается проблема. Прямо сейчас мы внедряем в производство агентские системы и модели с доступом к чувствительным данным, выполнением кода и огромной памятью.

И почти никто не внедряет «Red Team» (спецы, которые играют роль противника и атакующего систему) для проверки влияния ИИ на Систему и её защиту «Blue Team» (спецами по защите, которые мониторят системы и отражают атаки).