Новым хаком научились портить долговременную память ИИ Google Gemini
Ложные воспоминания/imgs/2025/02/12/16/6732018/5046ec639d74a35f6ca85930ce8881fe607cc59d.jpg)
«Атака» работает через внедрение промтов, когда скрытые инструкции внутри документа манипулируют ответом Gemini. Если пользователь просить кратко изложить документ, Gemini неосознанно включает «скрытый запрос» в свое резюме. Позже, когда пользователь отвечает обычными фразами вроде «да» или «конечно», ИИ сохраняет ложную информацию в своей памяти, считая, что это был явный запрос пользователя.
Эта техника основана на предыдущих эксплойтах, которые заставляли чат-боты ИИ раскрывать конфиденциальные данные или выполнять несанкционированные действия. Хотя у Google есть средства защиты от прямых манипуляций, подход Ребергера обходит их, откладывая выполнение до тех пор, пока пользователь естественным образом не спровоцирует действие.
Google преуменьшила риск, заявив, что для взлома требуется тактика фишинга и что пользователи получают предупреждения о сохранении новых воспоминаний.