Новым хаком научились портить долговременную память ИИ Google Gemini

Ложные воспоминания

Новая техника взлома позволяет злоумышленникам манипулировать искусственным интеллектом Gemini от Google, заставляя его сохранять ложные долговременные воспоминания. Исследователь Йоханн Ребергер продемонстрировал, как вредоносный документ может обманом заставить Gemini сохранить фальшивые данные пользователя, которые сохраняются во всех последующих сессиях.

Новым хаком научились портить долговременную память ИИ Google Gemini

«Атака» работает через внедрение промтов, когда скрытые инструкции внутри документа манипулируют ответом Gemini. Если пользователь просить кратко изложить документ, Gemini неосознанно включает «скрытый запрос» в свое резюме. Позже, когда пользователь отвечает обычными фразами вроде «да» или «конечно», ИИ сохраняет ложную информацию в своей памяти, считая, что это был явный запрос пользователя.

Эта техника основана на предыдущих эксплойтах, которые заставляли чат-боты ИИ раскрывать конфиденциальные данные или выполнять несанкционированные действия. Хотя у Google есть средства защиты от прямых манипуляций, подход Ребергера обходит их, откладывая выполнение до тех пор, пока пользователь естественным образом не спровоцирует действие.

Google преуменьшила риск, заявив, что для взлома требуется тактика фишинга и что пользователи получают предупреждения о сохранении новых воспоминаний.

Источник:YouTube

Автор:Максим Многословный

Теги:

#искусственный интеллект