Опубликовано 30 марта 2025, 16:30
1 мин.

Хакеры взломали ИИ Gemini с помощью собственных инструментов модели

Внедрив специальные инструкции
Исследователи из Калифорнийского и Висконсинского университетов в США разработали технику под названием Fun-Tuning, которая делает модели искусственного интеллекта Gemini от Google более уязвимыми к атакам типа prompt injection — «инъекции промта» — тип кибератак, при которых хакер внедряет ложные промты (описание задачи) или модифицирует существующие.
Хакеры взломали ИИ Gemini с помощью собственных инструментов модели

© Google

Этот метод повышает вероятность успешного взлома моделей путём внедрения скрытых инструкций в тексты, читаемые моделью ИИ. Это может привести к утечке информации, неправильным ответам и другим нежелательным действиям, вплоть до контролируемых «галлюцинаций» — генерации лжи.

Специалисты использовали функцию тонкой настройки Gemini, обычно предназначенную для обучения модели на пользовательских данных, для тестирования и усовершенствования подсказок. Используя «странные» префиксы и суффиксы, они усилили подсказки и повысили их эффективность. Таким образом, даже неудачная подсказка может стать успешной, если её модифицировать.

Как отмечают инсайдеры из Android Authority, техника Fun-Tuning открыла новые возможности для взлома моделей Gemini на основе prompt injection.

Ваше отношение
к новости:

На сайте используются cookies. Продолжая использовать сайт, вы принимаете условия