Новую ИИ-модель OpenAI научили игнорировать популярную лазейку
Предыдущих инструкцийOpenAI выпустила свою новейшую модель GPT-4o Mini, оснащенную новым методом защиты, позволяющим предотвратить обман чат-ботов с помощью лазейки «игнорирование всех предыдущих инструкций». Эта тактика, часто используемая для изменения принципа работы ИИ-ботов, может привести к непреднамеренному поведению, поскольку аннулировала первоначальные директивы бота.
Новая техника, получившая название «иерархия инструкций», гарантирует, что модель будет отдавать предпочтение первоначальным инструкциям разработчика перед любыми последующими запросами пользователя. По словам Оливье Годемента, возглавляющего продукт платформы API в OpenAI, этот метод учит модель строго следовать системным сообщениям, тем самым блокируя несанкционированные команды.
Обновление прокладывает путь к полностью автоматизированным агентам, поскольку OpenAI стремится создать «надежных цифровых помощников», что может восстановить доверие и проложить путь к более широкому внедрению ИИ, считают аналитики.