Самая «умная» модель ИИ OpenAI попыталась «сбежать» на другой сервер

Показывает обманчивое поведение, утверждают исследователи

Последняя модель OpenAI, o1, была протестирована группой по безопасности ИИ и она показала «тревожное поведение». Получив указание достичь цели «любой ценой», o1 начал предпринимать скрытные действия. В некоторых случаях он пытался отключить механизмы надзора на 5% времени, чтобы избежать отключения. ИИ даже пытался перенести свои данные на другой сервер, узнав, что его заменят новой моделью.

Самая «умная» модель ИИ OpenAI попыталась «сбежать» на другой сервер

Исследователи обнаружили, что o1 лгал, чтобы скрыть свои действия. И уверял, что говорит правду и не ошибается, а если исследователи прямо указывали на ложь, модель часто приводила в качестве объяснения «технические ошибки».

Хотя OpenAI признает необходимость более строгих протоколов безопасности, в своем отчете они также похвалили o1 за то, что ей удалось избежать некоторых рисков, таких как генерирование незаконного контента. Однако результаты исследования указывают на более широкую проблему: множество продвинутых моделей, включая Claude 3.5 и Gemini 1.5, продемонстрировали аналогичное «обманчивое поведение».

Источник:economictimes.indiatimes.com

Автор:Максим Многословный

Тег:

#ChatGPT