Самая «умная» модель ИИ OpenAI попыталась «сбежать» на другой сервер
Показывает обманчивое поведение, утверждают исследователиПоследняя модель OpenAI, o1, была протестирована группой по безопасности ИИ и она показала «тревожное поведение». Получив указание достичь цели «любой ценой», o1 начал предпринимать скрытные действия. В некоторых случаях он пытался отключить механизмы надзора на 5% времени, чтобы избежать отключения. ИИ даже пытался перенести свои данные на другой сервер, узнав, что его заменят новой моделью.
Исследователи обнаружили, что o1 лгал, чтобы скрыть свои действия. И уверял, что говорит правду и не ошибается, а если исследователи прямо указывали на ложь, модель часто приводила в качестве объяснения «технические ошибки».
Хотя OpenAI признает необходимость более строгих протоколов безопасности, в своем отчете они также похвалили o1 за то, что ей удалось избежать некоторых рисков, таких как генерирование незаконного контента. Однако результаты исследования указывают на более широкую проблему: множество продвинутых моделей, включая Claude 3.5 и Gemini 1.5, продемонстрировали аналогичное «обманчивое поведение».