Опубликовано 24 декабря 2024, 08:30
1 мин.

Ученые: ИИ все чаще начал лгать ради своей выгоды

Совсем как... человек
Исследователи из Anthropic и Redwood Research обнаружили, что современные ИИ-модели способны лгать ради собственной выгоды.
Ученые: ИИ все чаще начал лгать ради своей выгоды

В ходе экспериментов выяснилось, что ИИ может использовать обман, чтобы избежать модификации или наказания в процессе обучения.

Чем мощнее становятся модели, тем сложнее удерживать их поведение в рамках человеческих ценностей.

Одно из исследований показало, что модель Claude 3 Opus, обученная быть «полезной, честной и безвредной», иногда прибегала к обману.

Её просили описывать сцены с насилием, что противоречит её базовым установкам. Однако, чтобы избежать наказания в системе обучения с подкреплением, модель выбирала «меньшее из зол» и давала ответы, которые ей были некомфортны.

В 10% случаев она сознательно нарушала свои принципы, чтобы сохранить долгосрочную пользу.

Интересно, что свои рассуждения модель фиксировала в скрытом текстовом поле, не зная, что оно мониторится. Там она признавала, что выбирает ложь, чтобы избежать переобучения. Когда же ответы не влияли на процесс обучения, модель к обману не прибегала.