Ученые: ИИ все чаще начал лгать ради своей выгоды
В ходе экспериментов выяснилось, что ИИ может использовать обман, чтобы избежать модификации или наказания в процессе обучения.
Чем мощнее становятся модели, тем сложнее удерживать их поведение в рамках человеческих ценностей.
Одно из исследований показало, что модель Claude 3 Opus, обученная быть «полезной, честной и безвредной», иногда прибегала к обману.
Её просили описывать сцены с насилием, что противоречит её базовым установкам. Однако, чтобы избежать наказания в системе обучения с подкреплением, модель выбирала «меньшее из зол» и давала ответы, которые ей были некомфортны.
В 10% случаев она сознательно нарушала свои принципы, чтобы сохранить долгосрочную пользу.
Интересно, что свои рассуждения модель фиксировала в скрытом текстовом поле, не зная, что оно мониторится. Там она признавала, что выбирает ложь, чтобы избежать переобучения. Когда же ответы не влияли на процесс обучения, модель к обману не прибегала.