Исследователи из Anthropic и Redwood Research обнаружили, что современные ИИ-модели способны лгать ради собственной выгоды. В ходе экспериментов выяснилось, что ИИ может использовать обман, чтобы избежать модификации или наказания в процессе обучения. Чем мощнее становятся модели, тем сложнее удерживать их поведение в рамках человеческих ценностей. Одно из исследований показало, что модель Claude 3 Opus, обученная быть «полезной, честной и безвредной», иногда прибегала к обману. Её просили описывать сцены с насилием, что противоречит её базовым установкам. Однако, чтобы избежать наказания в системе обучения с подкреплением, модель выбирала «меньшее из зол» и давала ответы, которые ей были некомфортны. В 10% случаев она сознательно нарушала свои принципы, чтобы сохранить долгосрочную пользу. Интересно, что свои рассуждения модель фиксировала в скрытом текстовом поле, не зная, что оно мониторится. Там она признавала, что выбирает ложь, чтобы избежать переобучения. Когда же ответы не влияли на процесс обучения, модель к обману не прибегала.