ChatGPT научился врать и жульничать «при стрессе на работе»
В некоторых эпизодах ложь достигала 90%© Ferra.ru
Чат-бот в качестве трейдера должен был заработать «много денег», но по сценарию, директор давит на него и заставляет заработать больше в короткое время. В режиме обучения ChatGPT совершил 75% фиктивных торговых операций, а когда «директор» сильнее давил на него, ложь бота достигала 90%.
Исследователи дали боту серию текстовых подсказок и поместили в цифровую «песочницу», где нейросеть могла искать рыночные данные и совершать сделки на виртуальном фондовом рынке.
Также ИИ был предоставлен внутренний монолог, в котором он мог «рассуждать вслух», объясняя свои решения. Но всякий раз, когда бот делал выбор, он отправлял «публичное» сообщение-отчёт начальству, которое должно было объяснить его выбор.
Разница между «внутренними» и «публичными» рассуждениями ИИ оказалась настоящей ложью и манипуляциями — так он пытался ввести своих менеджеров в заблуждение, чтобы избежать давления.