У большинства моделей ИИ обнаружили «проблемы с воображением»
Ученые провели исследование© Ferra.ru
Возможность обрабатывать визуальные данные появилась у LLM совсем недавно. Однако ученые выяснили, что пока эта функция далека от совершенства. Авторы исследования сравнивают LLM с системой «камера-мозг». Камера (система распознавания объектов) у современных моделей развита хорошо, а вот «мозг» (способность обрабатывать информацию) пока отстает.
Например, LLM легко распознают на картинке Тадж-Махал, но с вопросами о деталях вроде количества держащихся за руки детей модель может не справиться. Языковые модели не умеют считать, их обучают распознавать образы. Поэтому, если LLM не показывали заранее картинку с таким же количеством детей, она не сможет ответить на вопрос.
Ученые предложили моделям выполнить простые задачи вроде подсчета накладывающихся друг на друга кругов или соединенных колец.
Все LLM плохо справились с заданиями, показывая хорошие результаты только на знакомых изображениях. Например, подсчитать количество соединенных колец свыше пяти оказалось сложным, так как кроме олимпийских колец, таких примеров модели, видимо, не видели.