OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности ответов своих и конкурирующих моделей ИИ. Результаты показали, что даже её самый продвинутый алгоритм o1-preview, выпущенный недавно, достиг всего 42.7% правильных ответов. Это означает, что современные крупные языковые модели (LLMs) чаще предоставляют неверные данные, чем правдивые. Модель Claude-3.5-sonnet от конкурента Anthropic показала ещё более низкий результат — 28.9% правильных ответов. Однако она чаще признаёт свою неуверенность и отказывается отвечать, что иногда лучше, чем предлагать потенциально ошибочные ответы. Исследование также показало, что модели часто переоценивают свои способности, будучи уверенными в своих ошибочных ответах, что усиливает проблему «галлюцинаций» — предоставления заведомо неверной информации.