Новый математический бенчмарк FrontierMath поставил ИИ в тупик

С экспертными задачами

Epoch AI представила новый математический бенчмарк FrontierMath, который ставит в тупик современные ИИ-модели. По данным исследовательской организации, бенчмарк включает сотни сложных математических задач, которые топовые ИИ-модели, включая GPT-4o и Claude 3.5 Sonnet, решают менее чем в 2% случаев. Эти задачи, которые обычно требуют от математиков нескольких часов или дней, охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.

Новый математический бенчмарк FrontierMath поставил ИИ в тупик

Что отличает FrontierMath от существующих бенчмарков, так это его конструкция: набор задач остается неопубликованным, чтобы избежать загрязнения данных, обеспечивая, что ИИ действительно сталкивается с трудностями, а не полагается на уже существующие наборы данных. Хотя ИИ-модели хорошо справляются с более простыми бенчмарками, такими как GSM8K, они с трудом решают более сложные задачи FrontierMath.

Разработанный с участием более 60 математиков и рецензируемый лауреатами Филдсовской премии, FrontierMath предлагает решения, которые могут быть проверены вычислениями, требующими сложных алгоритмов или больших числовых ответов.

Epoch AI планирует расширять бенчмарк и в будущем выпускать новые задачи для дальнейших испытаний и проверки пределов возможностей ИИ в математике.

Источник:Arxiv

Автор:Максим Многословный

Теги:

#математика

#бенчмарк

#искусственный интеллект