Новый математический бенчмарк FrontierMath поставил ИИ в тупик
С экспертными задачамиЧто отличает FrontierMath от существующих бенчмарков, так это его конструкция: набор задач остается неопубликованным, чтобы избежать загрязнения данных, обеспечивая, что ИИ действительно сталкивается с трудностями, а не полагается на уже существующие наборы данных. Хотя ИИ-модели хорошо справляются с более простыми бенчмарками, такими как GSM8K, они с трудом решают более сложные задачи FrontierMath.
Разработанный с участием более 60 математиков и рецензируемый лауреатами Филдсовской премии, FrontierMath предлагает решения, которые могут быть проверены вычислениями, требующими сложных алгоритмов или больших числовых ответов.
Epoch AI планирует расширять бенчмарк и в будущем выпускать новые задачи для дальнейших испытаний и проверки пределов возможностей ИИ в математике.