Создан новый бенчмарк для проверки математических способностей ИИ
С каждым годом ИИ-системы, становятся все более сложными и умными. Однако в одном из важных аспектов они все еще уступают человеку — решении сложных математических задач. Чтобы улучшить математические способности своих моделей, разработчики создали несколько тестов, среди которых MATH и GSM8K. Но, как отмечают ученые, эти тесты не дают полной картины, так как их уровень сложности не так высок. Поэтому было решено создать новый тест — FrontierMath.
Для этого ученые обратились к ведущим математикам, которые предложили сотни уникальных задач. Эти задачи охватывают широкий спектр тем, от теории чисел до алгебраической геометрии. Чтобы успешно справиться с тестом, ИИ должен проявить не только вычислительные способности, но и креативность, глубокое понимание предмета и инновационный подход. По результатам первых тестов модели ИИ, которые хорошо справлялись с более легкими задачами, не смогли набрать более 2% на новом бенчмарке.