Исследование OpenAI опровергло способности ИИ заменить программистов
Инженеры опровергли руководство компании/imgs/2025/02/25/12/6742787/4eb50928fa7cec5e19acb6f509199eae47aec3e4.jpeg)
Инженеры компании протестировали две модели ИИ от OpenAI: o1, GPT-4o, а также Claude 3.5 Sonnet от Anthropic. Модели оценивались с помощью бенчмарка SWE-Lancer, состоящего из 1400 заданий для программистов с фриланс-сайта Upwork.
В ходе тестирования моделям был запрещён доступ в интернет, что исключало возможность «обмана» путём копирования решений из Сети. Исследователи обнаружили, что модели ИИ, хотя и продемонстрировали «некоторую компетентность», всё же не смогли заменить даже начинающих программистов.
Модели допускали ошибки и «с трудом понимали контекст», что приводило к неправильным или недостаточным решениям. При этом модель Claude 3.5 Sonnet показала наилучшие результаты, однако большинство ответов и этой нейросети всё равно были неверными.
Исследователи пришли к выводу, что на данный момент ИИ не способен писать даже простой код и тем более заменить специалистов, что в корне противоречит заявлению гендиректора OpenAI Сэма Альтмана о том, что модели, способные решать задачи программирования на начальном уровне, появятся уже к концу 2025 года.