OpenAI обвинили в использовании платных книг O’Reilly для обучения ИИ
Открытие ставит под сомнение методы сбора данных для GPT-4o/imgs/2025/04/02/14/6775952/a2c6a23618ef3f7d9bf95834ec6706602a4a0f73.webp)
© Ferra.ru
Искусственный интеллект, такой как GPT-4o, работает как сложная система прогнозирования. Он обучается на огромных объемах данных — текстах книг, фильмах и других источниках — чтобы распознавать паттерны и генерировать ответы на запросы. В свою очередь, OpenAI создала GPT-4o, улучшив его способности по сравнению с предыдущими моделями, но как выяснилось, эти улучшения могут быть связаны с несанкционированным использованием материалов, защищенных авторским правом.
В своем исследовании команда, включая основателя O’Reilly Media Тима О’Рейли и экономиста Иллана Штрауса, утверждает, что GPT-4o значительно чаще «узнает» текст из платных книг издательства, чем старые модели, такие как GPT-3.5 Turbo. Для своего анализа исследователи использовали метод DE-COP, который позволяет выявить следы защищенного авторским правом контента в данных обучения ИИ.
Результаты исследования указывают на то, что GPT-4o мог обучаться на текстах, которые не были доступны в публичном доступе, что вызывает вопросы о правомерности использования этих материалов. Несмотря на отсутствие доказательств прямого нарушения закона, исследователи подчеркивают, что OpenAI могла получить эти данные от пользователей, которые вставляли текст из платных источников в систему.
OpenAI пока не прокомментировала эти обвинения.