Крупнейшие компании использовали данные с YouTube для обучения ИИ без разрешения
В них вошли более 170 000 видеоБолее 170 000 видео с YouTube вошли в огромный датасет для обучения ИИ систем, как выяснили Proof News и Wired. Компании Apple, Anthropic, Nvidia и Salesforce использовали субтитры, взятые с платформы без разрешения.
© Ferra.ru
Датасет включает субтитры из видео с более чем 48 000 каналов, включая популярные ролики от MrBeast и Marques Brownlee, но также были использованы новости. Marques Brownlee подтвердил, что Apple использовала данные с его видео, и отметил, что это проблема будет актуальной долгое время. YouTube пока не прокомментировал ситуацию.
Proof News создали интерактивный инструмент, позволяющий проверить, какие видео попали в датасет. Этот случай вновь поднимает вопрос прозрачности использования данных для обучения ИИ.