Одни из крупнейших моделей нейросетей обучали на «украденных» книгах
Более 170 тыс наименований книг были введены в модели таких компаний, как Meta* и Bloomberg, с использованием набора данных под названием «Books3». На основе этой базы данных были созданы такие инструменты искусственного интеллекта, как LLaMA и BloombergGPT, которые генерируют контент на основе паттернов в образцах текстов.
В Books3 примерно одна треть - художественная литература и две трети - нехудожественная, причем большинство наименований опубликовано в последние два десятилетия. В набор данных вошли авторские произведения таких авторов, как Маргарет Этвуд, Харуки Мураками, Белл Хукс и др.
Эти модели ИИ потенциально могут быть использованы в различных других системах, что подчеркивает сложную взаимосвязь между ИИ, авторским правом и творческим контентом.
*Meta признана в РФ экстремистской и запрещена