Опубликовано 10 октября 2024, 21:21
1 мин.

Нейросеть-художник Яндекса «научили» добавлять текст на изображения

А также упростила детальные изменения на картинках
YandexART получила обновление 2.0 с более тонкими настройками изображений
Нейросеть-художник Яндекса «научили» добавлять текст на изображения

Яндекс выпустил новую версию своей визуальной нейросети — YandexART 2.0. Она теперь умеет создавать надписи прямо на изображениях, сочетать несколько стилей на одной картинке и располагать объекты более естественно. Эти нововведения можно использовать для создания логотипов, этикеток, иллюстраций для сайтов и постов в соцсетях. Компании также смогут повысить эффективность своих маркетинговых кампаний благодаря этим возможностям.

Основу YandexART 2.0 составляет гибридная архитектура, которая объединяет свёрточную и трансформерную модели. Свёрточная нейросеть работает, как человеческий глаз, распознавая края, текстуры и формы на изображениях, а трансформер отвечает за более сложные запросы с множеством деталей. Это позволяет YandexART 2.0 точнее следовать текстовым указаниям и создавать картинки в разных стилях одновременно. Например, нейросеть может сгенерировать банку лимонада с аниме-персонажем на этикетке.

YandexART 2.0 обучалась на огромных массивах данных — миллионах изображений и текстовых описаний к ним. Для улучшения качества данных Яндекс использовал свою VLM-модель, которая подробно анализировала и описывала изображения. Благодаря этому нейросеть стала учитывать больше деталей в пользовательских запросах. Также Yandex расширил датасет нейросети, добавив изображения с текстом, что позволило ей научиться генерировать надписи латинскими буквами.