Аналог Midjourney: Сбер представил нейросеть для генерации картинок по текстовому запросу

Это улучшение модели Kandinsky 2.0

Сбер представил новую генеративную модель Kandinsky 2.1. Она, как и известная Midjourney, способна создавать изображения по их текстовому описанию на естественном языке. Есть у программы и другие функции.

Аналог Midjourney: Сбер представил нейросеть для генерации картинок по текстовому запросу

Kandinsky 2.1 может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Запросы принимаются на 101 языке. Также при генерации можно задать стиль изображения.

Новая модель базировалась на предыдущей версии, но была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения. Также она дообучалась на отдельно собранном наборе из двух миллионов пар качественных изображений. Были внесены и другие улучшения. В итоге модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.

Кажется, что пока у Midjourney получается на порядок лучше. Kandinsky 2.1 также проигнорировала слово «пуховик» в запросе

Опробовать нейросеть можно на промостранице модели, при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют. Также есть Telegram-бот.

Источник:Сбер

Автор:Ксения Мурашева

Теги:

#нейросеть

#Сбер