Google представила самую точную нейросеть, создающую картинки по текстовому описанию
Представители поискового гиганта рассказали, что для распознавания текстового запроса нейросеть использует большие языковые модели. При этом алгоритмы нейронной сети улучшают получившуюся схематичную картинку размером 64×64 сначала до 256х256, затем до 1024×1024.
Всё это время модель не просто апскейлит изображение, а именно что дорисовывает имеющиеся детали на картинке.
Разработчики Imagen сравнили своё детище с DALL-E 2 от OpenAI. По их словам, тестировщики чаще выбирали изображения, полученные их технологией, когда их просили отдать предпочтение более точной и достоверной работе.
На данный момент проект работает в режиме закрытой беты. Доступ к ней могут получить лишь некоторые лица. Причиной этого разработчики назвали страх за использовании нейросети для генерации неприемлемых изображений.