Создана понимающая содержание изображений и решающая пазлы нейросеть
Это ключевой шаг к созданию ИИ общего назначенияMicrosoft представила Kosmos-1, мультимодальную модель искусственного интеллекта (ИИ), которая может анализировать изображения на предмет содержания, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке.
Исследователи считают, что мультимодальный ИИ, который объединяет различные способы ввода данных, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию искусственного интеллекта общего назначения, способного выполнять задачи на уровне человека.
Microsoft обучила Kosmos-1, используя данные из Интернета. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, ответы на визуальные вопросы, ответы на вопросы веб-страниц.
По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Источник:Arxiv
Автор:Максим Многословный