«Сбер» улучшил нейросеть Kandinsky, которая создает картинки по текстовому запросу

1.95k

«Сбер» улучшил нейросеть Kandinsky, которая создает картинки по текстовому запросу

05.04.2023

«Сбер» представил обновленную версию нейросети Kandinsky, способной создавать изображения по текстовому описанию. Новая модель — Kandinsky 2.1 — генерирует высококачественные картинки. Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части и пр. Модель понимает запросы на 101 языке (включая русский и английский) и рисует в различных стилях.

Нейросеть Kandinsky была выпущена в июне 2022-го как улучшенная версия мультимодальной нейросети ruDALL-E. В ноябре прошлого года модель была обновлена до версии 2.0.

В отличие от предыдущей версии, обученной на 1 млрд пар «текст — изображение», модель Kandinsky 2.1 была дообучена на 170 млн пар «текст — изображение» высокого разрешения, а затем еще и на отдельно собранном датасете из 2 млн пар качественных изображений в традиционно сложных для нейросетей областях, как тексты и лица людей.

Нейросеть также была усовершенствована за счет новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.

Редакция Let AI bе протестировала версию Kandinsky 2.1. Так, изображение выше (на обложке) нейросеть сгенерировала по запросу: «робот рисует картину, в стиле Малевича». Модель выдает квадратные картинки в максимальном разрешении 768×768 пикселей. При скачивании картинку можно обрезать (выделив нужную область).

Вот еще несколько наших экспериментов:

Робот на ковре-самолете, в стиле Пикассо (на картинке слева).

Робот за рулем автомобиля, в стиле Кандинского (на картинке справа).

Мы также решили проверить улучшенную способность модели создавать лица. Вот что получилось:

Портрет. Половина лица человека, другая половина лица робота. Картина маслом (на картинке слева).

Портрет. Левая часть лица — робот, правая часть лица — человек. Картина маслом (на картинке справа).

Действительно, прорисовка портрета довольно качественная, однако запрос нейросеть все же поняла по-своему, и даже конкретизация текстового описания во втором случае не дала ожидаемого нами результата. Хотя в целом мы остались довольны.

А вот тестирование других опций Kandinsky 2.1, таких как смешивание двух изображений и дорисовка части изображения, не дало удовлетворительных результатов. Будем пробовать еще.

Разработкой и обучением нейросети занимались исследователи Sber AI при поддержке ученых из Института искусственного интеллекта AIRI на объединеённом датасете Sber AI и компании SberDevices.

Оценить возможности нейросети Kandinsky 2.1 можно бесплатно на промостранице модели, при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении «Салют» и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель также доступна для использования на платформе Fusion Brain и в Telegram-боте.

Напомним, на днях был закрыт бесплатный доступ к популярному генератору изображений по текстовому описанию Midjourney.

Источник: Сбербанк

Изображения: сгенерированы нейросетью Kandinsky 2.1 по запросам редакции Let AI be

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!