«Сбер» улучшил нейросеть Kandinsky, которая создает картинки по текстовому запросу
«Сбер» представил обновленную версию нейросети Kandinsky, способной создавать изображения по текстовому описанию. Новая модель — Kandinsky 2.1 — генерирует высококачественные картинки. Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части и пр. Модель понимает запросы на 101 языке (включая русский и английский) и рисует в различных стилях.
Нейросеть Kandinsky была выпущена в июне 2022-го как улучшенная версия мультимодальной нейросети ruDALL-E. В ноябре прошлого года модель была обновлена до версии 2.0.
В отличие от предыдущей версии, обученной на 1 млрд пар «текст — изображение», модель Kandinsky 2.1 была дообучена на 170 млн пар «текст — изображение» высокого разрешения, а затем еще и на отдельно собранном датасете из 2 млн пар качественных изображений в традиционно сложных для нейросетей областях, как тексты и лица людей.
Нейросеть также была усовершенствована за счет новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Редакция Let AI bе протестировала версию Kandinsky 2.1. Так, изображение выше (на обложке) нейросеть сгенерировала по запросу: «робот рисует картину, в стиле Малевича». Модель выдает квадратные картинки в максимальном разрешении 768×768 пикселей. При скачивании картинку можно обрезать (выделив нужную область).
Вот еще несколько наших экспериментов:
Робот на ковре-самолете, в стиле Пикассо (на картинке слева).
Робот за рулем автомобиля, в стиле Кандинского (на картинке справа).
Мы также решили проверить улучшенную способность модели создавать лица. Вот что получилось:
Портрет. Половина лица человека, другая половина лица робота. Картина маслом (на картинке слева).
Портрет. Левая часть лица — робот, правая часть лица — человек. Картина маслом (на картинке справа).
Действительно, прорисовка портрета довольно качественная, однако запрос нейросеть все же поняла по-своему, и даже конкретизация текстового описания во втором случае не дала ожидаемого нами результата. Хотя в целом мы остались довольны.
А вот тестирование других опций Kandinsky 2.1, таких как смешивание двух изображений и дорисовка части изображения, не дало удовлетворительных результатов. Будем пробовать еще.
Разработкой и обучением нейросети занимались исследователи Sber AI при поддержке ученых из Института искусственного интеллекта AIRI на объединеённом датасете Sber AI и компании SberDevices.
Оценить возможности нейросети Kandinsky 2.1 можно бесплатно на промостранице модели, при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении «Салют» и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель также доступна для использования на платформе Fusion Brain и в Telegram-боте.
Напомним, на днях был закрыт бесплатный доступ к популярному генератору изображений по текстовому описанию Midjourney.
Источник: Сбербанк
Изображения: сгенерированы нейросетью Kandinsky 2.1 по запросам редакции Let AI be
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!