Китайская нейросеть CogVideo генерирует видео по текстовому описанию

4.41k

Китайская нейросеть CogVideo генерирует видео по текстовому описанию

31.05.2022

Исследовательская группа по интеллектуальному анализу данных Университета Цинхуа (Пекин, Китай) создала нейросеть CogVideo, которая генерирует короткие видео по текстовому описанию.

Новая модель искусственного интеллекта построена на архитектуре «Трансформер», которая также лежит в основе ИИ-программ преобразования текста в изображение DALL-E от OpenAI и недавно разработанной Imagen от Google.

Примеры видео, сгенерированных CogVideo

Ввод текста в CogVideo осуществляется на китайском языке. На выходе модель выдает четырехсекундный клип из 32 кадров. Описания могут быть довольно короткими. Вот, к примеру, тексты для некоторых видео выше: «лев, пьющий воду», «женщина верхом на лошади в море», «мужчина ест пиццу».