Китайская нейросеть CogVideo генерирует видео по текстовому описанию
Исследовательская группа по интеллектуальному анализу данных Университета Цинхуа (Пекин, Китай) создала нейросеть CogVideo, которая генерирует короткие видео по текстовому описанию.
Новая модель искусственного интеллекта построена на архитектуре «Трансформер», которая также лежит в основе ИИ-программ преобразования текста в изображение DALL-E от OpenAI и недавно разработанной Imagen от Google.
Ввод текста в CogVideo осуществляется на китайском языке. На выходе модель выдает четырехсекундный клип из 32 кадров. Описания могут быть довольно короткими. Вот, к примеру, тексты для некоторых видео выше: «лев, пьющий воду», «женщина верхом на лошади в море», «мужчина ест пиццу».