Нейросеть Transframer от DeepMind создает видео по изображению
Компания DeepMind («дочка» Google) разработала нейронную сеть, которая создает короткие видеоролики из одного изображения. Эту модель искусственного интеллекта назвали Transframer (с отсылкой к нейросетевой архитектуре Transformer для построения языковых моделей, которую команда Google Brain представила в 2017 году). Подробное исследование разработчиков опубликовано на портале arXiv Vanity.
В Transframer искусственный интеллект моделирует 30-секундные видео, предсказывая окружение изображений с помощью «контекстных изображений». Проще говоря, правильно угадывая, например, как стул на снимке будет выглядеть с разных точек зрения на основе обучающих данных, которые позволяют «представить» реальный объект под другим углом.
То есть видео, которые генерирует эта нейросеть, показывают объект таким образом, как если бы кто-то двигался вокруг него. Эта технология может быть применена для видеоигр.
Напомним, китайские разработчики в мае выпустили нейросеть CogVideo, которая создает короткие видео по текстовому описанию.
Изображения: Unsplash; DeepMind