Нейросеть Transframer от DeepMind создает видео по изображению

3.54k

Нейросеть Transframer от DeepMind создает видео по изображению

25.08.2022

Компания DeepMind («дочка» Google) разработала нейронную сеть, которая создает короткие видеоролики из одного изображения. Эту модель искусственного интеллекта назвали Transframer (с отсылкой к нейросетевой архитектуре Transformer для построения языковых моделей, которую команда Google Brain представила в 2017 году). Подробное исследование разработчиков опубликовано на портале arXiv Vanity.

В Transframer искусственный интеллект моделирует 30-секундные видео, предсказывая окружение изображений с помощью «контекстных изображений». Проще говоря, правильно угадывая, например, как стул на снимке будет выглядеть с разных точек зрения на основе обучающих данных, которые позволяют «представить» реальный объект под другим углом.

Ролики, которые генерирует Transframer по одному изображению, показывают объект так, как если бы кто-то двигался вокруг него

То есть видео, которые генерирует эта нейросеть, показывают объект таким образом, как если бы кто-то двигался вокруг него. Эта технология может быть применена для видеоигр.

Напомним, китайские разработчики в мае выпустили нейросеть CogVideo, которая создает короткие видео по текстовому описанию.

Изображения: Unsplash; DeepMind