Нейросеть Sora создает реалистичные видео со сменой кадров

Нейросеть Sora создает невероятно реалистичные видео со сменой кадров

6.47k

Нейросеть Sora создает реалистичные видео со сменой кадров

19.02.2024

Компания OpenAI, разработчик нейросетей ChatGPT и DALL·E, на днях представила свою новую ИИ-модель — Sora. Она генерирует реалистичные и качественные видеоролики продолжительностью до минуты по текстовому запросу пользователя. Также нейросеть преобразовывает неподвижное изображение в видео и расширяет существующие ролики, заполняя в них недостающие кадры.

Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. При этом модель может генерировать несколько кадров в одном видео, в которых сохраняются персонажи и визуальный стиль.

Видео сгенерировано нейросетью Sora по запросу: «Стильная женщина идет по улице Токио, наполненной теплым светом неона и анимированными городскими вывесками. Она одета в черную кожаную куртку, длинное красное платье и черные ботинки, а также держит черную сумочку. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица мокрая и отражает свет, создавая зеркальный эффект разноцветных огней. Вокруг много пешеходов»

У Sora есть слабые места — в частности, могут наблюдаться проблемы с точным моделированием сложной сцены и нарушение причинно-следственных связей. Например, человек откусит кусочек печенья, но после этого на печенье не останется следа от укуса. Кроме того, Sora иногда теряется в пространственных подсказках, например путает лево и право.

Разработчики пока предоставляют доступ к нейросети ограниченному кругу пользователей: «красным командам» (экспертам по борьбе с дезинформацией, предвзятостью, разжиганием ненависти), а также художникам, дизайнерам и режиссерам, чтобы оценить критические области и усовершенствовать модель в рамках тестирования.

Также компания создает инструменты, помогающие обнаруживать вводящий в заблуждение контент, например классификатор, который может определить, что видео сгенерировано Sora.

Видео сгенерировано нейросетью Sora по запросу: «Камера вращается вокруг большой стопки старых телевизоров, на которых транслируются разные программы — научно-фантастические фильмы 1950-х годов, фильмы ужасов, новости, помехи, комедийные сериалы 1970-х годов и т. д., действие происходит в большой музейной галерее Нью-Йорка»

Помимо разработки новых методов для безопасного и этичного использования модели, OpenAI применяет и некоторые существующие — те, что внедрены в DALL·E 3. Так, классификатор текста будет проверять и отклонять запросы, связанные с насилием, сексом, разжиганием ненависти, изображением знаменитостей и пр. Кроме того, в компании разработали классификаторы изображений для проверки кадров каждого созданного видео прежде, чем оно будет показано пользователю.

Sora построена на архитектуре трансформера и является диффузионной моделью, которая начинает генерировать видео со статического шума и постепенно удаляет его на последующих шагах преобразования ролика.

Напомним, ранее в этом году компания Google представила Lumiere — генератор видео в высоком качестве.

Текст: Майя Цветкова

Источник, изображения: OpenAI

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!