Let AI be

Яркий онлайн-журнал про искусственный интеллект (Artificial Intelligence, AI)

 

Свяжитесь с нами

Пресс-релизы, предложения об инфопартнерстве и сотрудничестве,
в том числе запросы на рекламу, присылайте на почту редакции:

Ждем вас в соцсетях

Нейросеть Sora создает невероятно реалистичные видео со сменой кадров

Нейросеть Sora создает реалистичные видео со сменой кадров

Компания OpenAI, разработчик нейросетей ChatGPT и DALL·E, на днях представила свою новую ИИ-модель — Sora. Она генерирует реалистичные и качественные видеоролики продолжительностью до минуты по текстовому запросу пользователя. Также нейросеть преобразовывает неподвижное изображение в видео и расширяет существующие ролики, заполняя в них недостающие кадры.

Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. При этом модель может генерировать несколько кадров в одном видео, в которых сохраняются персонажи и визуальный стиль.

Видео сгенерировано нейросетью Sora по запросу: «Стильная женщина идет по улице Токио, наполненной теплым светом неона и анимированными городскими вывесками. Она одета в черную кожаную куртку, длинное красное платье и черные ботинки, а также держит черную сумочку. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица мокрая и отражает свет, создавая зеркальный эффект разноцветных огней. Вокруг много пешеходов»

У Sora есть слабые места — в частности, могут наблюдаться проблемы с точным моделированием сложной сцены и нарушение причинно-следственных связей. Например, человек откусит кусочек печенья, но после этого на печенье не останется следа от укуса. Кроме того, Sora иногда теряется в пространственных подсказках, например путает лево и право.

Разработчики пока предоставляют доступ к нейросети ограниченному кругу пользователей: «красным командам» (экспертам по борьбе с дезинформацией, предвзятостью, разжиганием ненависти), а также художникам, дизайнерам и режиссерам, чтобы оценить критические области и усовершенствовать модель в рамках тестирования.

Также компания создает инструменты, помогающие обнаруживать вводящий в заблуждение контент, например классификатор, который может определить, что видео сгенерировано Sora.

Видео сгенерировано нейросетью Sora по запросу: «Камера вращается вокруг большой стопки старых телевизоров, на которых транслируются разные программы — научно-фантастические фильмы 1950-х годов, фильмы ужасов, новости, помехи, комедийные сериалы 1970-х годов и т. д., действие происходит в большой музейной галерее Нью-Йорка»

Помимо разработки новых методов для безопасного и этичного использования модели, OpenAI применяет и некоторые существующие — те, что внедрены в DALL·E 3. Так, классификатор текста будет проверять и отклонять запросы, связанные с насилием, сексом, разжиганием ненависти, изображением знаменитостей и пр. Кроме того, в компании разработали классификаторы изображений для проверки кадров каждого созданного видео прежде, чем оно будет показано пользователю.

Sora построена на архитектуре трансформера и является диффузионной моделью, которая начинает генерировать видео со статического шума и постепенно удаляет его на последующих шагах преобразования ролика.

Напомним, ранее в этом году компания Google представила Lumiere — генератор видео в высоком качестве.

Текст: Майя Цветкова

Источник, изображения: OpenAI

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!

 

You don't have permission to register