Нейросеть Sora создает реалистичные видео со сменой кадров
Компания OpenAI, разработчик нейросетей ChatGPT и DALL·E, на днях представила свою новую ИИ-модель — Sora. Она генерирует реалистичные и качественные видеоролики продолжительностью до минуты по текстовому запросу пользователя. Также нейросеть преобразовывает неподвижное изображение в видео и расширяет существующие ролики, заполняя в них недостающие кадры.
Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. При этом модель может генерировать несколько кадров в одном видео, в которых сохраняются персонажи и визуальный стиль.
У Sora есть слабые места — в частности, могут наблюдаться проблемы с точным моделированием сложной сцены и нарушение причинно-следственных связей. Например, человек откусит кусочек печенья, но после этого на печенье не останется следа от укуса. Кроме того, Sora иногда теряется в пространственных подсказках, например путает лево и право.
Разработчики пока предоставляют доступ к нейросети ограниченному кругу пользователей: «красным командам» (экспертам по борьбе с дезинформацией, предвзятостью, разжиганием ненависти), а также художникам, дизайнерам и режиссерам, чтобы оценить критические области и усовершенствовать модель в рамках тестирования.
Также компания создает инструменты, помогающие обнаруживать вводящий в заблуждение контент, например классификатор, который может определить, что видео сгенерировано Sora.
Помимо разработки новых методов для безопасного и этичного использования модели, OpenAI применяет и некоторые существующие — те, что внедрены в DALL·E 3. Так, классификатор текста будет проверять и отклонять запросы, связанные с насилием, сексом, разжиганием ненависти, изображением знаменитостей и пр. Кроме того, в компании разработали классификаторы изображений для проверки кадров каждого созданного видео прежде, чем оно будет показано пользователю.
Sora построена на архитектуре трансформера и является диффузионной моделью, которая начинает генерировать видео со статического шума и постепенно удаляет его на последующих шагах преобразования ролика.
Напомним, ранее в этом году компания Google представила Lumiere — генератор видео в высоком качестве.
Текст: Майя Цветкова
Источник, изображения: OpenAI
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!