Sora от OpenAI представляет новый ИИ для преобразования текста в видео: он потрясающе мощный

В конце прошлой недели OpenAI анонсировала новую генеративную систему искусственного интеллекта под названием Sora, которая создает короткие видеоролики из текстовых подсказок. Хотя Sora еще не доступна для широкой публики, высокое качество опубликованных примеров результатов вызвало как восторженную, так и обеспокоенную реакцию.

Примеры видеороликов, опубликованные OpenAI, которые, по словам компании, были созданы непосредственно Сора без изменений, покажите результаты таких подсказок, как «фотореалистичное видео крупным планом двух пиратских кораблей, сражающихся друг с другом, когда они плывут в чашке кофе» и «исторические кадры Калифорнии во время золотой лихорадки».

Сначала с первого взгляда часто трудно сказать, что они созданы искусственным интеллектом, из-за высокого качества видео, текстур, динамики сцен, движений камеры и хорошего уровня согласованности.

Генеральный директор OpenAI Сэм Альтман также разместил в X (ранее Twitter) несколько видеороликов, созданных в ответ на запросы пользователей, чтобы продемонстрировать возможности Соры.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Сэм Альтман (@sama), 15 февраля 2024 г.

Как работает Sora?

Sora сочетает в себе функции инструментов генерации текста и изображений в так называемой «модели диффузионного преобразователя».

Трансформаторы – это тип нейронной сети, впервые представленный Google в 2017 году. Они наиболее известны благодаря использованию в больших языковых моделях, таких как ChatGPT и Google Gemini.

С другой стороны, диффузионные модели являются основой. многих генераторов изображений AI. Они работают, начиная со случайного шума и итерируясь к «чистому» изображению, соответствующему запросу ввода.

Модели диффузии ( в данном случае Stable Diffusion) генерируют изображения из шума в течение многих итераций.
(Stable Diffusion/Benlisquare/Wikimedia, CC BY-SA)

Из последовательности таких изображений можно сделать видео. Однако в видео очень важны согласованность и согласованность между кадрами.

Sora использует архитектуру преобразователя для управления тем, как кадры связаны друг с другом. Хотя преобразователи изначально были разработаны для поиска шаблонов в токенах, представляющих текст, Сора вместо этого использует токены, представляющие небольшие участки пространства и времени.

Лидер среди всех

Сора не первый человек, отправляющий текстовые сообщения. -видеомодель. Более ранние модели включают Emu от Meta, Gen-2 от Runway, Stable Video Diffusion от Stability AI и недавнюю Lumiere от Google.

Lumiere, выпущенный всего несколько недель назад, утверждает, что создает лучшее видео, чем его предшественники. . Но Сора, по крайней мере, в некоторых отношениях более мощная, чем Люмьер.

Сора может создавать видео с разрешением до 1920 × 1080 пикселей и с различными соотношениями сторон, в то время как Люмьер ограничен 512×512 пикселей. Видео Люмьера длится около 5 секунд, а Сора — до 60 секунд.

Люмьер не может создавать видеоролики, состоящие из нескольких кадров, а Сора — может. Сообщается, что Сора, как и другие модели, также способна выполнять задачи редактирования видео, такие как создание видео из изображений или других видео, объединение элементов из разных видео и продление видео во времени.

Обе модели создают в целом реалистичные видеоролики. , но может страдать галлюцинациями. Видео Люмьера легче распознать как созданные искусственным интеллектом. Видео Соры выглядят более динамично, в них больше взаимодействия между элементами.

Однако во многих примерах видео несоответствия становятся очевидными при внимательном рассмотрении.

Перспективные применения

Видеоконтент в настоящее время создается либо путем съемки реального мира, либо с использованием спецэффектов, что может быть дорогостоящим и отнимать много времени. Если Sora станет доступной по разумной цене, люди смогут начать использовать ее в качестве программного обеспечения для прототипирования и визуализации идей с гораздо меньшими затратами.

Исходя из того, что мы знаем о возможностях Sora, ее можно будет использовать даже для создания коротких видео для некоторых приложений в сфере развлечений, рекламы и образования.

Технический документ OpenAI о Sora называется «Модели генерации видео как симуляторы мира». В документе утверждается, что более крупные версии видеогенераторов, таких как Sora, могут быть «способными имитировать физический и цифровой мир, а также объекты, животных и людей, которые в них живут».

«гигантский собор полностью заполнен кошками. Кошки повсюду, куда ни глянь. Мужчина входит в собор и кланяется гигантскому кошачьему королю, восседающему на троне».
Видео создано Сорой. pic.twitter.com/bkNqCnckUo
— Билл Пиблз (@billpeeb), 17 февраля 2024 г.

Если это верно, в будущих версиях могут быть научные приложения для физических, химические и даже социальные эксперименты. Например, можно было бы протестировать воздействие цунами разного размера на различные виды инфраструктуры, а также на физическое и психическое здоровье людей, находящихся поблизости.

Достижение такого уровня моделирования является весьма сложной задачей. и некоторые эксперты говорят, что такая система, как Сора, принципиально не способна на это.

Полный симулятор должен будет рассчитывать физические и химические реакции на самых детальных уровнях Вселенной. Однако грубое моделирование окружающего мира и создание реалистичных видео для человеческого глаза могут стать достижимыми в ближайшие годы.

Риски и этические проблемы

Основные опасения, связанные с такими инструментами, как Sora вращаются вокруг их социального и этического воздействия. В мире, уже охваченном дезинформацией, такие инструменты, как Sora, могут усугубить ситуацию.

Легко понять, как способность создавать реалистичное видео любой сцены, которую вы можете описать, может быть использована для распространения убедительных фейковых новостей или сомневаюсь в реальных кадрах. Это может поставить под угрозу меры общественного здравоохранения, быть использовано для влияния на выборы или даже обременить систему правосудия потенциально фальшивыми доказательствами.

Генераторы видео также могут создавать прямые угрозы целевым лицам с помощью дипфейков, особенно порнографических. Это может иметь ужасные последствия для жизни пострадавших людей и их семей.

Помимо этих проблем, существуют также вопросы авторского права и интеллектуальной собственности. Инструменты генеративного искусственного интеллекта требуют огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись данные обучения Sora.

По этой причине критике также подвергались большие языковые модели и генераторы изображений. В США группа известных авторов подала в суд на OpenAI из-за возможного неправомерного использования их материалов. В деле утверждается, что крупные языковые модели и компании, которые их используют, крадут работу авторов для создания нового контента.

Это не первый случай за последнее время, когда технологии опережают закон. Например, вопрос об обязанностях платформ социальных сетей по модерации контента за последние пару лет вызвал горячие споры, большая часть которых вращается вокруг раздела 230 Кодекса США.

Хотя эти опасения реальны. , исходя из прошлого опыта, мы не ожидаем, что они остановят разработку технологии генерации видео.

OpenAI заявляет, что «предпринимает несколько важных мер безопасности», прежде чем сделать Sora общедоступной, включая работу с экспертами. в «дезинформации, разжигающем ненависть контенте и предвзятости» и «создании инструментов для обнаружения вводящего в заблуждение контента».

Вахид Пуриусеф, кандидат наук в области взаимодействия человека с компьютером, Университет Монаша и Лонни Безансон, Доцент кафедры визуализации данных, Университет Линчёпинга

Эта статья перепечатана из The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.