RW Space

Категории: Новости

Sora от OpenAI представляет новый ИИ для преобразования текста в видео: он потрясающе мощный

В конце прошлой недели OpenAI анонсировала новую генеративную систему искусственного интеллекта под названием Sora, которая создает короткие видеоролики из текстовых подсказок. Хотя Sora еще не доступна для широкой публики, высокое качество опубликованных примеров результатов вызвало как восторженную, так и обеспокоенную реакцию.

Примеры видеороликов, опубликованные OpenAI, которые, по словам компании, были созданы непосредственно Сора без изменений, покажите результаты таких подсказок, как «фотореалистичное видео крупным планом двух пиратских кораблей, сражающихся друг с другом, когда они плывут в чашке кофе» и «исторические кадры Калифорнии во время золотой лихорадки».

Сначала с первого взгляда часто трудно сказать, что они созданы искусственным интеллектом, из-за высокого качества видео, текстур, динамики сцен, движений камеры и хорошего уровня согласованности.

Генеральный директор OpenAI Сэм Альтман также разместил в X (ранее Twitter) несколько видеороликов, созданных в ответ на запросы пользователей, чтобы продемонстрировать возможности Соры.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw

— Сэм Альтман (@sama), 15 февраля 2024 г.

Как работает Sora?

Sora сочетает в себе функции инструментов генерации текста и изображений в так называемой «модели диффузионного преобразователя».

Трансформаторы – это тип нейронной сети, впервые представленный Google в 2017 году. Они наиболее известны благодаря использованию в больших языковых моделях, таких как ChatGPT и Google Gemini.

С другой стороны, диффузионные модели являются основой. многих генераторов изображений AI. Они работают, начиная со случайного шума и итерируясь к «чистому» изображению, соответствующему запросу ввода.

Модели диффузии ( в данном случае Stable Diffusion) генерируют изображения из шума в течение многих итераций.
(Stable Diffusion/Benlisquare/Wikimedia, CC BY-SA)

Из последовательности таких изображений можно сделать видео. Однако в видео очень важны согласованность и согласованность между кадрами.

Sora использует архитектуру преобразователя для управления тем, как кадры связаны друг с другом. Хотя преобразователи изначально были разработаны для поиска шаблонов в токенах, представляющих текст, Сора вместо этого использует токены, представляющие небольшие участки пространства и времени.

Лидер среди всех

Сора не первый человек, отправляющий текстовые сообщения. -видеомодель. Более ранние модели включают Emu от Meta, Gen-2 от Runway, Stable Video Diffusion от Stability AI и недавнюю Lumiere от Google.

Lumiere, выпущенный всего несколько недель назад, утверждает, что создает лучшее видео, чем его предшественники. . Но Сора, по крайней мере, в некоторых отношениях более мощная, чем Люмьер.

Сора может создавать видео с разрешением до 1920 × 1080 пикселей и с различными соотношениями сторон, в то время как Люмьер ограничен 512×512 пикселей. Видео Люмьера длится около 5 секунд, а Сора — до 60 секунд.

Люмьер не может создавать видеоролики, состоящие из нескольких кадров, а Сора — может. Сообщается, что Сора, как и другие модели, также способна выполнять задачи редактирования видео, такие как создание видео из изображений или других видео, объединение элементов из разных видео и продление видео во времени.

Обе модели создают в целом реалистичные видеоролики. , но может страдать галлюцинациями. Видео Люмьера легче распознать как созданные искусственным интеллектом. Видео Соры выглядят более динамично, в них больше взаимодействия между элементами.

Однако во многих примерах видео несоответствия становятся очевидными при внимательном рассмотрении.

Перспективные применения

Видеоконтент в настоящее время создается либо путем съемки реального мира, либо с использованием спецэффектов, что может быть дорогостоящим и отнимать много времени. Если Sora станет доступной по разумной цене, люди смогут начать использовать ее в качестве программного обеспечения для прототипирования и визуализации идей с гораздо меньшими затратами.

Исходя из того, что мы знаем о возможностях Sora, ее можно будет использовать даже для создания коротких видео для некоторых приложений в сфере развлечений, рекламы и образования.

Технический документ OpenAI о Sora называется «Модели генерации видео как симуляторы мира». В документе утверждается, что более крупные версии видеогенераторов, таких как Sora, могут быть «способными имитировать физический и цифровой мир, а также объекты, животных и людей, которые в них живут».

«гигантский собор полностью заполнен кошками. Кошки повсюду, куда ни глянь. Мужчина входит в собор и кланяется гигантскому кошачьему королю, восседающему на троне».

Видео создано Сорой. pic.twitter.com/bkNqCnckUo

— Билл Пиблз (@billpeeb), 17 февраля 2024 г.

Если это верно, в будущих версиях могут быть научные приложения для физических, химические и даже социальные эксперименты. Например, можно было бы протестировать воздействие цунами разного размера на различные виды инфраструктуры, а также на физическое и психическое здоровье людей, находящихся поблизости.

Достижение такого уровня моделирования является весьма сложной задачей. и некоторые эксперты говорят, что такая система, как Сора, принципиально не способна на это.

Полный симулятор должен будет рассчитывать физические и химические реакции на самых детальных уровнях Вселенной. Однако грубое моделирование окружающего мира и создание реалистичных видео для человеческого глаза могут стать достижимыми в ближайшие годы.

Риски и этические проблемы

Основные опасения, связанные с такими инструментами, как Sora вращаются вокруг их социального и этического воздействия. В мире, уже охваченном дезинформацией, такие инструменты, как Sora, могут усугубить ситуацию.

Легко понять, как способность создавать реалистичное видео любой сцены, которую вы можете описать, может быть использована для распространения убедительных фейковых новостей или сомневаюсь в реальных кадрах. Это может поставить под угрозу меры общественного здравоохранения, быть использовано для влияния на выборы или даже обременить систему правосудия потенциально фальшивыми доказательствами.

Генераторы видео также могут создавать прямые угрозы целевым лицам с помощью дипфейков, особенно порнографических. Это может иметь ужасные последствия для жизни пострадавших людей и их семей.

Помимо этих проблем, существуют также вопросы авторского права и интеллектуальной собственности. Инструменты генеративного искусственного интеллекта требуют огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись данные обучения Sora.

По этой причине критике также подвергались большие языковые модели и генераторы изображений. В США группа известных авторов подала в суд на OpenAI из-за возможного неправомерного использования их материалов. В деле утверждается, что крупные языковые модели и компании, которые их используют, крадут работу авторов для создания нового контента.

Это не первый случай за последнее время, когда технологии опережают закон. Например, вопрос об обязанностях платформ социальных сетей по модерации контента за последние пару лет вызвал горячие споры, большая часть которых вращается вокруг раздела 230 Кодекса США.

Хотя эти опасения реальны. , исходя из прошлого опыта, мы не ожидаем, что они остановят разработку технологии генерации видео.

OpenAI заявляет, что «предпринимает несколько важных мер безопасности», прежде чем сделать Sora общедоступной, включая работу с экспертами. в «дезинформации, разжигающем ненависть контенте и предвзятости» и «создании инструментов для обнаружения вводящего в заблуждение контента».

Вахид Пуриусеф, кандидат наук в области взаимодействия человека с компьютером, Университет Монаша и Лонни Безансон, Доцент кафедры визуализации данных, Университет Линчёпинга

Эта статья перепечатана из The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.

Виктория Ветрова

Космос полон тайн...

Следующий Космос может представлять неожиданную угрозу для нашего кишечного микробиома, обнаружили ученые »

Предыдущий « Выплески тепла похожи на причудливые волны «второго звука» в сверхтекучих средах

Оставить комментарий

Опубликовано

Виктория Ветрова

21.02.2024 08:00

Недавние Посты

Новости

НАСА закрывает еще одну часть «Вояджера-1», чтобы продлить его межзвездную миссию

Самый дальний от Земли космический корабль, зонд "Вояджер-1", только что отключил другой прибор.Причина этого отключения…

28.04.2026

Новости

Ученым нужна ваша помощь, чтобы найти галактики, искажающие свет в космосе

Представьте, что вы подносите бокал вина к свече (конечно, мне пришлось налить стакан, чтобы попробовать…

27.04.2026

Новости

Физики смоделировали квантовый процесс, который может положить конец Вселенной

Хотя наша Вселенная кажется стабильной, возможно, она просто находится во временном состоянии ложного спокойствия, которое…

26.04.2026

Новости

Ученые открыли удивительное новое применение остатков кофе

Ученые из Южной Кореи нашли новое умное применение старой кофейной гуще: изоляция.Команда из Национального университета…

25.04.2026

Новости

Ученые проследили чрезвычайно холодное происхождение межзвездной кометы 3I/ATLAS

Мыс КАНАВЕРАЛ, штат Флорида (AP) – Комета , пронесшаяся мимо нас от другой звезды в…

24.04.2026

Новости

Ученые создали робота, который может победить элитных игроков в настольный теннис

Настольный теннис – один из самых требующих навыков видов спорта на планете. Сегодня инженеры создали робота,…

23.04.2026