Искусственный интеллект учиться распознаванию и воспроизведению законов физического мира в динамике, что способствует формированию тренировочных моделей. Эти модели становятся незаменимым инструментом для решения задач, связанных с взаимодействием в реальных условиях.
Представляем Sora, новая модель преобразования текста в видео. Sora может создавать видеоролики продолжительностью до минуты, сохраняя при этом визуальное качество и соответствие подсказкам пользователя.
Sora способна создавать сложные сцены с множеством персонажей, специфическими типами движения и точными деталями объекта и фона. Модель понимает не только то, что пользователь запросил в подсказке, но и то, как эти вещи существуют в физическом мире.
Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать подсказки и создавать привлекательных персонажей, выражающих яркие эмоции. Sora также может создавать несколько кадров в рамках одного сгенерированного видео, которые точно передают персонажей и визуальный стиль.
Текущая модель имеет слабые места. Она может испытывать трудности с точным моделированием физики сложной сцены и может не понимать конкретных причинно-следственных связей. Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса.
Модель также может путать пространственные детали подсказки, например, путать левое и правое, и может испытывать трудности с точным описанием событий, которые происходят с течением времени, например, следование определенной траектории камеры.
Прежде чем сделать Sora доступной в продуктах OpenAI, будут предприняты несколько важных шагов по обеспечению безопасности. С red teamers — экспертами в таких областях, как дезинформация, ненавистнический контент и предвзятость, — будет проводиться состязательное тестирование модели.
Также разрабатываются инструменты, помогающие обнаруживать вводящий в заблуждение контент, такие как классификатор обнаружения, который может определить, когда видео было сгенерировано Sora. Планируется включить метаданные C2PA в будущем, если модель будет внедрена в продукт OpenAI.
В дополнение к разработке новых методов подготовки к развертыванию, используются существующие методы обеспечения безопасности, разработанные для продуктов, использующих DALL·E 3, которые также применимы к Sora.
Например, оказавшись в продукте OpenAI, текстовый классификатор проверит и отклонит текстовые запросы, которые нарушают правила использования, например, те, которые запрашивают экстремальное насилие, сексуальный контент, изображения, вызывающие ненависть, сходство со знаменитостями или IP других лиц. Также разработаны надежные классификаторы изображений, которые используются для просмотра кадров каждого сгенерированного видео, чтобы убедиться, что оно соответствует правилам использования, прежде чем оно будет показано пользователю.
Будут привлечены политики, педагоги и деятели искусства по всему миру, чтобы понять их проблемы и выявить положительные примеры использования этой новой технологии. Несмотря на обширные исследования и тестирование, нельзя предсказать все полезные способы использования этой технологии людьми или все способы, которыми люди могут злоупотреблять ею. Поэтому обучение на основе реального использования считается важнейшим компонентом создания и выпуска со временем все более безопасных систем искусственного интеллекта.
Sora - это диффузионная модель, которая генерирует видео, начиная с видео, которое выглядит как статический шум, и постепенно преобразует его, удаляя шум на протяжении многих этапов.
Sora способна генерировать целые видео сразу или расширять сгенерированные видео, чтобы сделать их длиннее. Предоставляя модели возможность предвидеть множество кадров одновременно, мы решили сложную проблему обеспечения того, чтобы объект оставался неизменным, даже когда он временно исчезает из поля зрения.
Как и в моделях GPT, в Sora используется архитектура transformer, обеспечивающая превосходную производительность масштабирования.
Sora опирается на прошлые исследования в моделях DALL·E и GPT. В нем используется метод рекапитализации из DALL·E 3, который включает в себя создание высокоинформативных подписей для визуальных обучающих данных. В результате модель может более точно следовать текстовым инструкциям пользователя в сгенерированном видео.
В дополнение к возможности создавать видео исключительно на основе текстовых инструкций, модель способна взять существующее неподвижное изображение и сгенерировать из него видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или заполнить недостающие кадры. Узнайте больше в нашем техническом отчете.
Sora служит основой для моделей, которые могут понимать и имитировать реальный мир, что, по нашему мнению, станет важной вехой в достижении AGI.