Компанія OpenAI, яка створила ChatGPT і Dall-e, представила нову нейромережу Sora, яка може за текстовим запитом створювати “реалістичні” і “креативні” ролики. Це може змінити підхід до створення візуального контенту.
Sora дає змогу створювати відеозаписи тривалістю до 60 секунд, водночас підтримуючи високу якість зображення і точно дотримуючись вказівок користувача. Основне завдання проєкту полягає в навчанні штучного інтелекту розумінню та імітації фізичного світу в русі.
Prompt: “Стильна жінка йде по вулиці Токіо, заповненій теплим сяйвом неона й анімаційною міською вивіскою. На ній чорна шкіряна куртка, довга червона сукня, чорні черевики, в руках чорна сумочка. носить сонцезахисні окуляри та червону помаду. вона ходить впевнено і невимушено…. pic.twitter.com/cjIdgYFaWq
– OpenAI (@OpenAI) 15 лютого 2024
Текстовий запит у Sora для створення ролика вище: “Стильна жінка йде вулицею Токіо, сповненою теплим світлом неонових і анімованих вивісок. Вона одягнена в чорну шкіряну куртку, довгу червону сукню, чорні черевики. На ній сонцезахисні окуляри та червона помада. Вона йде впевнено і невимушено. Вулиця волога і відбиває світло. Багато пішоходів навколо”.
Інші приклади запитів, за якими Sora вже здатна генерувати відео, включають як реалістичні сцени з людьми і тваринами, так і очевидно фантастичні, наприклад, з мамонтами, що бродять сніговим полем, або з китами, що пливуть повітрям серед будівель.
Наразі доступ до моделі надано експертам з інформаційної безпеки для оцінки потенційних загроз і ризиків, а також художникам і дизайнерам для отримання зворотного зв’язку та подальшого вдосконалення моделі.
OpenAI акцентує увагу на питаннях безпеки й етики використання Sora і розробляє інструменти для виявлення фейкового контенту, зокрема класифікатор для визначення відео, створених за допомогою ШІ. У разі інтеграції моделі в продукти OpenAI, планується використання метаданих C2PA для поліпшення прозорості походження контенту.
З технічного погляду модель Sora є поєднанням GPT і дифузійної моделі, що генерує відео. Остання починає з випадкового шуму і поступово прибирає його в ході безлічі кроків. Такий підхід дає змогу моделі зберігати послідовність зображення об’єктів, навіть якщо вони тимчасово виходять із поля зору “камери”.
OpenAI, у рамках проєкту Sora, прагне продемонструвати потенціал розвитку штучного інтелекту та можливості, які з’являться на горизонті в найближчому майбутньому. Технічна доповідь щодо Sora буде опублікована пізніше.
Prompt: “Анімована сцена містить крупний план короткого пухнастого монстра, що стоїть на колінах поруч із плавильною червоною свічкою. художній стиль – це 3D та реалістичний стиль, з фокусом на освітленість та текстуру. настрій картини – один із дивовижних і цікавих, оскільки монстр дивиться на полум’я з… pic.twitter.com/aLMgJPI0y6
– OpenAI (@OpenAI) February 15, 2024