ШІ навчили перетворювати текст на зображення в реальному часі

Компанія Stability AI запустила модель синтезу зі штучним інтелектом, яка неймовірно швидко генерує зображення на основі текстових підказок. Про це повідомляється на сайті Stability.

Основна інновація SDXL Turbo полягає в тому, що для створення зображення потрібно виконати мінімум кроків, і результат буде готовий за мінімум часу. Stability стверджує, що на потужному графічному процесорі Nvidia A100 її модель може генерувати зображення розміром 512х512 пікселів за 207 мілісекунд.

Також Stability заявляє, що SDXL Turbo «дозволяє генерувати зображення за один крок із безпрецедентною якістю, зменшуючи необхідну кількість кроків із 50 до всього одного». Однак видання Ars Technica зазначає, що одним кроком все ж таки не обійтися. Зображення SDXL Turbo не такі деталізовані, як зображення попередньої версії моделі SDXL, деталізація покращується приблизно через 3-5 кроків.

Журналістам вдалося за допомогою SDXL Turbo створити зображення розміром 1024х1024 приблизно за три кроки, і це зайняло всього 4 секунди. SDXL генерує схоже 20-крокове зображення за 26,4 секунди. Зображення меншого розміру створили набагато швидше (менше секунди для створення зображення розміром 512×768).

Компанія пояснює такий стрибок ефективності застосуванням технології дистиляції дифузії змагань (ADD). ADD передбачає, що модель вивчає існуючі моделі синтезу зображень з метою покращити реалістичність результату.

Наразі Stability AI пропонує бета-версію демонстрації можливостей SDXL Turbo на своїй платформі для редагування зображень Clipdrop. SDXL Turbo доступний за ліцензією на некомерційні дослідження. Тож його використання поки що можливе лише в особистих некомерційних цілях.

This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.