Ученые из Вашингтонского университета создали довольно реалистичное видео с виртуальной речью бывшего президента США Барака Обамы. Для создания ролика они использовали технологии синхронизации губ и нейросети.
Нейронная сеть училась просматривать видеоролики с разговорами людей и конвертировать аудиофайлы к губам реалистичной формы. Затем их совмещали с головой человека из другого видео и объединяли в единое целое.
Через алгоритм пропустили видео с обращением Обамы к американцам. В результате программа воспроизвела мимику губ, наклоны головы и даже складки на подбородке экс-президента в новом видео. В результате на обработанном ролике его губами произносились совсем другие слова (на видео — справа).
«Когда вы смотрите на Skype или Google Hangouts, часто связь идет с остановкой и низким разрешением, что действительно неприятно, но часто звук очень хороший. Поэтому, если бы вы могли использовать звук для создания видео гораздо высшего качества, это было бы потрясающе», — объяснил один из соавторов проекта Стив Сейтс.
В дальнейшем алгоритмы смогут распознавать голосовые и речевые особенности человека, используя лишь час видео, а не 14 часов, как в случае с «клоном Обамы», обещают исследователи.