Нейросеть синтезировала фейковое видео Обамы, используя только звук

Ученые из Вашингтонского Университета обучили нейросеть, которая создает реалистичную видео копию Обамы, используя звуковую дорожку.
Взяв кусок звука из речи, ученые синтезировали видео высокого качества, в котором он разговаривает с идеально подставленными губами.
Нейросеть была обучена на многочасовых видео с выступлений Обамы. Система научилась определять положение и мимику губ при каждом конкретном звуке и создавать видео губ по звуку. Потом эти кадры соединялись в одно изображение. Для более реалистичного эффекта, система анализировали положение и повороты головы и то, как ведет себя челюсть в разговоре и тд.

На сегодняшний день, это максимально реалистичная копия синхронизация губ. О том как происходил процесс вы можете посмотреть в видео:

Не смотря на всю крутость технологии, у нее есть небольшие неточности. Иногда у экс-президента Америки появляется второй подбородок и звук “th” выглядит не очень естественно. Но дальнейшие улучшения системы призваны устранить эти проблемы.

Поделиться:

Про автора

Юра Фреш

Издатель Сей-Хай.

comments powered by HyperComments

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: