Ученые из Вашингтонского Университета обучили нейросеть, которая создает реалистичную видео копию Обамы, используя звуковую дорожку.
Взяв кусок звука из речи, ученые синтезировали видео высокого качества, в котором он разговаривает с идеально подставленными губами.
Нейросеть была обучена на многочасовых видео с выступлений Обамы. Система научилась определять положение и мимику губ при каждом конкретном звуке и создавать видео губ по звуку. Потом эти кадры соединялись в одно изображение. Для более реалистичного эффекта, система анализировали положение и повороты головы и то, как ведет себя челюсть в разговоре и тд.
На сегодняшний день, это максимально реалистичная копия синхронизация губ. О том как происходил процесс вы можете посмотреть в видео:
Не смотря на всю крутость технологии, у нее есть небольшие неточности. Иногда у экс-президента Америки появляется второй подбородок и звук “th” выглядит не очень естественно. Но дальнейшие улучшения системы призваны устранить эти проблемы.