Скоро художники аниме останутся без работы

Японское аниме – это возможность для взрослых людей смотреть мультфильмы. Миллионы людей наслаждаются его эстетикой, а потому идеи об аниме в реально жизни возникают достаточно давно. Теперь эти задумки стали реальными.

Исследователи Университета Цинхуа и Университета Кардиффа представили CartoonGAN. Эта технология основана на искусственном интеллекте и имитирует стили японского маэстри-аниме из фотографий пейзажей.

Эстетика аниме отличается от привычной, а потому перенос пейзажей в эту стилистику вручную – кропотливое и затратное занятие. Для получения достоверных копий сцены художники кропотливо вырисовывают линии и оттеняют цвета вручную.

Настоящий поезд (слева) и его копия в мультипликационном стиле (справа)

Между тем, существующие методы преобразования, основанные на нефотореалистичном рендеринге (NPR) или сверточных нейронных сетях (CNN), также либо трудоемки, либо непрактичны, так как для обучения модели требуются парные изображения. Более того, эти методы не дают удовлетворительных результатов мультипликации, так как:

различные стили мультфильмов имеют уникальные характеристики;
изображения мультфильмов, как правило, имеют четкие края, плавное затенение и относительно простые текстуры, что создает проблемы для функции распознания в этих методах.

CartoonGAN – это нейросеть, состоящая из двух CNN, которая позволяет переносить стиль между двумя непарными наборами данных. Генератор преобразовывает исходные изображения в соответствии с мультипликационным видом. Дискриминатор определяет, соответствует ли изображение заданному или является подделкой.

Чтобы избежать медленной конвергенции и получить высококачественную стилизацию, в эту архитектуру интегрированы сразу несколько функций проверки. Потеря контента определяется с помощью разреженной регуляризации ℓ1 (вместо нормы ℓ2) между входной фотографией и созданным изображением.

Пример стилизации Макото Синкая показывает важность каждого компонента в CartoonGAN: фаза инициализации выполняет быструю конвергенцию, чтобы воссоздать структуру целевого изображения; регуляризация работает с различием стилей аниме и реальных фото, сохраняя при этом исходное содержание; коллизионная функция создает четкие углы.

Для обучения модели используются как реальные фотографии, так и мультипликационные изображения (всего 14 704). Однако для проверки использовались только реальные фото – исследователи использовали работы от популярных аниме-художников.

Кроме того, полученную нейросеть решили сравнить с уже имеющимися аналогами – CycleGAN и Gatys. Полученные результаты можно увидеть на картинке ниже.

CartoonGAN более успешно воспроизводит четкие края и плавное затенение, в то же время точно сохраняя исходное содержание фотографии. Кроме того, алгоритм справляется с задачей гораздо быстрее – за 27 минут.

Авторы статьи утверждают, что в своих будущих исследованиях они сосредоточатся на улучшении стилизации мультипликационных портретов. Команда также планирует перенести метод CartoonGan на стилизацию видео.

Подробнее с работой исследователей можно познакомиться вот здесь.