Новая нейросеть позволяет редактировать речь диктора

Компания Adobe Research, в сотрудничестве с учеными из Стэнфорда и Института Макса Планка, разработала программу, позволяющую изменять речь записанного на видео человека. Разработка позволит сократить издержки на запись видеосюжетов.

Неудачные дубли — серьезный бич кинематографа и информационных агентств, ведь работа операторов и других членов съемочной группы стоит денег, не говоря уже о впустую потраченном времени. Новая нейросеть от Adobe Research позволит отредактировать речь диктора или актера, тем самым сократив вышеупомянутые издержки.

Чтобы искусственный интеллект успешно исправил ошибки диктора, ему требуется не менее 40 минут видео с ним. Это нужно для того, чтобы нейросеть изучила мимику говорящего, сопоставила его движения со словами и произвела прочие вычислительные процессы. Затем программа генерирует последовательность жестов уже под новый текст, создает необходимые текстуры и накладывает их на видеозапись.

Это стало возможным благодаря технологии машинного обучения Neural Rendering, которая работает с фотореалистичными изображениями. Звуком занимается модуль Voco или аналогичный сервис.

Создатели технологии верят, что она послужит на благо людям, хотя и не исключают возможность ее применения для ведения информационных войн и создания газетных уток и компромата на известных людей.