Генератор речи от Google имитирует естественный человеческий голос

В Google разработали генератор речи, который воспроизводит текст голосом, неотличимым от человеческого. Функционал программы, названной Tacotron 2, реализован с помощью двух нейронных сетей. Один алгоритм...

В Google разработали генератор речи, который воспроизводит текст голосом, неотличимым от человеческого.

Функционал программы, названной Tacotron 2, реализован с помощью двух нейронных сетей. Один алгоритм предназначен для генерации спектрограммы на основе предоставленного текста. Второй компонент под названием WaveNet непосредственно отвечает за синтез звука.

Как и живой человек, Tacotron меняет интонацию в зависимости от пунктуации, способен выделить слова, начинающиеся с большой буквы или целиком написанные в верхнем регистре. Пока что Tacotron 2 способен говорить, используя лишь один вариант женского голоса.

Если в предложении встречается запятая, Tacotron 2 сделает соответствующую паузу:

This is your personal assistant, Google Home.

This is your personal assistant Google Home.

Также алгоритм способен распознавать текст, написанный с грубыми орфографическими ошибками:

Thisss isrealy awhsome.

Вероятно, компания в скором времени внедрит разработку в свои продукты, и такие девайсы, как умная колонка Google Home или обычные смартфоны на Android, будут общаться со своими владельцами естественной для человеческого уха речью.

Конкуренцию Google может составить стартап из Канады Lyrebird. Алгоритмы, разработанные программистами Lyrebird, позволяют синтезировать голос любого человека: достаточно иметь запись голоса длиной около минуты, и нейросеть научится его копировать. Разработчики заявляют, что алгоритм может не только скопировать голос человека, но и окрасить его эмоционально.

Свои алгоритмы глубокого обучения разрабатывают многие IT-компании. Например, NVIDIA обучила нейросеть создавать фейковые видео на основе реальных. На глаз подделку отличить очень сложно.

Подобные алгоритмы в скором времени могут создать серьезные проблемы, так как позволят производить фейковые видео- и аудиозаписи с участием известных людей, а отличить их от настоящих будет все сложнее. Вероятно, на помощь придут те же нейросети, но обученные распознавать поддельный контент.