Генератор речи от Google имитирует естественный человеческий голос - Hitecher
Генератор речи от Google имитирует естественный человеческий голос

Генератор речи от Google имитирует естественный человеческий голос

В Google разработали генератор речи, который воспроизводит текст голосом, неотличимым от человеческого. Функционал программы, названной Tacotron 2, реализован с помощью двух нейронных сетей. Один алгоритм...

В Google разработали генератор речи, который воспроизводит текст голосом, неотличимым от человеческого. Функционал программы, названной Tacotron 2, реализован с помощью двух нейронных сетей. Один алгоритм...

В Google разработали генератор речи, который воспроизводит текст голосом, неотличимым от человеческого.

Функционал программы, названной Tacotron 2, реализован с помощью двух нейронных сетей. Один алгоритм предназначен для генерации спектрограммы на основе предоставленного текста. Второй компонент под названием WaveNet непосредственно отвечает за синтез звука.

Как и живой человек, Tacotron меняет интонацию в зависимости от пунктуации, способен выделить слова, начинающиеся с большой буквы или целиком написанные в верхнем регистре. Пока что Tacotron 2 способен говорить, используя лишь один вариант женского голоса.

Если в предложении встречается запятая, Tacotron 2 сделает соответствующую паузу:

This is your personal assistant, Google Home.

This is your personal assistant Google Home.

Также алгоритм способен распознавать текст, написанный с грубыми орфографическими ошибками:

Thisss isrealy awhsome.

Вероятно, компания в скором времени внедрит разработку в свои продукты, и такие девайсы, как умная колонка Google Home или обычные смартфоны на Android, будут общаться со своими владельцами естественной для человеческого уха речью.

Конкуренцию Google может составить стартап из Канады Lyrebird. Алгоритмы, разработанные программистами Lyrebird, позволяют синтезировать голос любого человека: достаточно иметь запись голоса длиной около минуты, и нейросеть научится его копировать. Разработчики заявляют, что алгоритм может не только скопировать голос человека, но и окрасить его эмоционально.

Свои алгоритмы глубокого обучения разрабатывают многие IT-компании. Например, NVIDIA обучила нейросеть создавать фейковые видео на основе реальных. На глаз подделку отличить очень сложно.

Подобные алгоритмы в скором времени могут создать серьезные проблемы, так как позволят производить фейковые видео- и аудиозаписи с участием известных людей, а отличить их от настоящих будет все сложнее. Вероятно, на помощь придут те же нейросети, но обученные распознавать поддельный контент.

Поделитесь этим с друзьями!

Evan Mcbride

Evan Mcbride

Штатный журналист HiTecher и фанат всего, что связано с высокими технологиями и наукой. Среди его материалов: новости из мира гаджетов, статьи о важных фундаментальных открытиях, а также разборы проблем современного бизнеса. На HiTecher у Эвана есть авторская колонка.

Все посты Evan Mcbride

Будьте первым, кто оставит комментарий