Программа Tacotron 2 от Google способна синтезировать речь, максимально приближенную к человеческой. Система основана на работе рекуррентных нейросетей, говорится в препринте на arXiv.org.

В отличие от других систем синтеза речи, алгоритм Tacotron 2 представляет звуковую информацию в виде спектрограмм — визуализированной взаимосвязи частоты и времени. Эту операцию выполняет первая нейросеть, тогда как вторая нейросеть синтезирует на основе спектрограмм речь, пользуясь алгоритмами WaveNet.

Tacotron 2 распознаёт не только слова и звуки, но также интонацию и знаки препинания. Так, она может различить разные формы глагола или определить, выполняет ли слово роль глагола или существительного.

Речь, сгенерированная программой, меняется в зависимости от пунктуации. Интонацией может быть выделено слово, написанное с заглавной буквы.

Разработчики предложили восьми добровольцам оценить звуковые образцы и сравнить их с фрагментами человеческой речи. Произношение фраз нужно было оценить по пятибалльной шкале, где максимальному значению соответствует произношение человека.

В среднем записи Tacotron2 получили 4,53 балла, а фразы, сказанные человеком — 4,58 балла. Предыдущая версия программы — Tacotron — набрала в среднем 4,0 балла.

Программисты утверждают, что создали наиболее совершенный на сегодняшний день инструмент для синтеза человеческой речи, который можно внедрить в функции голосовых помощников. Говорить Tacotron2 пока может только женским голосом.

Читайте также: Разработчики создали алгоритм, способный подделывать видео