Инженеры Google разработали новый синтезатор речи, который способен говорить неотличимым от живого человека голосом. Он разработан на основе двух нейросетей и получил название Tacotron 2.
Программа представляет собой две взаимосвязанные нейросети глубокого обучения. Печатная версия конвертируется в специальную Tacotron-спектрограмму, в которой распределяются ритм и ударения, а слова генерируются в аналоге WaveNet.
Такое звучание намного проще воспринимается людьми, поскольку синтезатор использует интонации и выделяет начало и конец предложения.
Первые образцы речи уже доступные на страничке разработчиков. Запись действительно звучит убедительно и напоминает «живого человека».
На данном этапе синтезатор речи говорит только женским голосом. Специалисты полагают, что вскоре Tacotron 2 будет использоваться во многих продуктах Google