Microsoft представила VALL-E — модель ИИ, которая способна имитировать голос человека даже по 3-секундной аудиозаписи

Компания Microsoft официально представила VALL-E — модель искусственного интеллекта, которая умеет преобразовывать текст в речь, точно имитируя голос человека. В качестве образца система может использовать запись продолжительностью всего в три секунды, а эмоциональный окрас оригинальной речи перенесётся и в смоделированную.

Редмондцы называют VALL-E «языковой моделью нейронного кодека». В основу разработки данной технологии была положена технология EnCodec. Авторы также подчёркивают, что их система анализирует, как именно звучит человек, разбивая эту информацию на отдельные «токены» и используя обучающие данные для сопоставления полученной информации о том, как этот голос будет звучать, если ИИ произнесёт другие фразы. В других же методах преобразования текста в голос, как правило, идёт синтезирование речи с помощью манипуляции формами сигналов.