Microsoft создаёт ИИ для преобразования текста в реалистичную речь

Преобразование текста в речь становится все более популярным. Инженеры разных компаний пытаются сделать воспроизводимый голос неотличимым от реального. Microsoft и китайские исследователи нашли эффективный способ решения данной проблемы.

Был создан специальный ИИ, который способен генерировать реалистичную речь, используя всего 200 образцов голоса (примерно 20 минут) и соответствующие транскрипции. Система частично опирается на нейронные сети и трансформаторы, которые анализируют входные и выходные данные на лету. Это помогает эффективно обрабатывать даже длинные последовательности, например, сложные предложения.

Результаты все еще не идеальны — голос по-прежнему частично роботизирован. Однако разборчивость сказанного находится на уровне 99.84%. Исследователи продолжат проводить тесты для улучшения собственной системы.

Больше статей на Shazoo
Тэги: