Microsoft создаёт ИИ для преобразования текста в реалистичную речь
Преобразование текста в речь становится все более популярным. Инженеры разных компаний пытаются сделать воспроизводимый голос неотличимым от реального. Microsoft и китайские исследователи нашли эффективный способ решения данной проблемы.
Был создан специальный ИИ, который способен генерировать реалистичную речь, используя всего 200 образцов голоса (примерно 20 минут) и соответствующие транскрипции. Система частично опирается на нейронные сети и трансформаторы, которые анализируют входные и выходные данные на лету. Это помогает эффективно обрабатывать даже длинные последовательности, например, сложные предложения.
Результаты все еще не идеальны — голос по-прежнему частично роботизирован. Однако разборчивость сказанного находится на уровне 99.84%. Исследователи продолжат проводить тесты для улучшения собственной системы.
- Microsoft требует от сотрудников в Китае перейти на iPhone в целях безопасности
- Blizzard и NetEase переподписали соглашение по выпуску игр в Китае
- Слух: О возвращении игр Blizzard на китайский рынок объявят 10 апреля