NVIDIA представила ИИ-модель Fugatto для создания звука на основе текстовых запросов

Коэн (NoW)

00:00, 26 ноября 2024

NVIDIA представила экспериментальную генеративную модель ИИ под названием Fugatto (Foundational Generative Audio Transformer Opus 1), которую компания называет "швейцарским ножом для работы со звуком". Эта модель может превращать текстовые команды в аудио или изменять существующие музыкальные, голосовые и звуковые файлы.

Fugatto разработана международной командой исследователей ИИ, что, по словам NVIDIA, усилило ее "многоязычные и мультиакцентные возможности".

Мы хотели создать модель, которая понимает и генерирует звуки так, как это делают люди.
— Рафаэль Валье, руководитель отдела прикладных аудиоисследований NVIDIA и один из авторов проекта

Компания описала несколько практических сценариев применения Fugatto. Например, музыканты смогут быстро генерировать прототипы песен и экспериментировать с различными стилями, голосами и инструментами. Модель также может использоваться для создания материалов для языковых курсов с выбором голоса или для генерации звуковых эффектов в видеоиграх, которые адаптируются к действиям и выборам игрока.

Кроме того, Fugatto способна на задачи, которые не входили в ее первоначальное обучение. Например, она может комбинировать раздельно изученные инструкции, создавая речь с определенным акцентом и эмоциональной окраской, или звуки природы, такие как пение птиц во время грозы. Также модель может генерировать звуки с динамическими изменениями, например, звук приближающегося ливня.

Пока не заявлено, станет ли Fugatto доступной для широкой публики, но эта модель не первая в своем роде. Другие крупные технологические компании представляют свои альтернативы, правда, один из главных вопросов — это наличие инструментария для работы с подобными ИИ-моделями.

https://youtu.be/qj1Sp8He6e4

Больше статей на Shazoo

Nvidia заработала более 26 миллиардов долларов за квартал благодаря спросу на ИИ
GPU Nvidia Blackwell могут стоить до $35,000, а ИИ-серверы — до $3 миллионов
Илон Маск: К концу 2024 года возможности Tesla по обучению ИИ будут эквивалентны примерно 85 000 чипов Nvidia H100

Тэги:

Читать комментарии на сайте

NVIDIA представила ИИ-модель Fugatto для создания звука на основе текстовых запросов

Статьи

6 интересных градостроительных игр, выходящих до конца 2024 года (и несколько на следующий год)

Ghost of Yotei может стать отличным примером соединения культур — японской истории и жанра вестерн

Как работает наука, технологии и культура в Civilization 7

Осенний аниме сезон 2024