Подписаться ВК
 15.09.2023 в 21:59   OpenAI

Stability AI запускает Stable Audio для создания музыки и голоса с помощью нейросетей

Поделиться
с друзьями:

Компания Stability AI у которой уже есть продвинуты инстурмент для создания картинок и изображений Stable Diffusion, объявила сегодня о выпуске своего продукта на основе нейросетей - Stable Audio, предназначенного для генерации музыки и звука. Он предназначен для музыкантов и композиторов, которые хотят создавать семплы и аудиотреки. Компания также заявила, что пользователи могут вводить текстовые подсказки, чтобы создавать звуковые дорожки нужной длины.

Компания также подробно рассказала о том, как работает генерация музыки на основе подсказок, в видео:

Генеральный директор Stability AI, Эмад Мостак, заявил, что они надеются дать возможность любителям музыки и творческим профессионалам создавать новый контент с помощью искусственного интеллекта. Он также с нетерпением ждет бесконечных инноваций, которые будут вдохновлены этим новым инструментом под названием Stable Audio.

Компания Stability AI заявила, что базовая модель Stable Audio была обучена с использованием музыки и метаданных из музыкальной библиотеки AudioSparx. Они утверждают, что модель способна воспроизводить 95 секунд стереозвука с частотой дискретизации 44,1 кГц за менее чем одну секунду на графическом процессоре NVIDIA A100. В компании также сообщили, что модели Stable Audio являются моделями скрытой диффузии, состоят из нескольких компонентов, включая вариационный автокодировщик (VAE), текстовый кодер и модель условной диффузии на базе U-Net.

Согласно исследовательскому отчету компании, VAE преобразует стереозвук в компактное, шумостойкое и обратимое скрытое кодирование с потерями, что способствует более быстрой генерации и обучению по сравнению с работой напрямую с необработанными аудиосэмплами.

Стереозвук сжимается с помощью VAE в шумоустойчивое и обратимое скрытое кодирование с потерями. Это позволяет более быстрое генерирование и обучение по сравнению с необработанными аудиосэмплами. Мы используем полностью сверточную архитектуру, которая основана на Descript Audio Codec в архитектуре кодера и декодера. Это позволяет кодировать и декодировать звук произвольной длины и получать высококачественные результаты.

Аудиоплатформа использует кодировщик текста модели CLAP, который был обучен с нуля на ее наборе данных, чтобы настроить модель на основе текстовых подсказок. Этот подход позволяет контролировать как содержание, так и продолжительность генерируемого звука, используя аудиоданные с учетом текстовых метаданных, продолжительности аудиофайла и времени начала.

Stable Audio предлагает бесплатную версию с ограниченными функциями, которая позволяет пользователям создавать и загружать треки длиной до 20 секунд. Кроме того, есть опция подписки «Pro», которая предоставляет расширенные 90-секундные треки, подходящие для коммерческих проектов.

Stable Audio, последняя версия из недавней серии продуктов AI компании Stability AI, была выпущена. Только в августе компания выпустила японскую языковую модель и Stable Chat, который призван составить конкуренцию ChatGPT.

Комментарии: