Загрузка...

Stable Audio 3: Fast, Variable-Length Audio Generation

Paper: Stable Audio 3 (2605.17991)
Published: 18 May 2026.

Learn more on Emergent Mind: https://www.emergentmind.com/papers/2605.17991
arXiv: https://arxiv.org/abs/2605.17991
Sign up for our free trending papers email digest: https://www.emergentmind.com/subscribe
Follow us on X: https://x.com/EmergentMind
Join our Discord: https://discord.gg/BhfTC4mTXq

Stable Audio 3 introduces a suite of latent diffusion models that deliver high-fidelity music and sound effects generation with native support for variable-length synthesis and editing. By combining a novel semantic-acoustic autoencoder with flow matching, distillation, and adversarial training, the system achieves state-of-the-art quality with fast inference on consumer hardware, generating 120 seconds of stereo audio in under a second on datacenter GPUs and under 5 seconds on laptop CPUs.

Видео Stable Audio 3: Fast, Variable-Length Audio Generation канала Emergent Mind
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять