EzAudio – Efficient Diffusion Transformer for Text-to-Audio

Category: Deep Learning

License: MIT

Model Type: Speech Synthesis

EzAudio is a high-quality, open-source model for generating realistic audio from textual prompts. It operates in the latent space of 1D waveform audio, using a diffusion transformer architecture tailored for efficient and robust audio synthesis—eliminating the need for a separate vocoder

Key Features

Direct generation of waveforms in latent space using a 1D VAE backbone
Efficient architecture with adaptive layer normalization, long-skip connections, and rotary positional encoding for better stability and speed
Multi-stage training combining unsupervised learning, automatic audio-caption alignment, and human-annotated fine-tuning
Classifier-free guidance rescaling for better prompt adherence without compromising audio quality
High-quality outputs outperforming many open-source alternatives
Support for audio editing and inpainting
Provides pretrained checkpoints and inference pipelines for ease of use

GitHub Live Demo Arxiv

Similar Projects

SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

Deep Learning

Make‑An‑Audio: Prompt‑Enhanced Diffusion Model for Text‑to‑Audio Generation

Deep Learning

EzAudio – Efficient Diffusion Transformer for Text-to-Audio

Key Features

Similar Projects

Word2Wave: Text-Controlled GAN Audio Generation

Amphion: Real-Time Audio Generation Toolkit by OpenMMLab

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

AI Runner: Local AI Inference Engine for Art, Voice, and Chatbots

SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

Make‑An‑Audio: Prompt‑Enhanced Diffusion Model for Text‑to‑Audio Generation