Android DevHub

Make‑An‑Audio: Prompt‑Enhanced Diffusion Model for Text‑to‑Audio Generation

Make‑An‑Audio: Prompt‑Enhanced Diffusion Model for Text‑to‑Audio Generation

Category: Deep Learning

License: MIT

Model Type: Speech Synthesis

Make‑An‑Audio is a PyTorch implementation of an ICML 2023 diffusion-based model that generates high-fidelity audio from text prompts. It uses a prompt‑enhanced diffusion architecture with spectrogram autoencoding, combined with contrastive language–audio pretraining (CLAP) to produce diverse, controllable, and realistic audio outputs.

Key Features

Diffusion probabilistic model conditioned on text prompts
Spectrogram autoencoder for efficient audio representation
CLAP-based pretraining for strong text-audio alignment
High-quality audio synthesis demonstrated across benchmarks
Support for multi-modal audio inpainting and personalized audio scenarios
Includes pretrained checkpoints, inference scripts, and training pipelines

GitHub Arxiv

Similar Projects

Fooocus AI Image Generator - A GUI-Powered Stable Diffusion Image Generator

Fooocus AI Image Generator - A GUI-Powered Stable Diffusion Image Generator

SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

Awesome LLMs Meet Multimodal Generation

Awesome LLMs Meet Multimodal Generation

MMAudio: Multimodal Audio-Visual Speech Separation and Enhancement

MMAudio: Multimodal Audio-Visual Speech Separation and Enhancement

Abogen – Audiobook Generator for EPUB, PDF, and Text

Abogen – Audiobook Generator for EPUB, PDF, and Text

OpenMusic: Quality-Aware Diffusion Transformer for Text-to-Music Generation

OpenMusic: Quality-Aware Diffusion Transformer for Text-to-Music Generation