MMAudio: Multimodal Audio-Visual Speech Separation and Enhancement

Category: Deep Learning

License: MIT

Model Type: Speech Synthesis

MMAudio is a cutting-edge research repository focused on multimodal audio processing, particularly in audio-visual speech separation and enhancement. It combines audio signals with visual cues (such as face landmarks or motion) to isolate and enhance speech from noisy environments. The project showcases novel deep learning models trained for robust performance in challenging real-world conditions.

Key Features

Multimodal learning using both audio and visual inputs
Speech separation in multi-speaker and noisy environments
Real-time and offline speech enhancement capabilities
Pretrained models and evaluation scripts included
Dataset preparation tools and training pipelines provided
Integration of temporal and spatial features for improved accuracy
PyTorch-based implementation for flexibility and extensibility

GitHub Demo Video Live Demo Hkchengrex

Project Screenshots

Similar Projects

MMAudio: Multimodal Audio-Visual Speech Separation and Enhancement

Key Features

Project Screenshots

Similar Projects

OpenMusic: Quality-Aware Diffusion Transformer for Text-to-Music Generation

EzAudio – Efficient Diffusion Transformer for Text-to-Audio

MV-Adapter: Multi-View Consistent Image Generation Made Easy

StreamSpeech: All‑in‑One Streaming Speech Recognition, Translation & Synthesis

WaveGrad2: Iterative Refinement for Text-to-Speech Synthesis

SubToAudio: Subtitle-to-Audio Conversion with Coqui TTS