PRML Speech Team Demo Page

2024

ICASSP, 2024 [Paper] [Demo]

TranSentence: Speech-to-Speech Translation via Language-agnostic Sentence-level Speech Encoding without Language-parallel Data

ICASSP, 2024 [Paper] [Demo]

MIDI-Voice: Expressive Zero-shot Singing Voice Synthesis via MIDI-driven Priors

AAAI, 2024 [Paper] [Demo]

DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled Representation and Prior Mixup for Verified Robust Voice Conversion

Interspeech, 2023 [Paper] [Demo]

HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer

Interspeech, 2023 [Paper] [Demo]

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

ACPR, 2023 [Paper] [Demo]

PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and Pause-based Prosody Modeling

NeurIPS, 2022 [Paper] [Demo]

HierSpeech: Bridging the Gap between Text and Speech by Hierarchical Variational Inference using Self-supervised Representation for Speech Synthesis

TASLP, 2022 [Paper] [Demo]

Duration Controllable Voice Conversion via Phoneme-Based Information Bottleneck

ICPR, 2022 [Paper] [Demo]

StyleVC: Non-parallel Voice Conversion with Adversarial Style Generalization

ICASSP, 2022 [Paper] [Demo]

EmoQ-TTS: Emotion intensity Quantization for Fine-grained Controllable Emotional Text-to-Speech

ICASSP, 2022 [Paper] [Demo]

Fre-GAN 2: Fast and Efficient Frequency-consistent Audio Synthesis

ICASSP, 2022 [Paper] [Demo]

PVAE-TTS: High-Quality Adaptive Text-to-Speech via Progressive Variational Autoencoder

NeurIPS, 2021 [Paper] [Demo]

VoiceMixer: Adversarial Voice Style Mixup

AAAI2021, 2021 [Paper] [Demo]

Multi-SpectroGAN: High-Diversity and High-Fidelity Spectrogram Generation with Adversarial Style Recombination for Speech Synthesis

SMC, 2021 [Paper] [Demo]

GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints

Interspeech, 2021 [Paper] [Demo]

Reinforce-Aligner: Reinforcement Alignment Search for Robust End-to-End Text-to-Speech

Interspeech, 2021 [Paper] [Demo]

Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

Interspeech, 2020 [Paper] [Demo]

Audio dequantization for high fidelity audio generation in flow-based neural vocoder