Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Generování vysoce kvalitních F0 vektorových reprezentací pomocí vektorově kvantizovaného variačního autoenkodéru
Autoři

PORTEŠ David HORÁK Aleš

Rok publikování 2024
Druh Článek ve sborníku
Konference Text, Speech, and Dialogue
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Doi http://dx.doi.org/10.1007/978-3-031-70566-3_13
Klíčová slova Fundamental Frequency; Prosody; VQ-VAE; Vector Embeddings
Popis Jazykové modely fungující na diskrétních audio reprezentacích se stále více stávají oblíbeným rámcem pro mnoho úloh zpracování řeči. Nedávno bylo prokázáno, že diskrétní vektorové reprezentace základní frekvence (F0) zlepšují výkon napříč různými úlohami. Avšak výhody použití F0 vektorových reprezentací jsou omezené kvalitou samotných reprezentací. Proto v tomto článku představujeme důkladnou studii, která se zaměřuje na použití vektorově kvantizovaného variačního autoenkodéru (VQ-VAE) ke generování vysoce kvalitních reprezentací křivky F0. Experimentujeme s různými vstupními transformacemi, které se soustředí na zpracování neznělých oblastí F0, což jsou oblasti, kde F0 není definována. Pro každou transformaci provádíme důkladné vyhledávání optimální velikosti reprezentací a velikosti kódující knihovny, abychom dosáhli co nejvyšší kvality reprezentací. Naše experimenty jsou prováděny na dvou datových sadách různé velikosti, LJSpeech a LibriTTS, a celkem zahrnují více než 140 různých experimentálních nastavení. Dosahujeme výsledků v rozmezí od 0,53 % do 4,29 % chybovosti v metrice FFE, v závislosti na použité datové sadě a strategii předzpracování, a naše nejlepší modely publikujeme na webu HuggingFace.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.