Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder

Porteš,  David; Horák,  Aleš

Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Generování vysoce kvalitních F0 vektorových reprezentací pomocí vektorově kvantizovaného variačního autoenkodéru
Autoři	PORTEŠ David HORÁK Aleš
Rok publikování	2024
Druh	Článek ve sborníku
Konference	Text, Speech, and Dialogue
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Doi	http://dx.doi.org/10.1007/978-3-031-70566-3_13
Klíčová slova	Fundamental Frequency; Prosody; VQ-VAE; Vector Embeddings
Popis	Jazykové modely fungující na diskrétních audio reprezentacích se stále více stávají oblíbeným rámcem pro mnoho úloh zpracování řeči. Nedávno bylo prokázáno, že diskrétní vektorové reprezentace základní frekvence (F0) zlepšují výkon napříč různými úlohami. Avšak výhody použití F0 vektorových reprezentací jsou omezené kvalitou samotných reprezentací. Proto v tomto článku představujeme důkladnou studii, která se zaměřuje na použití vektorově kvantizovaného variačního autoenkodéru (VQ-VAE) ke generování vysoce kvalitních reprezentací křivky F0. Experimentujeme s různými vstupními transformacemi, které se soustředí na zpracování neznělých oblastí F0, což jsou oblasti, kde F0 není definována. Pro každou transformaci provádíme důkladné vyhledávání optimální velikosti reprezentací a velikosti kódující knihovny, abychom dosáhli co nejvyšší kvality reprezentací. Naše experimenty jsou prováděny na dvou datových sadách různé velikosti, LJSpeech a LibriTTS, a celkem zahrnují více než 140 různých experimentálních nastavení. Dosahujeme výsledků v rozmezí od 0,53 % do 4,29 % chybovosti v metrice FFE, v závislosti na použité datové sadě a strategii předzpracování, a naše nejlepší modely publikujeme na webu HuggingFace.
Související projekty:	Využití technik umělé inteligence pro zpracování dat, komplexní analýzy a vizualizaci rozsáhlých dat