Scaling to Billion-plus Word Corpora

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Miliardové korpusy
Autoři	POMIKÁLEK Jan RYCHLÝ Pavel KILGARRIFF Adam
Rok publikování	2009
Druh	Článek v odborném periodiku
Časopis / Zdroj	Advances in Computational Linguistics
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Informatika
Klíčová slova	word corpora; web as corpus; duplicate detection
Popis	Většina jevů v přirozených jazycích je rozložena v souladu se Zipfovým zákonem, takže mnoho slov a frází se vyskytuje řídce. Abychom tato slova a fráze mohli studovat, potřebujeme velmi velké textové korpusy. V předchozí práci bylo ukázáno, že je možné vytvořit velmi velké korpusy (v řádu miliard slov) z webu. Takové korpusy však často obsahují duplicitní dokumenty, což snižuje jejich užitnost. Dalším problémem bývá nedostupnost efektivních nástrojů pro dotazování nad tak velkými korpusy. Tento článek popisuje BiWeC, velký webový korpus (Big Web Corpus) anglických textů, plně zpracovaný a v současnosti obsahující 5,5 mld. slov. Cílová velikost korpusu je 20 mld. slov. Představujeme metodu pro detekci blízkých textových dokumentů v textových kolekcích obsahujících několik miliard slov. Dále popisujeme, jak jsme přepracovali korpusový manažer Sketch Engine, abychom umožnili efektivní zpracování miliardových korpusů s použitím běžně dostupného hardwaru.
Související projekty:	Centrum komputační lingvistiky Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce