Scaling to Billion-plus Word Corpora
Název česky | Miliardové korpusy |
---|---|
Autoři | |
Rok publikování | 2009 |
Druh | Článek v odborném periodiku |
Časopis / Zdroj | Advances in Computational Linguistics |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | word corpora; web as corpus; duplicate detection |
Popis | Většina jevů v přirozených jazycích je rozložena v souladu se Zipfovým zákonem, takže mnoho slov a frází se vyskytuje řídce. Abychom tato slova a fráze mohli studovat, potřebujeme velmi velké textové korpusy. V předchozí práci bylo ukázáno, že je možné vytvořit velmi velké korpusy (v řádu miliard slov) z webu. Takové korpusy však často obsahují duplicitní dokumenty, což snižuje jejich užitnost. Dalším problémem bývá nedostupnost efektivních nástrojů pro dotazování nad tak velkými korpusy. Tento článek popisuje BiWeC, velký webový korpus (Big Web Corpus) anglických textů, plně zpracovaný a v současnosti obsahující 5,5 mld. slov. Cílová velikost korpusu je 20 mld. slov. Představujeme metodu pro detekci blízkých textových dokumentů v textových kolekcích obsahujících několik miliard slov. Dále popisujeme, jak jsme přepracovali korpusový manažer Sketch Engine, abychom umožnili efektivní zpracování miliardových korpusů s použitím běžně dostupného hardwaru. |
Související projekty: |