Practical Web Crawling for Text Corpora
Název česky | Praktické automatické stahování z webu pro textové korpusy |
---|---|
Autoři | |
Rok publikování | 2011 |
Druh | Článek ve sborníku |
Konference | Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011 |
Fakulta / Pracoviště MU | |
Citace | |
www | https://nlp.fi.muni.cz/raslan/2011/paper09.pdf |
Obor | Informatika |
Klíčová slova | crawler; web crawling; corpus; web corpus; text corpus |
Popis | SpiderLing -- automatický stahovač dokumentů z internetu pro lingvistiku -- je nový software pro tvorbu textových korpusů z webu, který uvádíme v tomto článku. Mnoho dokumentů na webu obsahuje pouze materiál, který není vhodný pro textové korpusy, jako seznamy seznamy odkazů, seznamy produktů a dalších druhy textů neskládající se z celých vět. Ve skutečnosti tyto stránky představují drtivou většinu webu. Nepřizpůsobeným stahováním jsme zpravidla získali velké množství dat, která byla odfiltrována při následném zpracování. To činí proces získávání webových textů neefektivním. Cílem naší práce je zaměřit se na stahování částí internetu bohatých na text a maximalizovat počet slov ve výsledném souboru na stažený megabyte. Prezentujeme předběžné výsledky dosažené při vytváření textových webových korpusů v češtině a tádžické perštině. |
Související projekty: |