Do we need very large corpora?
Název česky | Potřebujeme velmi velké korpusy? |
---|---|
Autoři | |
Rok publikování | 2011 |
Druh | Článek ve sborníku |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Informatika |
Klíčová slova | corpora, corpus tools |
Popis | V příspěvku věnujeme pozornost velmi velkým korpusům získávaným z webu. Nejprve uvádíme motivaci vedoucí ke vzniku zdrojů tohoto typu a jejich potřebnost jak pro lingvisty. Dále se probírají techniky používané pro budování velkých korpusů čítajících více než miliardu tokenů a prezentují se výsledky získané v Centru zpracování přirozeného jazyka FI MU, tj. jak nástroje, tak i korpusy. Následuje analýza důsledků vyplývajících z budování velkých textových datových zdrojů a způsobů, jimiž se s nimi pracuje v korpusové lingvistice a aplikacích v oblasti zpracování přirozeného jazyka. |
Související projekty: |