Utilizing Linguistic Resources: Theory and Practical Experience
Název česky | Využití lingvistických zdrojů: teorie a praktické zkušenosti |
---|---|
Autoři | |
Rok publikování | 2010 |
Druh | Článek ve sborníku |
Konference | Proceedings of Recent Advances in Slavonic Natural Language Processing 2010 |
Fakulta / Pracoviště MU | |
Citace | |
www | https://nlp.fi.muni.cz/raslan/2010/paper04.pdf |
Obor | Informatika |
Klíčová slova | linguistic resources; corpora; theory; practice |
Popis | Prague Dependency Treebank (dále PDT) je rozsáhlý soubor textů v českém jazyce. Obsahuje bohatou anotaci na několika rovinách, od morfologie po hloubkovou syntax. Jde o unikát co do svého rozsahu i teoretického pozadí, tím větší, že byl vytvořen pro češtinu, která je co do počtu mluvčích malým jazykem. V tomto článku uvádíme PDT 2.0 jako příklad, že komplexnost anotace s sebou může nést jak výhody, tak nevýhody. Zmiňujeme problémy, které mohou nastat při extrakci některých typů dat z PDT a korpusů s komplexní anotační strukturou obecně. Naznačujeme možné alternativní přístupy. |
Související projekty: |