Extracting Phrases from PDT 2.0
Název česky | Extrakce frází z PDT 2.0 |
---|---|
Autoři | |
Rok publikování | 2011 |
Druh | Článek ve sborníku |
Konference | Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011 |
Fakulta / Pracoviště MU | |
Citace | |
www | https://nlp.fi.muni.cz/raslan/2011/paper11.pdf |
Obor | Informatika |
Klíčová slova | PDT; corpus; treebank; export; format; complex annotation; phrase; clause |
Popis | Pražský závislostní korpus (PDT) je velký soubor českých textů v elektronické podobě. Je celosvětově znám pro svůj velký rozsah a víceúrovňovou anotaci, která pokrývá celou řadu jazykovědných jevů. Na druhou stranu je ale možno složitost korpusových dat vnímat jako ne nevýznamnou překážku bránící jejich přímočarému využití. Jako možný způsob překonání tohoto problému nabízíme program, který převádí data z PDT do přehlednějšího formátu obsahujícího nejběžnější typy frází. Věříme, že dostupnost PDT v tomto formátu pomůže rozšířit okruh jeho uživatelů tohoto korpusu. |
Související projekty: |