Značkování a status některých gramatických kategorií v ČNK (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry)

Osolsobě,  Klára

Značkování a status některých gramatických kategorií v ČNK (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry)

Autoři	OSOLSOBĚ Klára
Rok publikování	2008
Druh	Článek ve sborníku
Konference	Grammar & Corpora / Gramatika a korpus 2007
Fakulta / Pracoviště MU	Filozofická fakulta
Citace
Obor	Jazykověda
Klíčová slova	Corpus; tagging; synthetic future; gradation; undefinite numeral
Popis	Cílem našeho příspěvku je ukázat, jak mohou korpusová data přispět k doplnění popisů gramatických jevů zachycených ve slovnících a gramatikách na straně jedné a v lingvistických bázích automatických morfologických analyzátorů na straně druhé. Ke značkování řádově stamilionových korpusů se běžně používají automatické nástroje. V prostředí českých korpusů jsou to především dva analyzátory (taggery) pro morfologické značkování. Morfologický analyzátor Jana Hajiče, dále HA (Hajič, 1995, 2004, http://ucnk.ff.cuni.cz/bonito/index.html) a morfologický analyzátor Radka Sedláčka Ajka (Sedláček, 2005, http://nlp.fi.muni.cz/projekty/wwwajka). Lingvistickou bázi těchto analyzátorů byly mluvnice a slovníky, o něž se opíraly algoritmické popisy flexe (Hajič 1995, Osolsobě, 1996). Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Vyšlo najevo, že s ohledem na zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat. V našem příspěvku si všimneme tří jevů: 1) syntetické futurum, 2) stupňování adjektiv a adverbií a 3) slovnědruhové přechody vybraných slov.
Související projekty:	Čeština v jazykovědných pojmech(Slovník)