Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy

Autoři

OSOLSOBĚ Klára

Rok publikování 2007
Druh Článek ve sborníku
Konference Grammar & Corpora, 2nd International Conference, Abstracts
Fakulta / Pracoviště MU

Filozofická fakulta

Citace
Obor Jazykověda
Klíčová slova corpus; automatical morphological analysis; verb form; word class; gradation
Popis Cílem našeho příspěvku je ukázat, jak mohou korpusová data přispět k doplnění popisů gramatických jevů zachycených ve slovnících a gramatikách na straně jedné a v lingvistických bázích automatických morfologických analyzátorů na straně druhé. Ke značkování řádově stamilionových korpusů se běžně používají automatické nástroje. V prostředí českých korpusů jsou to především dva analyzátory (taggery) pro morfologické značkování. Morfologický analyzátor Jana Hajiče dále HA (Hajič, 1995, 2004, http://ucnk.ff.cuni.cz/bonito/index.html) a morfologický analyzátor Radka Sedláčka Ajka (Sedláček, 2005, http://nlp.fi.muni.cz/projekty/wwwajka). Lingvistickou bázi těchto analyzátorů byly mluvnice a slovníky, o něž se opíraly algoritmické popisy flexe (Hajič 1995, Osolsobě, 1996). Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Vyšlo najevo, že s ohledem na zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat. V našem příspěvku si všimneme tří jevů: 1) syntetické futurum, 2) stupňování adjektiv a adverbií a 3) slovnědruhové přechody vybraných slov.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.