Typ kladenští jako problém automatické morfologické analýzy
Autoři | |
---|---|
Rok publikování | 2022 |
Druh | Článek v odborném periodiku |
Časopis / Zdroj | Jazykovedný časopis |
Fakulta / Pracoviště MU | |
Citace | |
www | https://www.juls.savba.sk/ediela/jc/2021/4/jc21-04.pdf |
Doi | http://dx.doi.org/10.2478/jazcas-2022-0011 |
Klíčová slova | automatic morphological analysis; derivational type Kladenští; part of speech transition |
Popis | Cílem našeho příspěvku je demonstrovat postupy, kterými lze získat data potřebná ke zpřesnění nástrojů automatické morfologické analýzy češtiny pomocí korpusu, konkrétně webového korpusu Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G řady ARANEA (dále Araneum). Konkrétně se zaměříme na propria typu Kladenští, tedy substantivizovaná adjektiva označující skupiny osob podle příslušnosti. Cílem sondy do webového korpusu Aranea je: 1) korpusový popis frekventovaných vlastností typu Kladenští, z něhož lze vycházet při formulaci pravidel pro desambiguaci; 2) vytvoření seznamu nejčastějších lemmat typu Kladenští, která lze následně zařadit do slovníků automatických morfologických analyzátorů (např. slovník MorfFlex Hajiče a Hlaváčové). Věříme, že sonda může pomoci zlepšit výsledky nástrojů automatické morfologické analýzy češtiny. |
Související projekty: |