Extrakce korpusových příkladů pro valenční slovník

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

BAISA Vít

Rok publikování 2011
Druh Článek ve sborníku
Konference Korpusová lingvistika, 3: Gramatika a značkování korpusů
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Jazykověda
Klíčová slova valency lexicon; VerbaLex; corpus; valency frame; CQL
Popis Valenční slovník VerbaLex je vytvářen na základě několika různých zdrojů, mezi nimiž chybí reálná korpusová data. V současné době obsahuje VerbaLex asi 10 000 slovesných lemmat, 20 000 literálů (dvojice sloveso a jeho význam) a zhruba stejný počet valenčních rámců. Ve většině případů byly příklady pro jednotlivé valenční rámce vymyšleny. Naším cílem je doplnit tento bohatý lexikografický zdroj o reálné příklady z korpusu. Článek popisuje proceduru, při níž se valenční rámce VerbaLexu transformují na dotazy v jazyce CQL, které slouží pro hledání příkladů reálných vět pro daný valenční rámec. Tato procedura je jednoduchá, ale relativně účinná. V článku se podrobně věnujeme jednotlivým krokům procedury, výsledkům, jejich kvalitě a obtížím, na které jsme při vyhledávání realizací valenčních rámců v korpusu narazili.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.