Morfologické značkování korpusu soukromé korespondence

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

HLAVÁČKOVÁ Dana SEDLÁČEK Radek

Rok publikování 2006
Druh Článek ve sborníku
Konference Varia XIV.
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Jazykověda
Popis Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování.

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.