Morfologické značkování korpusu soukromé korespondence
Autoři | |
---|---|
Rok publikování | 2006 |
Druh | Článek ve sborníku |
Konference | Varia XIV. |
Fakulta / Pracoviště MU | |
Citace | |
Obor | Jazykověda |
Popis | Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování. |