Morfologické značkování korpusu soukromé korespondence

Warning

This publication doesn't include Faculty of Arts. It includes Faculty of Informatics. Official publication website can be found on muni.cz.
Title in English The Morphological Tagging of the Corpus of Private Correspondence
Authors

HLAVÁČKOVÁ Dana SEDLÁČEK Radek

Year of publication 2006
Type Article in Proceedings
Conference Varia XIV.
MU Faculty or unit

Faculty of Informatics

Citation
Field Linguistics
Description Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování.

You are running an old browser version. We recommend updating your browser to its latest version.