Segmentace textu na věty

Title in English	Segmentation of free text to sentences
Authors	PALÁTOVÁ Helena GRÁC Marek
Year of publication	2012
Type	Article in Proceedings
MU Faculty or unit	Faculty of Arts
Citation
web	http://www.ujc.cas.cz/miranda2/export/sitesavcr/data.avcr.cz/humansci/ujc/zakladni-informace/oddeleni/oddeleni-gramatiky/konferencni-sbornik/PalatovaHelena_GracMarek.pdf
Field	Linguistics
Description	Pro češtinu v současné době existuje spousta nástrojů schopných na dobré úrovni popsat její morfologickou rovinu, ale co se týče její volnější, a proto hůře formálně popsatelné syntaxe, musí se (i přes všechny dosavadní pokusy o vytvoření kvalitního automatického syntaktického analyzátoru) nejen korpusoví lingvisté prozatím obejít bez nástrojů, které by byly schopny automaticky do textových korpusů vložit syntaktické značky, podle nichž by se lépe v textech vyhledávalo a zkoumalo jazyk na této rovině. Aby byly nástroje schopny účinně rozpoznávat a popisovat vztahy mezi jednotlivými textovými slovy, potřebují nejprve jasně a především správně rozpoznat hranice jednotlivých autonomních celků, tedy hranice vět. V naší práci jsme se zabývali delimitací věty (sentence). Tato problematika byla sice již v minulosti řešena a prakticky každý korpus má vyznačené hranice vět, ale problematiku určování hranic vět v okrajových případech stále nepovažujeme za dořešenou. Až po dořešení tohoto problému je možné zjistit, jak kvalitně fungují existující automatické nástroje, a můžeme řešit jejich vylepšování. Proto jsme zvolili následující postup. Nejprve byla stanovena formální pravidla, která byla poté použita v návodu pro anotátory. Při tvorbě pravidel jsme se zaměřili zvláště na formální zvláštnosti některých syntaktických konstrukcí používaných v českých textech. Právě těmito pravidly se řídili anotátoři při práci s korpusem současných blogových textů. Text ručně segmentovali na jednotlivé věty a vytvořili tím jednotná data. Takto vytvořená data byla základem pro upřesnění pravidel s cílem dosáhnout vyšší interanotační shody. V příspěvku prezentujeme formální a jednoznačná pravidla pro určování hranic vět spolu s jejich zdůvodněním na korpusovém materiálu. Vytvořená data plánujeme zpřístupnit tak, aby mohla sloužit nejen jako testovací data, ale i jako zdroj pro statistické (automatické) strojové učení.