Recent Czech Web Corpora

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Autoři	SUCHOMEL Vít
Rok publikování	2012
Druh	Článek ve sborníku
Konference	6th Workshop on Recent Advances in Slavonic Natural Language Processing
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://nlp.fi.muni.cz/raslan/2012/paper11.pdf
Obor	Jazykověda
Klíčová slova	web corpora; czech corpus
Popis	We introduce the largest Czech text corpus for language research – czTenTen12 with 5.4 billion tokens. A brief comparison with other recent Czech corpora follows.
Související projekty:	Temporální aspekty znalostí a informací Analýza přirozeného jazyka v prostředí internetu Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum