Project information
Harvesting big text data for under-resourced languages (HaBiT)

Information

This project doesn't include Faculty of Arts. It includes Faculty of Informatics. Official project website can be found on muni.cz.

Project Identification

7F14047

Project Period

6/2014 - 4/2017

Investor / Pogramme / Project type

Ministry of Education, Youth and Sports of the CR

Czech-Norwegian Research Programme (CZ09)

MU Faculty or unit

Faculty of Informatics

Cooperating Organization

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publications

Total number of publications: 41

2015

Longest-commonest match

BAISA Vít KILGARRIFF Adam RYCHLÝ Pavel JAKUBÍČEK Miloš

Conference abstract

Year: 2015, type: Conference abstract
SemEval-2015 Task 15: A CPA dictionary-entry-building task

BAISA Vít BRADBURY Jane CINKOVÁ Silvie EL MAAROUF Ismail KILGARRIFF Adam POPESCU Octavian

Article in Proceedings

Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), year: 2015
Sketch Engine for English Language Learning

BAISA Vít SUCHOMEL Vít KILGARRIFF adam JAKUBÍČEK Miloš

Conference abstract

Year: 2015, type: Conference abstract
Towards Automatic Finding of Word Sense Changes in Time

BAISA Vít HERMAN Ondřej JAKUBÍČEK Miloš

Article in Proceedings

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015

2014

Finding the Best Name for a Set of Words Automatically

RYCHLÝ Pavel

Article in Proceedings

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2014
Intelligent Search and Replace for Czech Phrases

NEVĚŘILOVÁ Zuzana SUCHOMEL Vít

Article in Proceedings

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2014
Low Inter-Annotator Agreement = An Ill-Defined Problem?

KOVÁŘ Vojtěch RYCHLÝ Pavel JAKUBÍČEK Miloš

Article in Proceedings

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2014
Mapping Czech and English Valency Lexicons: Preliminary Report

PALA Karel BAISA Vít SITOVÁ Zdeňka VONŠOVSKÝ Jakub

Article in Proceedings

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2014
SkELL: Web Interface for English Language Learning

BAISA Vít SUCHOMEL Vít

Article in Proceedings

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2014
SQAD: Simple Question Answering Database

HORÁK Aleš MEDVEĎ Marek

Article in Proceedings

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2014