Informace o projektu
Harvesting big text data for under-resourced languages (HaBiT)

Informace

Projekt nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka projektu je na webu muni.cz.

Kód projektu

7F14047

Období řešení

6/2014 - 4/2017

Investor / Programový rámec / typ projektu

Ministerstvo školství, mládeže a tělovýchovy ČR

Česko-norský výzkumný program (CZ09)

Fakulta / Pracoviště MU

Fakulta informatiky

Spolupracující organizace

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publikace

Počet publikací: 41

2015

Longest-commonest match

BAISA Vít KILGARRIFF Adam RYCHLÝ Pavel JAKUBÍČEK Miloš

Konferenční abstrakty

Rok: 2015, druh: Konferenční abstrakty
SemEval-2015 Task 15: A CPA dictionary-entry-building task

BAISA Vít BRADBURY Jane CINKOVÁ Silvie EL MAAROUF Ismail KILGARRIFF Adam POPESCU Octavian

Článek ve sborníku

Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), rok: 2015
Sketch Engine for English Language Learning

BAISA Vít SUCHOMEL Vít KILGARRIFF adam JAKUBÍČEK Miloš

Konferenční abstrakty

Rok: 2015, druh: Konferenční abstrakty
Towards Automatic Finding of Word Sense Changes in Time

BAISA Vít HERMAN Ondřej JAKUBÍČEK Miloš

Článek ve sborníku

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2015

2014

Finding the Best Name for a Set of Words Automatically

RYCHLÝ Pavel

Článek ve sborníku

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2014
Intelligent Search and Replace for Czech Phrases

NEVĚŘILOVÁ Zuzana SUCHOMEL Vít

Článek ve sborníku

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2014
Low Inter-Annotator Agreement = An Ill-Defined Problem?

KOVÁŘ Vojtěch RYCHLÝ Pavel JAKUBÍČEK Miloš

Článek ve sborníku

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2014
Mapping Czech and English Valency Lexicons: Preliminary Report

PALA Karel BAISA Vít SITOVÁ Zdeňka VONŠOVSKÝ Jakub

Článek ve sborníku

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2014
SkELL: Web Interface for English Language Learning

BAISA Vít SUCHOMEL Vít

Článek ve sborníku

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2014
SQAD: Simple Question Answering Database

HORÁK Aleš MEDVEĎ Marek

Článek ve sborníku

Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2014