Informace o projektu
Harvesting big text data for under-resourced languages (HaBiT)

Informace

Projekt nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka projektu je na webu muni.cz.

Kód projektu

7F14047

Období řešení

6/2014 - 4/2017

Investor / Programový rámec / typ projektu

Ministerstvo školství, mládeže a tělovýchovy ČR

Česko-norský výzkumný program (CZ09)

Fakulta / Pracoviště MU

Fakulta informatiky

Spolupracující organizace

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publikace

Počet publikací: 41

2016

Sketch Engine for Bilingual Lexicography

KOVÁŘ Vojtěch BAISA Vít JAKUBÍČEK Miloš

Článek v odborném periodiku

International Journal of Lexicography, rok: 2016, ročník: 29, vydání: 3, DOI
VPS-GradeUp: Graded Decisions on Usage Patterns

BAISA Vít CINKOVA Silvie KREJČOVÁ Ema VERNEROVÁ Anna

Článek ve sborníku

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), rok: 2016

2015

Annotation of Multi-Word Expressions in Czech Texts

NEVĚŘILOVÁ Zuzana

Článek ve sborníku

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2015
Corpus Based Extraction of Hypernyms in Terminological Thesaurus for Land Surveying Domain

BAISA Vít SUCHOMEL Vít

Článek ve sborníku

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2015
DEBWrite: Free Customizable Web-based Dictionary Writing System

RAMBOUSEK Adam HORÁK Aleš

Článek ve sborníku

Electronic lexicography in the 21st century: linking lexical data in the digital age, rok: 2015
DIACRAN: a framework for diachronic analysis

KILGARRIFF Adam HERMAN Ondřej BUŠTA Jan KOVÁŘ Vojtěch JAKUBÍČEK Miloš

Konferenční abstrakty

Rok: 2015, druh: Konferenční abstrakty
Generating Czech Iambic Verse

PALA Karel NEVĚŘILOVÁ Zuzana

Článek ve sborníku

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, rok: 2015
Increasing Coverage of Translation Memories with Linguistically Motivated Segment Combination Methods

MEDVEĎ Marek BAISA Vít HORÁK Aleš

Článek ve sborníku

Proceedings of The Workshop on Natural Language Processing for Translation Memories (NLP4TM), rok: 2015
Interactive Visualizations of Corpus Data in Sketch Engine

KOCINCOVÁ Lucia JAKUBÍČEK Miloš KOVÁŘ Vojtěch BAISA Vít

Článek ve sborníku

Proceedings of the Workshop on Innovative Corpus Query and Visualization Tools at NODALIDA 2015, rok: 2015
Longest-commonest Match

KILGARRIFF Adam BAISA Vít JAKUBÍČEK Miloš RYCHLÝ Pavel

Článek ve sborníku

Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of the eLex 2015 conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom., rok: 2015