Přibližte nám prosím detaily projektu a jeho realizaci v rámci OSCARS.
Jazykový korektor Opravidlo Beta umí opravit některé chyby v češtině – gramatické (například interpunkci a některé typy syntaktické shody), pravopisné (například velká písmena), ale také chyby sazby (mezery, závorky, měny apod.). Cílem projektu je výrazné vylepšení této aplikace. Zúčastnili jsme se první výzvy OSCARS. Projekty OSCARS dbají na otevřenou vědu (Open Science) a cílem našeho projektu je kromě aplikace, která je už teď zdarma využívána mnoha uživateli, poskytnout i vědecká data širší komunitě. Jazykové korektory jsou poměrně žádané i pro jiné jazyky. Zvláště vývojářům pro jiné slovanské jazyky pomohou naše data urychlit jejich vlastní vývoj. Analýza toho, kde lidé v textu chybují, je zajímavá jak pro lingvisty, tak pro učitele jazyka.
V projektu Opravidlo 2.0 vytvoříme nový nástroj, který bude založený na hlubokých neuronových sítích a velkých jazykových modelech a na datech a pravidlech vytvořených v současné verzi Opravidla.
S kým na projektu spolupracujete?
Projekt podávaly společně FI MU s FF MU. Hlavním řešitelem je docent Horák z fakulty informatiky. Někteří členové týmu jsou stejní jako u předchozího projektu Opravidlo Beta, který vznikl díky grantu Technologické agentury ČR.
Stávající projekt Opravidlo vznikal převážně na FF MU. Opravidlo 2.0 bude stát na technikách umělé inteligence a na výsledcích současného Opravidla, takže půjde o mezifakultní spolupráci týmů z fakulty informatiky a filozofické fakulty.
Popište prosím, v čem konkrétně bude Opravidlo 2.0 lepší ve srovnání s předchozí verzí.
Opravidlo Beta stojí na ručně vytvořených pravidlech a má vysokou přesnost. To znamená, že když vyznačí část textu jako chybu, s velkou pravděpodobností to chyba je. Na druhou stranu má korektor nižší pokrytí, což znamená, že některé chyby „přehlédne“. Cílem projektu je zvýšit pokrytí chyb, ale bez „falešných hlášek“, kdy aplikace indikuje chybu, ale text je přitom v pořádku. Chceme kromě ručně vytvořených pravidel využít také neuronové sítě, které by měly zachytit různé nuance textu a identifikovat obvyklost nebo neobvyklost nějaké větné konstrukce.
Další důležitou složkou aplikace je vysvětlitelnost, která jde ruku v ruce s použitím neuronových sítí. U AI aplikací je časté riziko, že lidé nechápou, proč systém nějak rozhodl. Je to výrazné negativum aplikací umělé inteligence a snižuje jejich reálnou použitelnost. V současnosti poskytuje Opravidlo Beta vysvětlení u řady nalezených chyb – tato vysvětlení jsou součástí pravidel (například pravidlo nalezne chybu ve shodě přísudku a podmětu a „ví”, že jde právě o tento problém). Bude těžké najít pro chyby identifikované neuronovou sítí relevantní vysvětlení, bez něj by ale aplikaci uživatelé přijímali s menší důvěrou.
Jak máte rozdělené role v týmu?
Opravidlo navrhuje nejen opravu, ale také vysvětluje, proč je vyznačený text chyba. Vysvětlení musejí být jednak správná v kontextu (aby například aplikace nevysvětlovala chybějící čárku v souvětí tam, kde jde o výčet), jednak srozumitelná. Tým filozofické fakulty je odpovědný za tuto část. Tým fakulty informatiky se bude věnovat neuronovým sítím, které budou vyhodnocovat, jak moc je určitá část textu nebo větná konstrukce obvyklá a jaká je pravděpodobnost chyby. Bude tedy odpovědný za data, jejich uložení, opatření metadaty a publikování ve velkých výzkumných infrastrukturách. Bude také integrovat oba přístupy tak, aby spolu pravidla a pravděpodobnostní výstupy ladily.
Jednou z řešitelek projektu je rovněž Hana Žižková z Ústavu českého jazyka FF MU, která ještě s Danou Hlaváčkovou z téhož pracoviště stojí za původní verzí Opravidla. Foto: Ondřej Vedral/FF MU
Jsou do projektu zapojeni i studující z fakulty informatiky?
Ano, zapojujeme bakalářské, magisterské i postgraduální studující jako vývojáře a experimentátory.
Komu je Opravidlo dostupné a kde se k němu může veřejnost dostat?
Opravidlo je volně dostupné prostřednictvím webové stránky. Do volného pole můžete text buď vepsat, nebo nakopírovat. V zadaném textu pak nástroj podtrhne místa, která jsou chybná, navrhne opravu a nabídne uživateli link z Internetové jazykové příručky s vysvětlením.
Jak dlouho budete projekt realizovat a jaké jsou nejbližší kroky?
Projekt je na dva roky a začal teď v říjnu 2024. Prvním krokem ještě před vlastním zahájením projektu bylo propagační video. Následovalo ustavení týmu, rozdělení rolí a spuštění prvních jednotlivých úkonů podle plánovaného harmonogramu.
Kdy bude dostupná aktualizovaná verze Opravidla?
Předpokládáme, že by to mohlo být do dvou let.
Existují srovnatelné nástroje? Proč bychom si měli Opravidlo vybrat?
Nástroje jako ChatGPT také umí opravit český text, a to poměrně spolehlivě. Jejich nevýhodou je, že chybu v textu nevyznačí, někdy volně přeformulují zadaný text a neumí poskytnout lingvistické vysvětlení, proč je daný jev správně nebo chybně. Opravidlo má přesah ve vysvětlení a v tom, že ukáže, kde chyba v textu přesně je.
Výhodou Opravidla je otevřenost a transparentnost. Uživatel bude moci aplikaci věřit, že nesbírá jeho data, pokud s tím nesouhlasí, že výsledek opravy bude vždy stejný a předvídatelný a že dostane s navrženou opravou i správné vysvětlení. ChatGPT se totiž můžete na vysvětlení zeptat. U jazyků, na které není zaměřený, ale často dostanete chybnou odpověď.
Chcete zmínit ještě cokoliv dalšího?
Pro nás je zajímavé, že OSCARS míří na využití velkých výzkumných infrastruktur, jejichž užitečnost je pro veřejnost podle mě málo jasná. Za nás je to ale jednoznačné – jsme už dlouho součástí infrastruktury CLARIN (jazyková data a softwarové nástroje, pozn. red.). Díky infrastruktuře CLARIN můžeme publikovat data i nástroje a někdo jiný je může využít, to samé samozřejmě i naopak. Infrastruktura nabízí bezpečné, dlouhodobě udržitelné prostředí pro vědecké výsledky. Další takové infrastruktury jsou například IT4Innovations (PRACE), které nabízejí kapacitu pro vědecké výpočty. Víc se toho dá najít pod klíčovým slovem ESFRI.