Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

RYGL Jan

Rok publikování 2011
Druh Účelové publikace
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Popis Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme či nahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češtině. Dosud se většina měření prováděla na anglicky psaných textech (knihy, novinové články, zřídka e-maily) a chyběla možnost srovnání při vývoji aplikací pro češtinu a jí podobné jazyky.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.