chared: Character Encoding Detection with a Known Language
Autoři | |
---|---|
Rok publikování | 2011 |
Druh | Článek ve sborníku |
Konference | RASLAN 2011 |
Fakulta / Pracoviště MU | |
Citace | POMIKÁLEK, Jan a Vít SUCHOMEL. chared: Character Encoding Detection with a Known Language. In Aleš Horák, Pavel Rychlý. RASLAN 2011. 5. vyd. Brno, Czech Republic: Tribun EU, 2011, s. 125-129. ISBN 978-80-263-0077-9. |
www | https://nlp.fi.muni.cz/raslan/2011/paper16.pdf |
Obor | Informatika |
Klíčová slova | character encoding; character encoding detection; charset; Unicode |
Popis | chared je systém, který dokáže detekovat kódování znaků textu dokumentu, za předpokladu, že jazyk dokumentu je znám. Systém podporuje širokou škálu jazyků a nejčastěji používaná kódování znaků. Článek vysvětluje detaily algoritmu, popisuje proces vytváření modelů pro různé jazyky a prezentuje výsledky vyhodnocení na kolekci webových stránek. |
Související projekty: |