Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Dokumentové inženýrství pro digitální knihovnu: rekomprese PDF s JBIG2 a další optimalizace PDF dokumentů
Autoři

SOJKA Petr HATLAPATKA Radim

Rok publikování 2010
Druh Článek ve sborníku
Konference Proceedings of DocEng 2010 conference
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www
Doi http://dx.doi.org/10.1145/1860559.1860563
Obor Informatika
Klíčová slova Authoring tools and systems; Categorization; Classification; Document presentation; Representations/Standards; Character recognition; Digital mathematical library; Digitisation workflow
Popis Tento článek popisuje několik inovativních nástrojů a transformací dokumentů, které byli vyvinuty v rámci digitální matematické knihovny DML-CZ. Jako hlavní výsledek tohoto článku je prezentován námi vyvinutý nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. V tomto článku krátce popisujeme další nástroje vyvinuté v rámci digitální knihovny. Mezi hlavní vedlejší produkty tohoto projektu patří dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.