Filozofická fakulta adoptovala sovu z brněnské zoo
Podpoří chov a ochranu ohroženého puštíka bělavého.
Pokud už máte vybrané texty k analýze, následuje výběr vhodného nástroje. Existuje celá řada možností od nástrojů, které nevyžadují žádné znalosti kódování, po programovací jazyky jako je například Python, nebo R. Záleží samozřejmě na tom, zda potřebujete provést základní operace jako zjistit počet znaků, frekvenci slov v textu, nebo třeba provést zmíněnou analýzu sentimentu.
Jedním z nástrojů, který je dle jednoho ze svých tvůrců, profesora Geoffreyho Rockwella, vstupní bránou do analýzy textů, je Voyant Tools. Voyant Tools byly vyvíjeny na Albertské univerzitě profesory Geoffreym Rockwellem a Stephenem Sinclairem, jako nástroj pro naprosté začátečníky bez znalosti kódování, aby jim formou velmi jednoduchého rozhraní a vizualizací umožnily nahlédnout do libovolného textu. Pomocí Voyant Tools zjistíte, jaká slova se nejčastěji vyskytují v textu, jak se mění jejich užití napříč textem, nebo které lokality jsou v textu zmíněny.
V základním zobrazení vidíte “word cloud”, který zobrazuje, která slova se v textu vyskytují nejčastěji. Určitě vás nepřekvapí, že word cloud bude plný předložek a spojek. Ty proto pomocí tzv. STOP LISTU vyřadíme ze seznamu, a můžeme se tak soustředit na zbylá slova. Na ukázce je vidět, jak se náhled změní po vyřazení tzv. STOP SLOV.
Pod word cloudem vám Voyant nabídne shrnutí dokumentu (případně korpusu dokumentů). Do rozhraní je totiž možné vložit nejen jeden, ale i více dokumentů. Tato záložka vám poskytne základní přehled jako je počet slov a další.
Dalším zajímavým nástrojem ve Voyantu jsou tzv. Kontexty, kde si můžete najít, mezi kterými výrazy se dané slovo nachází, určit si kolik slov před a za konkrétním výrazem vás zajímá. Tato funkce nám pomůže například ve chvíli, kdy chceme zjistit, jaké přívlastky autor dal nějakému předmětu, nebo postavě, nebo v jakém kontextu nějaké slovo použil.
Pokud se dílo, které jste vybrali odehrává ve “skutečném světě”, tedy obsahuje existující lokality, můžete si je zobrazit pomocí Voyant Dreamscape. Na ukázce je zobrazena kniha Agathy Christie Murder at Links, která se odehrává převážně v Anglii a Francii.
Voyant Tools samozřejmě obsahuje celou řadu dalších nástrojů a modulů, jako Correlations, XY graf nebo Topics – pro modelování témat.
Sketch Engine je nástrojem, ve kterém můžete pracovat nejen s existujícími korpusy, ale také v něm tvořit své vlastní, a analyzovat jejich obsah. Výhodou je, že ve Sketch Engine najdeme více než 500 korpusů, mezi kterými je například korpus Staré češtiny, celá řada webových korpusů nebo třeba korpus tweetů z období Brexitu. Sketch engine ale není jen korpusový manažer, má i celou řadu nástrojů pro analýzu textu, kterou mohou využít nejen lingvisté.
Funkce Word Sketch vám podá informace o chování slova nebo fráze v kontextu, a to na základě mnoha milionů příkladů z praxe. Výstupem je výpis slovních spojení obsahujících vámi zadaný výraz, s odkazy na každé konkrétní použití. Můžete tak například vidět, se kterými slovesy, nebo přídavnými jmény se pojí vámi zadaný objekt,
Funkce Sketch difference vám umožňuje zobrazit rozdíl mezi dvěma slovy ve stejném korpusu, nebo jedním slovem ve dvou korpusech.
Velmi užitečná a jedinečná funkce Sketch Enginu, na rozdíl od klasických tezaurů, které nabízí předem definovaný list synonym, nebo podobných slov, tezaurus ve Sketchenginu tato slova vyhodnocuje z tisíců textů dostupných v korpusech.
Jednou z funkcí je konkordance, která vám umožní vyhledávat výrazy a slova v textu v několika formách. Konkordance zobrazuje slova v kontextu textu, který zkoumáme (KWIC = keyword in context). Pokud zvolíte jednoduchý typ dotazu, můžete hledat jednotlivá slova či slovní spojení ve všech tvarech. Po vložení tvaru do vyhledávání se vám podobně jako ve Voyantu objeví kontext, ve kterém se slovo nachází.
N-gramy jsou víceslovné výrazy, tedy dvě a více slov, která se v daném korpusu velmi často vyskytují spolu. Příkladem 3 slovného výrazu je například "v tu chvíli”, “od té doby”, a tak dále. Díky nástroji N-grams můžete ve zvoleném korpusu vyhledávat 3-6 slovné výrazy.
Zajímavým, i když mnohem méně komplexním, než jsou právě Voyant a Sketch Engine je Google N-Grams. Výhoda Google n-grams je, že dokáže vyhledávat v korpusu digitalizovaných knih Google books. Tak jako n-grams ve Sketch enginu vyhledává dva a více slov, která se vyskytují vedle sebe.
Mini-nástroj, který slouží výhradně k analýze obsahu Tweetů. Umožní vám zadat klíčové slovo, a přes webové rozhraní na souvisejících tweetech provést základní analýzu sentimentu, získat převažující témata, nebo konkrétní tweety zobrazit na mapě.
Pokud byste se chtěli pustit do pokročilejší analýzy texty, a máte zkušenosti například s jazykem Python, potom vás může zajímat NLTK – neboli Natural language Toolkit, což je balíček nástrojů pro textovou analýzu v Pythonu. Pomocí něj můžete provést úkony jako je lemmatizace, nebo tokenizace, ale také vyfiltrovat z textu tzv. Stop slova, vyhledat v něm jmenné entity nebo jako v už uvedených nástrojích zkoumat konkordance a kolokace daných výrazů.
Dalšími zajímavými nástroji jsou API, které vytváří Centrum pro zpracování přirozeného jazyka. Můžete díky nim z textu extrahovat témata, zmíněné lokality, nebo provést jeho morfologickou analýzy. Jediným limitem je počet znaků, který je nastaven na 1000 znaků a počet přístupů na den (500).
Voyant Tools guide je interaktivní oficiální průvodce nástrojem Voyant Tools. Obsahuje přehled všech modulů, vizualizací a funkcí programu, a uvádí i příklady jejich použití.
V tomto kurzu vám Zuzana Nevěřilová kromě úvodu do Digitálních humanitních věd představí podrobně práci s Pythonem a zmíněným balíčkem NLTK. Dozvíte se o tom, kde nalézt textové korpusy, jak si je sami vytvořit a naučíte se základní operace s texty v Pythonu. Ke kurzu nepotřebujete předchozí znalost Pythonu, vše se naučíte právě během kurzu.
Pokud se chcete dozvědět více o celém procesu zpracování digitálních dat (nejen) v humanitních vědách, potom vás může zajímat kurz Digitální humanitní vědy. V průběhu kurzu se dozvíte, jak získat data z digitálních zdrojů, jak je čistit, přiřadit jim metadata, ale také jak je analyzovat. Jedna část se týká také dat textových, zmíněné práce s korpusy, a v průběhu lekce si vyzkoušíte programy Sketch Engine a Voyant Tools.
Online workshop, který ukazuje základy práce s Voyant Tools od Pamely Lach.
Asi nejlepším zdrojem je web Programming historian, který se zaměřuje na výuku digitálních nástrojů právě pro humanitní vědy. V oblasti textové analýzy můžete najít lekce zaměřené na Distant reading, Analýzu sentimentu, práci s korpusy nebo modelování témat. Mezi nástroje, které si můžete díky lekcím vyzkoušet jsou již zmíněný NLTK, ale také R, Mallet (nástroj pro modelování témat) nebo Antconc (nástroj pro konkordance).
V tomto kurzu, který už ale vyžaduje alespoň základní znalosti programovacích jazyků Python nebo Java, vám přední odborníci na zpracování přirozeného jazyka představí množství technik a postupů běžných v oblasti. Celý kurz je dostupný ve formě YouTube videí, a tak si můžete i jen pro zajímavost alespoň podívat na teoretická videa.
Online kurz, který připravili vyučující z Harvard University je dobrým začátkem pro ty, co se chtějí na konkrétních příkladech dozvědět, v jakých oblastech humanitních věd nám mohou počítače pomoci. Jednou z oblastí je také práce s texty, která je demonstrovaná na výzkumném projektu jednoho z profesorů.
Podpoří chov a ochranu ohroženého puštíka bělavého.
Součástí ceremonie bylo vyhlášení výsledků ankety, v níž členové fakultní komunity vybírali sovu, kterou fakulta adoptuje z brněnské ZOO.