Co lze o vývoji slovotvorných vzorců vyčíst z velkých dat v Google books?

5. prosince 2024
10:30 – 11:30
zasedaní místnost děkanátu, budova C (2. podlaží), Arna Nováka 1, Brno

Do přednáškového cyklu Artes liberales Brunenses čestných a externích členů Vědecké rady FF MU přijal pozvání prof. PhDr. Jan Radimský, Ph.D., ředitel Ústavu romanistiky Filozofické fakulty Jihočeské univerzity v Českých Budějovicích.

K tradičním zájmům jazykovědy patří již přinejmenším od 19. století zkoumání etymologie jednotlivých slov, ale ke vzniku a vývoji komplexních slovotvorných vzorců se systematická pozornost lingvistů obrací teprve v poslední době. Jedním z důvodů je i to, že postupně narůstají empirické zdroje dat dokladující starší vývojové fáze jazyka – tedy diachronní textové korpusy. Ve srovnání se synchronními korpusy, jejichž velikost dosahuje dnes běžně i jednotek miliard slov, jsou ale dostupné diachronní korpusy pro daný účel stále příliš malé. Velkou příležitostí pro výzkum se tak stává projekt Google books, kam společnost Google postupně ukládá a zpřístupňuje v digitalizované podobě knihy a další publikované tištěné materiály z veřejných knihoven, a to od prvotisků po nejnovější prameny. Lingvistům a dalším vědcům jsou tato data přístupná nejen prostřednictvím Google books, kde si lze jednotlivé knihy číst a procházet kvalitativně, ale také formou seznamů slov a jejich kombinací s vývojem jejich frekvence v čase skrz službu Google n-grams, která umožňuje kvantitativní statistické zpracování. Z hlediska kvantity jde v pravém slova smyslu o big data, která pokrývají (hrubým odhadem) až 20 % tištěných materiálů, které kdy byly publikovány.

Cílem přednášky je ukázat, jak lze tato data využít pro výzkum vzniku, vývoje a vzájemné konkurence slovotvorných vzorců, a to na příkladu italských kompozit typu N-N a italských deverbálních jmen v časovém období od poloviny 19. století po současnost.

Načítám mapu…

Sdílení události