Kvantitativní metody v lingvistice a literární vědě

Anotace a okruhy 

Kurz je zaměřen na praktické využití kvantitativních metod analýzy textu, s využitím stávajících (volně dotupných) nástrojů, příp. korpusových databází. Student bude v průběhu semináře veden k tomu, aby si osvojil nejnutnější terminologii, teorii a metody k samostatné práci s textem, a to pro analýzu z lingvistického i literárněvědného hlediska. Mezi ústředními body semináře patří zejména: 

 • práce s korpusovými (zejm. konkordančními) nástroji, konkrétně 
  • tvorba a následná analýza frekvenčního slovníku textu
  • vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu (a jejich vazby)
  • práce s anotovanou databází a komparace s textem neanotovaným
  • využití regulárních výrazů či speciálních dotazovacích jazyků k vytěžování a filtrování dat
 • zkoumání tematické koncentrace textu, bohatosti slovníku a dalších aspektů frekvenční struktury textu
 • možnosti komparace a detekce vzájemných shod či rozdílností mezi texty
 • sumarizace a vizualizace výsledných dat
 • základní principy testování hypotéz prostřednictvím vybraných statistických testů
 
Materiálově budeme využívat jak stávající české korpusy, tak dílčí texty, příp. literární díla vybraná k daným úkolům kvantitativně-korpusové analýzy.
 
Seminář proběhne ve čtyřech výukových blocích (vždy v pátek, v počítačové učebně SV-3.20, tř. Svobody). Časový rozsah jednoho bloku: 9.45–14.45 s přestávkami. Konkrétní termíny výukových bloků budou zveřejněny vždy v daném semestru před zahájením výuky.

Literatura

 • Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
 • Bartoň, T. a kol.: Statistiky češtiny. Praha 2009
 • Čech, R. – Popescu, I. I. – Altmann, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc 2014
 • David, J. – Čech, R. – Radková, L. – Davidová Glogarová, J. – Šústková, H.: Slovo a text v historickém kontextu - perspektivy historickosémantické analýzy jazyka. Brno 2013 (vybrané stati)
 • Esvan, F.: Srovnávací rozbor mluvených korpusů (PMK a BMK): metodologické problémy a první výsledky. In: Čermák, F. – Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. Praha 2006, s. 95–117.
 • Esvan, F.: Ještě ke srovnávacímu rozboru pražských a brněnských mluvených korpusů (PMK a BMK). In: Kopřivová, M. – Waclawičová, M.: Čeština v mluveném korpusu. Praha 2008, s. 75–82.
 • Hladká, Z.: Teritoriálně a sociálně podmíněné diference v jazyce soukromé korespondence. In: Hladká, Z. a kol.: Soukromá korespondence jako lingvistický pramen. Brno 2013, s. 61–98.
 • Ibrahim, R. – Plecháč, P.: Báseň a počítač. Praha 2014
 • Kodýtek, V.: Mluvená čeština v Praze a Brně: sonda do mluvených korpusů. In Slovo a slovesnost 1/2007, s. 23–37.
 • Kol.: Statistiky češtiny. Praha 2009
 • Kubát, M.: Kvantitativní analýza žánrů. Ostrava 2016 (též jako disertační práce dostupná v systému STAG)
 • Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014
 • Rasinger, S. M.: Quantitative Research in Linguistics. Bloomsbury 2013 (companion website)
 • Těšitelová, M.: Kvantitativní lingvistika. Praha 1987 | Quantitative linguistics. Praha 1992
 • Těšitelová a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985
 • Walker, I.: Výzkumné metody a statistika. Praha 2013
 • Změlík, R.: Kvantitativně-korpusová analýza a literární věda. Olomouc 2015

 

Pozn.: K základům korpusové práce lze doporučit např. následující tituly:

 • Kol.: Manuál práce s ČNK (wikidokumentace). Praha 2014+
 • Mírovský, J.: Searching in the Prague Dependency Treebank. Praha 2009
 • Osolsobě, K.: Česká morfologie a korpusy. Praha 2014

 

Doporučená literatura k dalšímu studiu

 • Baayen, R. H.: Analyzing Linguistic Data. A Practical Introduction to Statistics using R. Cambridge 2008
 • Cvrček, V.: Kvantitativní analýza kontextu. Praha 2013
 • Čermák, F. – Šulc, M. (eds.): Kolokace. Praha 2006
 • Gries, S. Th.: Quantitative Corpus Linguistics with R. A practical introduction. Routledge 2009
 • Gries, S. Th.: Statistics for Linguistics with R. A practical introduction. De Gruyter Mouton 2013
 • Johnson, K.: Quantitative Methods in Linguistics. Blackwell 2008
 • Křen, M.: Odraz jazykových změn v synchronních korpusech. Praha 2013
 • Lockers, M. L.: Text Analysis with R for Students of Literature. Springer 2014
 • Těšitelová, M.: O morfologické homonymii v češtině. Praha 1966
 • Těšitelová, M.: Otázky lexikální statistiky. Praha 1974
 • Těšitelová, M.: Využití statistických metod v gramatice. Praha 1980
 • Volín, J.: Statistické metody ve fonetickém výzkumu. Praha 2007

 

Prameny: studie, prezentace, data a materiály

 

Nástroje

Požadavky pro získání atestace

 • pravidelná docházka do semináře (nutná účast studenta vzhledem k blokovému charakteru výuky)
 • aktivní účast v semináři (vč. plnění zadaných úkolů)
 • úspěšně realizovaný seminární projekt – vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře