Kvantitativní metody v lingvistice a literární vědě

Anotace a okruhy 

Kurz je zaměřen na praktické využití kvantitativních metod analýzy textu, s využitím stávajících (volně dostupných) nástrojů, příp. korpusových databází. Student bude v průběhu semináře veden k tomu, aby si osvojil nejnutnější terminologii, teorii a metody k samostatné práci s textem, a to pro analýzu z lingvistického i literárněvědného hlediska. Mezi ústřední body semináře patří zejména: 

  • práce s korpusovými (zejm. konkordančními) nástroji, konkrétně 
    • tvorba a následná analýza frekvenčního slovníku textu
    • vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu (a jejich vazby)
    • práce s anotovanou databází a komparace s textem neanotovaným
    • využití regulárních výrazů či speciálních dotazovacích jazyků k vytěžování a filtrování dat
  • zkoumání tematické koncentrace textu, bohatosti slovníku a dalších aspektů frekvenční struktury textu
  • možnosti komparace a detekce vzájemných shod či rozdílností mezi texty
  • sumarizace a vizualizace výsledných dat
  • základní principy testování hypotéz prostřednictvím vybraných statistických testů
 
Materiálově budeme využívat jak stávající české korpusy, tak dílčí texty, příp. literární díla vybraná k daným úkolům kvantitativně-korpusové analýzy.
 
Seminář proběhne ve čtyřech výukových blocích (vždy v pátek, v počítačové učebně SV-3.20, tř. Svobody). Časový rozsah jednoho bloku: 9.45–14.45 s přestávkami. Konkrétní termíny výukových bloků budou zveřejněny vždy v daném semestru před zahájením výuky.

Literatura

  • Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
  • Bartoň, T. a kol.: Statistiky češtiny. Praha 2009
  • Brezina, V.: Statistics in Corpus Linguistics: A Practical Guide. Cambridge: Cambridge University Press 2018
  • Čech, R. – Popescu, I. I. – Altmann, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc 2014
  • David, J. – Čech, R. – Radková, L. – Davidová Glogarová, J. – Šústková, H.: Slovo a text v historickém kontextu - perspektivy historickosémantické analýzy jazyka. Brno 2013 (vybrané stati)
  • Esvan, F.: Srovnávací rozbor mluvených korpusů (PMK a BMK): metodologické problémy a první výsledky. In: Čermák, F. – Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. Praha 2006, s. 95–117.
  • Esvan, F.: Ještě ke srovnávacímu rozboru pražských a brněnských mluvených korpusů (PMK a BMK). In: Kopřivová, M. – Waclawičová, M.: Čeština v mluveném korpusu. Praha 2008, s. 75–82.
  • Hladká, Z.: Teritoriálně a sociálně podmíněné diference v jazyce soukromé korespondence. In: Hladká, Z. a kol.: Soukromá korespondence jako lingvistický pramen. Brno 2013, s. 61–98.
  • Ibrahim, R. – Plecháč, P.: Báseň a počítač. Praha 2014
  • Kodýtek, V.: Mluvená čeština v Praze a Brně: sonda do mluvených korpusů. In Slovo a slovesnost 1/2007, s. 23–37.
  • Kol.: Statistiky češtiny. Praha 2009
  • Kubát, M.: Kvantitativní analýza žánrů. Ostrava 2016 (též jako disertační práce dostupná v systému STAG)
  • Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014
  • Rasinger, S. M.: Quantitative Research in Linguistics. Bloomsbury 2013 (companion website)
  • Těšitelová, M.: Kvantitativní lingvistika. Praha 1987 | Quantitative linguistics. Praha 1992
  • Těšitelová a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985
  • Walker, I.: Výzkumné metody a statistika. Praha 2013
  • Změlík, R.: Kvantitativně-korpusová analýza a literární věda. Olomouc 2015

 

Pozn.: K základům korpusové práce lze doporučit např. následující tituly:

  • Kol.: Manuál práce s ČNK (wikidokumentace). Praha 2014+
  • Mírovský, J.: Searching in the Prague Dependency Treebank. Praha 2009
  • Osolsobě, K.: Česká morfologie a korpusy. Praha 2014

 

Doporučená literatura k dalšímu studiu

  • Baayen, R. H.: Analyzing Linguistic Data. A Practical Introduction to Statistics using R. Cambridge 2008
  • Cvrček, V.: Kvantitativní analýza kontextu. Praha 2013
  • Čermák, F. – Šulc, M. (eds.): Kolokace. Praha 2006
  • Gries, S. Th.: Quantitative Corpus Linguistics with R. A practical introduction. Routledge 2009
  • Gries, S. Th.: Statistics for Linguistics with R. A practical introduction. De Gruyter Mouton 2013
  • Johnson, K.: Quantitative Methods in Linguistics. Blackwell 2008
  • Křen, M.: Odraz jazykových změn v synchronních korpusech. Praha 2013
  • Lockers, M. L.: Text Analysis with R for Students of Literature. Springer 2014
  • Těšitelová, M.: O morfologické homonymii v češtině. Praha 1966
  • Těšitelová, M.: Otázky lexikální statistiky. Praha 1974
  • Těšitelová, M.: Využití statistických metod v gramatice. Praha 1980
  • Volín, J.: Statistické metody ve fonetickém výzkumu. Praha 2007

 

Prameny: studie, prezentace, data a materiály

 

Nástroje

Požadavky pro získání atestace

  • pravidelná docházka do semináře (nutná účast studenta vzhledem k blokovému charakteru výuky)
  • aktivní účast v semináři (vč. plnění zadaných úkolů)
  • úspěšně realizovaný seminární projekt – vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře