Kvantitativní metody v lingvistice a literární vědě
Anotace a okruhy
Kurz je zaměřen na praktické využití kvantitativních metod analýzy textu, s využitím stávajících (volně dostupných) nástrojů, příp. korpusových databází. Student bude v průběhu semináře veden k tomu, aby si osvojil nejnutnější terminologii, teorii a metody k samostatné práci s textem, a to pro analýzu z lingvistického i literárněvědného hlediska. Mezi ústřední body semináře patří zejména:
- práce s korpusovými (zejm. konkordančními) nástroji, konkrétně
- tvorba a následná analýza frekvenčního slovníku textu
- vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu (a jejich vazby)
- práce s anotovanou databází a komparace s textem neanotovaným
- využití regulárních výrazů či speciálních dotazovacích jazyků k vytěžování a filtrování dat
- zkoumání tematické koncentrace textu, bohatosti slovníku a dalších aspektů frekvenční struktury textu
- možnosti komparace a detekce vzájemných shod či rozdílností mezi texty
- sumarizace a vizualizace výsledných dat
- základní principy testování hypotéz prostřednictvím vybraných statistických testů
Materiálově budeme využívat jak stávající české korpusy, tak dílčí texty, příp. literární díla vybraná k daným úkolům kvantitativně-korpusové analýzy.
Seminář proběhne ve čtyřech výukových blocích (vždy v pátek, v počítačové učebně SV-3.20, tř. Svobody). Časový rozsah jednoho bloku: 9.45–14.45 s přestávkami. Konkrétní termíny výukových bloků budou zveřejněny vždy v daném semestru před zahájením výuky.
Literatura
- Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
- Bartoň, T. a kol.: Statistiky češtiny. Praha 2009
- Brezina, V.: Statistics in Corpus Linguistics: A Practical Guide. Cambridge: Cambridge University Press 2018
- Čech, R. – Popescu, I. I. – Altmann, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc 2014
- David, J. – Čech, R. – Radková, L. – Davidová Glogarová, J. – Šústková, H.: Slovo a text v historickém kontextu - perspektivy historickosémantické analýzy jazyka. Brno 2013 (vybrané stati)
- Esvan, F.: Srovnávací rozbor mluvených korpusů (PMK a BMK): metodologické problémy a první výsledky. In: Čermák, F. – Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. Praha 2006, s. 95–117.
- Esvan, F.: Ještě ke srovnávacímu rozboru pražských a brněnských mluvených korpusů (PMK a BMK). In: Kopřivová, M. – Waclawičová, M.: Čeština v mluveném korpusu. Praha 2008, s. 75–82.
- Hladká, Z.: Teritoriálně a sociálně podmíněné diference v jazyce soukromé korespondence. In: Hladká, Z. a kol.: Soukromá korespondence jako lingvistický pramen. Brno 2013, s. 61–98.
- Ibrahim, R. – Plecháč, P.: Báseň a počítač. Praha 2014
- Kodýtek, V.: Mluvená čeština v Praze a Brně: sonda do mluvených korpusů. In Slovo a slovesnost 1/2007, s. 23–37.
- Kol.: Statistiky češtiny. Praha 2009
- Kubát, M.: Kvantitativní analýza žánrů. Ostrava 2016 (též jako disertační práce dostupná v systému STAG)
- Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014
- Rasinger, S. M.: Quantitative Research in Linguistics. Bloomsbury 2013 (companion website)
- Těšitelová, M.: Kvantitativní lingvistika. Praha 1987 | Quantitative linguistics. Praha 1992
- Těšitelová a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985
- Walker, I.: Výzkumné metody a statistika. Praha 2013
- Změlík, R.: Kvantitativně-korpusová analýza a literární věda. Olomouc 2015
Pozn.: K základům korpusové práce lze doporučit např. následující tituly:
- Kol.: Manuál práce s ČNK (wikidokumentace). Praha 2014+
- Mírovský, J.: Searching in the Prague Dependency Treebank. Praha 2009
- Osolsobě, K.: Česká morfologie a korpusy. Praha 2014
Doporučená literatura k dalšímu studiu
- Baayen, R. H.: Analyzing Linguistic Data. A Practical Introduction to Statistics using R. Cambridge 2008
- Cvrček, V.: Kvantitativní analýza kontextu. Praha 2013
- Čermák, F. – Šulc, M. (eds.): Kolokace. Praha 2006
- Gries, S. Th.: Quantitative Corpus Linguistics with R. A practical introduction. Routledge 2009
- Gries, S. Th.: Statistics for Linguistics with R. A practical introduction. De Gruyter Mouton 2013
- Johnson, K.: Quantitative Methods in Linguistics. Blackwell 2008
- Křen, M.: Odraz jazykových změn v synchronních korpusech. Praha 2013
- Lockers, M. L.: Text Analysis with R for Students of Literature. Springer 2014
- Těšitelová, M.: O morfologické homonymii v češtině. Praha 1966
- Těšitelová, M.: Otázky lexikální statistiky. Praha 1974
- Těšitelová, M.: Využití statistických metod v gramatice. Praha 1980
- Volín, J.: Statistické metody ve fonetickém výzkumu. Praha 2007
Prameny: studie, prezentace, data a materiály
- viz sekci Korpusy a nástroje
- viz sekci Materiály
- úložiště https://korpling.capsa.cz: skripty, zdrojové kódy, texty, nástroje, materiály (zaheslováno)
- Jelínek - Bečka - Těšitelová: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961
- ČNK: abecední a retrográdní seznamy | srovnávací seznamy
- Corpus.upol.cz: korpusy a frekvenční seznamy
- Versologie.cz: korpus a frekvenční seznamy poezie 19. století
- Korbel: korpus a frekvenční seznamy děl J. Čepa
- Stefan Th. Gries: Companion website of Quantitative corpus linguistics with R
- Stefan Th. Gries: Companion website of Statistics for Linguistics with R
- Harald Baayen: web pages
- Stefan Evert: teaching | publications
- Marco Baroni: teaching | publications
Nástroje
- AntConc | Laurence Anthony: videotutoriály (youtube) (en) | manuál (en)
- kWords | prezentace
- R | literatura, materiály, data - viz sekce výše
- QUITA | prezentace (poster) (en) | manuál (cz)
- textové editory: Notepad++ | PSPad | SublimeText2
- tabulkové editory: MS Excel (komerční) | LibreOffice Calc (volně dostupný)
Požadavky pro získání atestace
- pravidelná docházka do semináře (nutná účast studenta vzhledem k blokovému charakteru výuky)
- aktivní účast v semináři (vč. plnění zadaných úkolů)
- úspěšně realizovaný seminární projekt – vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře