Kvantitativní metody v lingvistice a literární vědě (VS24B)

Úvodní stránka > Kvantitativní metody v lingvistice a literární vědě (VS24B)

Kvantitativní metody v lingvistice a literární vědě

Anotace a okruhy

Kurz je zaměřen na praktické využití kvantitativních metod analýzy textu, s využitím stávajících (volně dostupných) nástrojů, příp. korpusových databází. Student bude v průběhu semináře veden k tomu, aby si osvojil nejnutnější terminologii, teorii a metody k samostatné práci s textem, a to pro analýzu z lingvistického i literárněvědného hlediska. Mezi ústřední body semináře patří zejména:

práce s korpusovými (zejm. konkordančními) nástroji, konkrétně
- tvorba a následná analýza frekvenčního slovníku textu
- vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu (a jejich vazby)
- práce s anotovanou databází a komparace s textem neanotovaným
- využití regulárních výrazů či speciálních dotazovacích jazyků k vytěžování a filtrování dat
zkoumání tematické koncentrace textu, bohatosti slovníku a dalších aspektů frekvenční struktury textu
možnosti komparace a detekce vzájemných shod či rozdílností mezi texty
sumarizace a vizualizace výsledných dat
základní principy testování hypotéz prostřednictvím vybraných statistických testů

Materiálově budeme využívat jak stávající české korpusy, tak dílčí texty, příp. literární díla vybraná k daným úkolům kvantitativně-korpusové analýzy.

Seminář proběhne ve čtyřech výukových blocích (vždy v pátek, v počítačové učebně SV-3.20, tř. Svobody). Časový rozsah jednoho bloku: 9.45–14.45 s přestávkami. Konkrétní termíny výukových bloků budou zveřejněny vždy v daném semestru před zahájením výuky.

Literatura

Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
Bartoň, T. a kol.: Statistiky češtiny. Praha 2009
Brezina, V.: Statistics in Corpus Linguistics: A Practical Guide. Cambridge: Cambridge University Press 2018
Čech, R. – Popescu, I. I. – Altmann, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc 2014
David, J. – Čech, R. – Radková, L. – Davidová Glogarová, J. – Šústková, H.: Slovo a text v historickém kontextu - perspektivy historickosémantické analýzy jazyka. Brno 2013 (vybrané stati)
Esvan, F.: Srovnávací rozbor mluvených korpusů (PMK a BMK): metodologické problémy a první výsledky. In: Čermák, F. – Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. Praha 2006, s. 95–117.
Esvan, F.: Ještě ke srovnávacímu rozboru pražských a brněnských mluvených korpusů (PMK a BMK). In: Kopřivová, M. – Waclawičová, M.: Čeština v mluveném korpusu. Praha 2008, s. 75–82.
Hladká, Z.: Teritoriálně a sociálně podmíněné diference v jazyce soukromé korespondence. In: Hladká, Z. a kol.: Soukromá korespondence jako lingvistický pramen. Brno 2013, s. 61–98.
Ibrahim, R. – Plecháč, P.: Báseň a počítač. Praha 2014
Kodýtek, V.: Mluvená čeština v Praze a Brně: sonda do mluvených korpusů. In Slovo a slovesnost 1/2007, s. 23–37.
Kol.: Statistiky češtiny. Praha 2009
Kubát, M.: Kvantitativní analýza žánrů. Ostrava 2016 (též jako disertační práce dostupná v systému STAG)
Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014
Rasinger, S. M.: Quantitative Research in Linguistics. Bloomsbury 2013 (companion website)
Těšitelová, M.: Kvantitativní lingvistika. Praha 1987 | Quantitative linguistics. Praha 1992
Těšitelová a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985
Walker, I.: Výzkumné metody a statistika. Praha 2013
Změlík, R.: Kvantitativně-korpusová analýza a literární věda. Olomouc 2015

Pozn.: K základům korpusové práce lze doporučit např. následující tituly:

Kol.: Manuál práce s ČNK (wikidokumentace). Praha 2014+
Mírovský, J.: Searching in the Prague Dependency Treebank. Praha 2009
Osolsobě, K.: Česká morfologie a korpusy. Praha 2014

Doporučená literatura k dalšímu studiu

Baayen, R. H.: Analyzing Linguistic Data. A Practical Introduction to Statistics using R. Cambridge 2008
Cvrček, V.: Kvantitativní analýza kontextu. Praha 2013
Čermák, F. – Šulc, M. (eds.): Kolokace. Praha 2006
Gries, S. Th.: Quantitative Corpus Linguistics with R. A practical introduction. Routledge 2009
Gries, S. Th.: Statistics for Linguistics with R. A practical introduction. De Gruyter Mouton 2013
Johnson, K.: Quantitative Methods in Linguistics. Blackwell 2008
Křen, M.: Odraz jazykových změn v synchronních korpusech. Praha 2013
Lockers, M. L.: Text Analysis with R for Students of Literature. Springer 2014
Těšitelová, M.: O morfologické homonymii v češtině. Praha 1966
Těšitelová, M.: Otázky lexikální statistiky. Praha 1974
Těšitelová, M.: Využití statistických metod v gramatice. Praha 1980
Volín, J.: Statistické metody ve fonetickém výzkumu. Praha 2007

Prameny: studie, prezentace, data a materiály

viz sekci Korpusy a nástroje
viz sekci Materiály
úložiště https://korpling.capsa.cz: skripty, zdrojové kódy, texty, nástroje, materiály (zaheslováno)
Jelínek - Bečka - Těšitelová: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961
ČNK: abecední a retrográdní seznamy | srovnávací seznamy
Corpus.upol.cz: korpusy a frekvenční seznamy
Versologie.cz: korpus a frekvenční seznamy poezie 19. století
Korbel: korpus a frekvenční seznamy děl J. Čepa
Stefan Th. Gries: Companion website of Quantitative corpus linguistics with R
Stefan Th. Gries: Companion website of Statistics for Linguistics with R
Harald Baayen: web pages
Stefan Evert: teaching | publications
Marco Baroni: teaching | publications

Nástroje

AntConc | Laurence Anthony: videotutoriály (youtube) (en) | manuál (en)
kWords | prezentace
R | literatura, materiály, data - viz sekce výše
QUITA | prezentace (poster) (en) | manuál (cz)
textové editory: Notepad++ | PSPad | SublimeText2
tabulkové editory: MS Excel (komerční) | LibreOffice Calc (volně dostupný)

Požadavky pro získání atestace

pravidelná docházka do semináře (nutná účast studenta vzhledem k blokovému charakteru výuky)
aktivní účast v semináři (vč. plnění zadaných úkolů)
úspěšně realizovaný seminární projekt – vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře