Anotace
Cílem přednášky a semináře je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké studium jazyka. Úvod do korpusové lingvistiky je rozdělen do tří bloků: v prvním se účastníci seznámí se základními pojmy, v druhém se naučí zacházet s českými a některými důležitými zahraničními korpusy. Třetí blok, jehož obsah se bude řídit aktuálními zájmy účastníků, by měl studentům pomoci při sestavování a vyhodnocování vlastních malých korpusů pro speciální účely.
Sylabus
Přednáška
- Základní definice
- Základní software
- Historie korpusové lingvistiky
- Korpusové nástroje a metody vyhodnocování (regulární výrazy, základní statistické pojmy)
- České korpusy psaného jazyka
- České korpusy mluveného jazyka
- Český závislostní korpus
- Vybrané zahraniční korpusy
- Formáty korpusů (kódování, transkripce, možnosti značkování)
- Stručný úvod do XML
- Morfologické značkování (hlavní modely)
- Syntaktické značkování
Seminář
- Základní literatura
- Základní software
- Příklady z historie korpusové lingvistiky
- Regulární výrazy
- Hledání v korpusech psaného jazyka
- Hledání v korpusech mluveného jazyka
- Hledání ve stromových korpusech
- Hlavní anglické a německé korpusy
- Jak sestavit vlastní korpus
Doporučená literatura a prameny ke studiu
- Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
- Čermák – Klímová – Petkevič: Studie z korpusové lingvistiky. Praha 2000
- Čermák, F. – Křen, M. (eds.): Frekvenční slovník češtiny. Praha 2004.
- Čermák, F. – Blatná, R. (eds.): Jak využívat Český národní korpus. Praha 2005.
- Čermák, F. – Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. Praha 2006.
- Čermák, F. (ed.): Frekvenční slovník mluvené češtiny. Praha 2007.
- Kol.: Český národní korpus. Úvod a příručka uživatele. Praha 2000
- Kol.: Průvodce českým akademickým korpusem 1.0. Praha 2007
- McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001 (https://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm)
- Pražský závislostní korpus (https://ufal.mff.cuni.cz/pdt2.0/index-cz.html)
- Pražský akademický korpus (https://ufal.mff.cuni.cz/rest/CAC/doc/cac-guide/cz/html)
- Šulc Michal: Korpusová lingvistika (první vstup). Praha 1999
- Ústav Českého národního korpusu (https://ucnk.ff.cuni.cz)
Seminární projekt
Společný seminární projekt bude zacílen na sestavení korpusu esejů O. Březiny - lemmatizovaného a morfologicky anotovaného.
Požadavky
Forma ukončení kursu
- přednáška – zápočet
- seminář – zápočet + kolokvium
Požadavky pro získání atestace z přednášky
- pravidelná docházka
- úspěšné absolvování zápočtového testu
Požadavky pro získání atestace ze semináře
- pravidelná docházka, aktivita v semináři, průběžná příprava
- zápočet: úspěšně realizovaný projekt
- kolokvium: viz níže
Požadavky ke kolokviu
- podmínkou přistoupení ke kolokviu je úspěšné absolvování přednášky i semináře
- kolokvium integruje teoretické a praktické poznatky přednášky a semináře