Anotace

Cílem přednášky a semináře je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké studium jazyka. Úvod do korpusové lingvistiky je rozdělen do tří bloků: v prvním se účastníci seznámí se základními pojmy, v druhém se naučí zacházet s českými a některými důležitými zahraničními korpusy. Třetí blok, jehož obsah se bude řídit aktuálními zájmy účastníků, by měl studentům pomoci při sestavování a vyhodnocování vlastních malých korpusů pro speciální účely.

Sylabus

 

Přednáška

  1. Základní definice
  2. Základní software
  3. Historie korpusové lingvistiky
  4. Korpusové nástroje a metody vyhodnocování (regulární výrazy, základní statistické pojmy)
  5. České korpusy psaného jazyka
  6. České korpusy mluveného jazyka
  7. Český závislostní korpus
  8. Vybrané zahraniční korpusy
  9. Formáty korpusů (kódování, transkripce, možnosti značkování)
  10. Stručný úvod do XML
  11. Morfologické značkování (hlavní modely)
  12. Syntaktické značkování

Seminář

  1. Základní literatura
  2. Základní software
  3. Příklady z historie korpusové lingvistiky
  4. Regulární výrazy
  5. Hledání v korpusech psaného jazyka
  6. Hledání v korpusech mluveného jazyka
  7. Hledání ve stromových korpusech
  8. Hlavní anglické a německé korpusy
  9. Jak sestavit vlastní korpus
     

 

Doporučená literatura a prameny ke studiu

  • Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
  • Čermák – Klímová – Petkevič: Studie z korpusové lingvistiky. Praha 2000
  • Čermák, F. – Křen, M. (eds.): Frekvenční slovník češtiny. Praha 2004.
  • Čermák, F. – Blatná, R. (eds.): Jak využívat Český národní korpus. Praha 2005.
  • Čermák, F. – Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. Praha 2006.
  • Čermák, F. (ed.): Frekvenční slovník mluvené češtiny. Praha 2007.
  • Kol.: Český národní korpus. Úvod a příručka uživatele. Praha 2000
  • Kol.: Průvodce českým akademickým korpusem 1.0. Praha 2007
  • McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001 (http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm)
  • Pražský závislostní korpus (http://ufal.mff.cuni.cz/pdt2.0/index-cz.html)
  • Pražský akademický korpus (http://ufal.mff.cuni.cz/rest/CAC/doc/cac-guide/cz/html)
  • Šulc Michal: Korpusová lingvistika (první vstup). Praha 1999
  • Ústav Českého národního korpusu (http://ucnk.ff.cuni.cz)

Seminární projekt

Společný seminární projekt bude zacílen na sestavení korpusu esejů O. Březiny - lemmatizovaného a morfologicky anotovaného.

Požadavky

Forma ukončení kursu
  • přednáška – zápočet
  • seminář – zápočet + kolokvium
Požadavky pro získání atestace z přednášky
  • pravidelná docházka
  • úspěšné absolvování zápočtového testu
Požadavky pro získání atestace ze semináře
  • pravidelná docházka, aktivita v semináři, průběžná příprava
  • zápočet: úspěšně realizovaný projekt
  • kolokvium: viz níže
Požadavky ke kolokviu
  • podmínkou přistoupení ke kolokviu je úspěšné absolvování přednášky i semináře
  • kolokvium integruje teoretické a praktické poznatky přednášky a semináře