Korpusová lingvistika

Anotace

Cílem kurzu je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké/exaktní studium jazyka. Účastníci kurzu seznámí se základními pojmy korpusové lingvistiky, korpusovými projekty a naučí se zacházet s několika českými korpusy prostřednictvím specializovaných softwarových nástrojů.

Okruhy

  1. Základní pojmy, literatura a software, typy korpusů; metodologie: velikost korpusů, reprezentativnost a vyváženost dat
  2. České korpusy psaného a mluveného jazyka: charakteristika a možnosti vytěžování dat
  3. Ostatní projekty: elektronické slovníky, databáze, literární/literárněvědné korpusy
  4. Korpusové nástroje a metody vyhodnocování (KWIC, konkordance, kolokace; regulární a booleovské výrazy, statistika: MI-score, T-score; frekvenční distribuce)
  5. Lingvistická anotace: lemmatizace, morfologické a syntaktické značkování (hlavní modely)
  6. Strukturované vyhledávání dat - dotazovací jazyk CQL (regulární a booleovské výrazy)
  7. Vnitřní struktura korpusu: formáty korpusů a anotace dat (strukturace dat a metadat)
  8. Práce s lingvistickými daty v různých korpusových aplikacích

 

Důležitou součástí práce v semináři bude vyhledávání dat a vytváření jednoduchých i složitěji strukturovaných vyhledávacích formalismů v korpusových manažerech.

Doporučená literatura

  • Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
  • Benko, V. a kol.: Webové korpusy Aranea. Bratislava 2019
  • Čermák, F. - Blatná, R. (eds.): Jak využívat Český národní korpus. Praha 2005 (opravy: ve formátech RTF a PDF)
  • Kol.: Manuál práce s ČNK (wikidokumentace). Praha 2014+
  • Kol.: Průvodce českým akademickým korpusem 2.0. Praha 2008 (verze 1.0, Praha 2007)
  • McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001
  • Mírovský, J.: Searching in the Prague Dependency Treebank. Praha 2009
  • Osolsobě, K.: Česká morfologie a korpusy. Praha 2014
  • Ibrahim, R. – Plecháč, P.: Báseň a počítač. Praha 2014
  • Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014

Pozn.: Řada dalších titulů, zejm. dílčích studií, k jednotlivým tématům bude doporučena v průběhu kurzu. 

 

Prameny

Pozn.: Řada dalších korpusových projektů bude doporučena v průběhu kurzu.

Požadavky

forma ukončení kurzu

  • zkouška (kombinovaná forma)

 

požadavky pro získání atestace

  • pravidelná docházka do semináře (tolerance: pouze 1 absence)
  • aktivní účast v semináři, včetně plnění zadaných úkolů
  • úspěšně realizovaný seminární projekt - vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů záskaných v průběhu semináře