Korpusová lingvistika

Anotace

Cílem kurzu je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké/exaktní studium jazyka. Účastníci kurzu seznámí se základními pojmy korpusové lingvistiky, korpusovými projekty a naučí se zacházet s několika českými korpusy prostřednictvím specializovaných softwarových nástrojů.

Okruhy

  1. Základní pojmy, literatura a software, typy korpusů; metodologie: velikost korpusů, reprezentativnost a vyváženost dat
  2. České korpusy psaného a mluveného jazyka: charakteristika a možnosti vytěžování dat
  3. Ostatní projekty: elektronické slovníky, databáze, literární/literárněvědné korpusy
  4. Korpusové nástroje a metody vyhodnocování (KWIC, konkordance, kolokace; regulární a booleovské výrazy, statistika: MI-score, T-score; frekvenční distribuce)
  5. Lingvistická anotace: lemmatizace, morfologické a syntaktické značkování (hlavní modely)
  6. Strukturované vyhledávání dat - dotazovací jazyk CQL (regulární a booleovské výrazy)
  7. Vnitřní struktura korpusu: formáty korpusů a anotace dat (strukturace dat a metadat)
  8. Práce s lingvistickými daty v různých korpusových aplikacích

 

Důležitou součástí práce v semináři bude vyhledávání dat a vytváření jednoduchých i složitěji strukturovaných vyhledávacích formalismů v korpusových manažerech.

Doporučená literatura

Pozn.: Řada dalších titulů, zejm. dílčích studií, k jednotlivým tématům bude doporučena v průběhu kurzu. 

 

Prameny

Pozn.: Řada dalších korpusových projektů bude doporučena v průběhu kurzu.

Požadavky

forma ukončení kurzu

  • zkouška (kombinovaná forma)

 

požadavky pro získání atestace

  • pravidelná docházka do semináře (tolerance: pouze 1 absence)
  • aktivní účast v semináři, včetně plnění zadaných úkolů
  • úspěšně realizovaný seminární projekt - vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů záskaných v průběhu semináře