Korpusová lingvistika

Anotace

Cílem kurzu je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké/exaktní studium jazyka. Účastníci kurzu seznámí se základními pojmy korpusové lingvistiky, korpusovými projekty a naučí se zacházet s několika českými korpusy prostřednictvím specializovaných softwarových nástrojů.

Okruhy

 1. Základní pojmy, literatura a software, typy korpusů; metodologie: velikost korpusů, reprezentativnost a vyváženost dat
 2. České korpusy psaného a mluveného jazyka: charakteristika a možnosti vytěžování dat
 3. Ostatní projekty: elektronické slovníky, databáze, literární/literárněvědné korpusy
 4. Korpusové nástroje a metody vyhodnocování (KWIC, konkordance, kolokace; regulární a booleovské výrazy, statistika: MI-score, T-score; frekvenční distribuce)
 5. Lingvistická anotace: lemmatizace, morfologické a syntaktické značkování (hlavní modely)
 6. Strukturované vyhledávání dat - dotazovací jazyk CQL (regulární a booleovské výrazy)
 7. Vnitřní struktura korpusu: formáty korpusů a anotace dat (strukturace dat a metadat)
 8. Práce s lingvistickými daty v různých korpusových aplikacích

 

Důležitou součástí práce v semináři bude vyhledávání dat a vytváření jednoduchých i složitěji strukturovaných vyhledávacích formalismů v korpusových manažerech.

Doporučená literatura

Pozn.: Řada dalších titulů, zejm. dílčích studií, k jednotlivým tématům bude doporučena v průběhu kurzu. 

 

Prameny

Pozn.: Řada dalších korpusových projektů bude doporučena v průběhu kurzu.

Požadavky

forma ukončení kurzu

 • zkouška (kombinovaná forma)

 

požadavky pro získání atestace

 • pravidelná docházka do semináře (tolerance: pouze 1 absence)
 • aktivní účast v semináři, včetně plnění zadaných úkolů
 • úspěšně realizovaný seminární projekt - vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů záskaných v průběhu semináře