Korpusová lingvistika
Anotace
Cílem kurzu je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké/exaktní studium jazyka. Účastníci kurzu seznámí se základními pojmy korpusové lingvistiky, korpusovými projekty a naučí se zacházet s několika českými korpusy prostřednictvím specializovaných softwarových nástrojů.
Okruhy
- Základní pojmy, literatura a software, typy korpusů; metodologie: velikost korpusů, reprezentativnost a vyváženost dat
- České korpusy psaného a mluveného jazyka: charakteristika a možnosti vytěžování dat
- Ostatní projekty: elektronické slovníky, databáze, literární/literárněvědné korpusy
- Korpusové nástroje a metody vyhodnocování (KWIC, konkordance, kolokace; regulární a booleovské výrazy, statistika: MI-score, T-score; frekvenční distribuce)
- Lingvistická anotace: lemmatizace, morfologické a syntaktické značkování (hlavní modely)
- Strukturované vyhledávání dat - dotazovací jazyk CQL (regulární a booleovské výrazy)
- Vnitřní struktura korpusu: formáty korpusů a anotace dat (strukturace dat a metadat)
- Práce s lingvistickými daty v různých korpusových aplikacích
Důležitou součástí práce v semináři bude vyhledávání dat a vytváření jednoduchých i složitěji strukturovaných vyhledávacích formalismů v korpusových manažerech.
Doporučená literatura
- Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
- Benko, V. a kol.: Webové korpusy Aranea. Bratislava 2019
- Čermák, F. - Blatná, R. (eds.): Jak využívat Český národní korpus. Praha 2005 (opravy: ve formátech RTF a PDF)
- Kol.: Manuál práce s ČNK (wikidokumentace). Praha 2014+
- Kol.: Průvodce českým akademickým korpusem 2.0. Praha 2008 (verze 1.0, Praha 2007)
- McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001
- Mírovský, J.: Searching in the Prague Dependency Treebank. Praha 2009
- Osolsobě, K.: Česká morfologie a korpusy. Praha 2014
- Ibrahim, R. – Plecháč, P.: Báseň a počítač. Praha 2014
- Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014
Pozn.: Řada dalších titulů, zejm. dílčích studií, k jednotlivým tématům bude doporučena v průběhu kurzu.
Prameny
- viz sekci Korpusy a nástroje
Pozn.: Řada dalších korpusových projektů bude doporučena v průběhu kurzu.
Požadavky
forma ukončení kurzu
- zkouška (kombinovaná forma)
požadavky pro získání atestace
- pravidelná docházka do semináře (tolerance: pouze 1 absence)
- aktivní účast v semináři, včetně plnění zadaných úkolů
- úspěšně realizovaný seminární projekt - vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů záskaných v průběhu semináře