Počítačové zpracování lingvistických dat

Anotace a okruhy 

Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem. Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány:

  1. Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný – XML vs. nestrukturovaný, tzv. plain text „.txt“).
  2. Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická.
  3. Nástroje: příprava a zpracování (zabudování do korpusového manažeru).
  4. Korpus a vytěžování dat (dotazovací jazyk, anotace, nástroje).

 

Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty – Manatee/Bonito, AntConc, Xaira, QUITA, R ad.); pozornost je věnována i možnostem automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů, lemmatizace, značkování ad.). Z metodologického hlediska jsou důsledně rozlišována data vs. metadata, dále jsou probírány možnosti a typy anotace (technická, strukturní, lingvistická). Součástí semináře budou tzv. seminární projekty. Student bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus pro speciální účely.

Doporučená literatura 

 Pozn.: Řada dalších titulů k jednotlivým tématům bude doporučena v průběhu kurzu.

Požadavky pro získání atestace

  • pravidelná docházka do semináře (tolerance: pouze 1 absence)
  • aktivní účast v semináři (vč. plnění zadaných úkolů)
  • úspěšně realizovaný seminární projekt – vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře