Počítačové zpracování lingvistických dat
Anotace a okruhy
Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem. Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány:
- Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný – XML vs. nestrukturovaný, tzv. plain text „.txt“).
- Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická.
- Nástroje: příprava a zpracování (zabudování do korpusového manažeru).
- Korpus a vytěžování dat (dotazovací jazyk, anotace, nástroje).
Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty – Manatee/Bonito, AntConc, Xaira, QUITA, R ad.); pozornost je věnována i možnostem automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů, lemmatizace, značkování ad.). Z metodologického hlediska jsou důsledně rozlišována data vs. metadata, dále jsou probírány možnosti a typy anotace (technická, strukturní, lingvistická). Součástí semináře budou tzv. seminární projekty. Student bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus pro speciální účely.
Doporučená literatura
- Baayen, R. H.: Analyzing Linguistic D. Cambridge 2008 ata. A Practical Introduction to Statistics using R
- Baker, P. – Hardie, A. – McEnery, T.: A Glossary of Corpus Linguistics. Edinburgh 2006
- Bradley, N.: XML – kompletní průvodce. Praha, Grada 2000.
- Čech, R. – Popescu, I. I. – Altmann, G.: Metody kvantitativní analýzy (nejen) básnických textů. Olomouc 2014
- Čermák – Klímová – Petkevič: Studie z korpusové lingvistiky. Praha 2000
- Kosek, J.: XML pro každého (podrobný průvodce). Praha, Grada 2000
- Pořízka, P.: Tvorba korpusů a vytěžování jazykových dat. Olomouc 2014
- Wynne Martin (ed.): Developing Linguistic Corpora: A Guide to Good Practice. Oxford 2005
Pozn.: Řada dalších titulů k jednotlivým tématům bude doporučena v průběhu kurzu.
Požadavky pro získání atestace
- pravidelná docházka do semináře (tolerance: pouze 1 absence)
- aktivní účast v semináři (vč. plnění zadaných úkolů)
- úspěšně realizovaný seminární projekt – vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře