Projekt si klade za cíl vytvoření automatické metody pro anotaci diskurzních vztahů v češtině. Využije řady klíčových datových zdrojů, přičemž některé z nich již existují (především Pražský závislostní korpus, Penn Discourse Treebank, Prague Czech-English Dependency Treebank), některé budou vytvořeny v rámci projektu s použitím nákladově efektivních metod (elektronický slovník diskurzních konektorů, další diskurzně anotovaná data).

Projekt má tři hlavní cíle:
- vytvořit elektronický slovník českých diskurzních konektorů
- vytvořit proceduru pro automatickou anotaci diskurzních vztahů v češtině s využitím tohoto slovníku
- kromě využití již existujících dat použít anotační projekci k získání a využití dalších
anotovaných dat

Institute of Formal and Applied Linguistics

Charles University, Czech Republic
Faculty of Mathematics and Physics

Search form

CzeDParse

Automatická analýza diskurzních vztahů v češtině