Projekt si klade za cíl vytvoření automatické metody pro anotaci diskurzních vztahů v češtině. Využije řady klíčových datových zdrojů, přičemž některé z nich již existují (především Pražský závislostní korpus, Penn Discourse Treebank, Prague Czech-English Dependency Treebank), některé budou vytvořeny v rámci projektu s použitím nákladově efektivních metod (elektronický slovník diskurzních konektorů, další diskurzně anotovaná data).
Projekt má tři hlavní cíle:
- vytvořit elektronický slovník českých diskurzních konektorů
- vytvořit proceduru pro automatickou anotaci diskurzních vztahů v češtině s využitím tohoto slovníku
- kromě využití již existujících dat použít anotační projekci k získání a využití dalších
anotovaných dat