The project aims at developing and empirically verifying symbolic, formally defined, “universal” (in the multilingual sense) representation of textual communication, at the document (text) level. The project will build on the principles of the successful Universal Dependencies (UD) project in terms of methodology and scientific principles, but it will extend the current UD representation beyond morphology and syntax. The areas to be specified cover compositional and lexical semantics, discourse and information structure (including co-reference). Starting with existing semantic representations covering the above aspects, the new specification will be verified on real texts by (human) expert annotation and selected properties will also be confirmed by human-subject experiments. The resulting representations will be used for building ANN models by Deep Learning methods with properly analyzed results. All output (data, publications) will be published in Open Access mode using existing relevant Research Infrastructures and their repositories.
V projektu budou vyvinuty a empiricky ověřeny formálně-symbolické, v multilingválním smyslu "univerzální" reprezentace textové komunikace na nadvětné úrovni. Metodologicky a z hlediska vědeckých principů bude projekt vycházet z úspěšného velkého mezinárodního projektu "Universal Dependencies" soustřeďujícího se na úroveň morfologie a syntaxe, ale nově se výzkum zaměří na oblast strukturálně a lexikálně sémantickou, oblast diskurzu a informační struktury, včetně anaforických vztahů. Navržené specifikace budou ověřeny expertní (manuální) anotací na reálných textech a vybrané problémy a jejich řešení budou potvrzeny dalšími experimenty. Výsledné reprezentace budou rovněž použity k budování modelů založených na umělých neuronových sítích pomocí strojového učení a jejich výsledky podrobně analyzovány. Veškeré výstupy (data, publikace) projektu budou zveřejněny v režimu Open Access v repozitářích relevantních výzkumných infrastruktur.