Přirozený jazyk tvoří mimořádně složitý systém, proto je vhodné rozložit jeho popis do několika rovin. Nejvyšší rovina jazykového popisu ve funkčně generativním popisu (FGP), který slouží jako teoretické východisko PDT, se nazývá tektogramatická rovina a slouží k zachycení významové struktury věty. Tektogramatická rovina v PDT přebírá základní myšlenky z FGP, v řadě jednotlivostí je však doplněna nebo upravena.
Tektogramatická rovina PDT se řídí následujícími principy:
základní jednotkou anotace na tektogramatické rovině je věta jakožto základní prostředek pro vyjádření nějakého sdělení.
pro každou správně utvořenou českou větu lze vytvořit její tektogramatickou reprezentaci - tektogramatickou stromovou strukturu (dále zjednodušeně tektogramatický strom).
v případě víceznačnosti je teoreticky možné vytvořit více tektogramatických stromů pro jednu větu. V PDT je ale vytvořen pro jednu větu vždy právě jeden strom, který u víceznačných vět odpovídá zvolenému čtení.
v případě synonymie může naopak různým větám odpovídat tentýž tektogramatický strom (musí jít ovšem o striktní synonymii, kdy pravdivostní podmínky obou vět jsou zcela totožné). Příkladem synonymních výrazů s identickou tektogramatickou reprezentací jsou spojení otcův klobouk a klobouk otce. Myšlenka synonymie byla v PDT (ve srovnání s návrhem ve FGD) realizovaná ve velmi omezeném rozsahu.
Tektogramatický strom (jakožto datová struktura) má tyto základní vlastnosti:
tektogramatický strom je datová struktura, jejímž základem je kořenový strom (ve smyslu definice teorie grafů): skládá se z množiny uzlů a z množiny hran a jeden uzel je vyznačen jako kořen stromu.
uzel tektogramatického stromu buď reprezentuje výraz obsažený v povrchové podobě věty, nebo může jít o "umělý", nově vytvořený uzel, který je do tektogramatického stromu dodaný; tento uzel pak nemá v povrchové podobě věty svůj protějšek. Funkční slova užitá ve větě (například: podřadicí spojky, pomocná slovesa) vlastní uzly v tektogramatickém stromě zpravidla nemají (k tomu viz 1.1 - "Vztah tektogramatické roviny k nižším rovinám").
Každý uzel je sám o sobě komplexní, uvnitř strukturovaná jednotka. Lze ji chápat jako množinu atributů, přesněji řečeno jako množinu uspořádaných dvojic jméno atributu -- hodnota atributu. Přítomnost nebo nepřítomnost jednotlivých atributů v daném uzlu vyplývá z typu uzlu (viz 2 - "Typy uzlů").
obr. 1.1: Příkladem uzlů reprezentujících výrazy obsažené v povrchové podobě věty jsou uzly reprezentující výrazy: starý, sultán, nový, sultán, vystřídali se. Předložková skupina na trůnu je reprezentována jedním uzlem (předložka na není reprezentována samostatným uzlem). Z důvodu zachycení koordinačního spojení starý sultán a nový sultán je samostatným uzlem reprezentována spojka a. Příkladem dodaného, nově vytvořeného uzlu je uzel reprezentující patiens (functor
=PAT
) slovesa vystřídat se (nově vytvořený uzel je zobrazen jako čtvereček).
Atributy uzlu můžeme třídit do několika skupin. Základními atributy uzlu tektogramatického stromu jsou tektogramatické lema, gramatémy a funktor. Tektogramatické lema zachycuje lexikální význam uzlu (viz 3 - "Tektogramatické lema (t-lema)"). Gramatémy odpovídají především významům lexikálních a morfologických kategorií (viz 4 - "Komplexní uzly a gramatémy"). Funktory odpovídají druhům syntaktické závislosti mezi autosémantickými výrazy, syntaktickým funkcím (viz 6 - "Funktory a subfunktory"). U uzlů jsou dále uvedeny také hodnoty atributů, které podávají informaci o koreferenci (viz 8 - "Koreference"), aktuálním členění a hloubkovém slovosledu (viz 9 - "Aktuální členění"). Zbývající atributy se týkají speciálních vlastností struktury stromu a jinak nezachytitelných syntaktických a sémantických jevů.
Hodnoty atributů jsou různého typu (viz 10.2 - "Uzel stromu a typy hodnot atributů"). Hodnotou atributu je obvykle řetězec znaků; množina určitých řetězců pro daný atribut je většinou pevně daná. Zvláštním typem atributů jsou atributy typu odkaz. Pomocí atributů typu odkaz jsou v tektogramatickém stromě zachyceny vztahy (zejména koreferenční) mezi uzly (respektive mezi autosémantickými výrazy), které vedou "napříč" stromem, nebo dokonce mezi stromy.
obr. 1.1: V příkladovém tektogramatickém stromě je zobrazen jeden atribut typu odkaz, reprezentující gramatický koreferenční vztah (reciprocitu) mezi patientem a aktorem predikátu vystřídat se. Zobrazen je jako zaoblená (červená) přerušovaná šipka.
Seznam všech atributů viz 10.4 - "Atributy uzlů tektogramatického stromu".
hrany tektogramatického stromu slouží k zachycení závislostních vztahů mezi uzly (respektive mezi autosémantickými výrazy). Ne každá hrana tektogramatického stromu však reprezentuje lingvistickou závislost (viz 5.1 - "Závislost"). Hrany nemají vlastní atributy; atributy logicky náležející hranám (například typ závislosti) jsou fyzicky reprezentovány pomocí atributů uzlů.
obr. 1.1: Hrany jsou v příkladovém tektogramatickém stromě zachyceny jako rovné spojnice mezi uzly. Hrany reprezentující závislost jsou vyznačeny tučnou šedivou čárou. Více viz 5.1 - "Závislost".
uzly tektogramatického stromu jsou lineárně uspořádané, toto lineární uspořádání uzlů slouží k reprezentaci hloubkového slovosledu věty (viz 5.3 - "Hloubkový slovosled").
Při popisu tektogramatických stromů používáme také následující pojmy (zde je vysvětlujeme pouze neformálně):
Technický kořen tektogramatického stromu. Kořenem stromu je uzel, který nemá žádnou lingvistickou interpretaci a slouží pouze k technickým účelům (například nese identifikátor věty). Má vždy jediného přímého potomka. Kořen stromu označujeme termínem technický kořen tektogramatického stromu. Hovoříme-li dále v textu o uzlech tektogramatického stromu, technický kořen tektogramatického stromu (pokud to není výslovně uvedeno) nebereme v úvahu.
obr. 1.1: Technickým kořenem tektogramatického stromu je nejvýše umístěný uzel, jediný přímý potomek je s tímto uzlem spojen tenkou tečkovanou hranou (u technického kořene tektogramatického stromu je zobrazena hodnota atributu nodetype
(typ uzlu) root
, v PDT je u tohoto uzlu též zobrazena hodnota atributu id
, tj. identifikátor věty v korpusu).
Rodič uzlu. Uzel X je rodičem uzlu Y, pokud v tektogramatickém stromu vede stromová hrana od uzlu X k uzlu Y a uzel X je blíže technickému kořeni tektogramatického stromu (v zobrazení stromu je rodič umístěn výše).
obr. 1.1: Rodičem uzlu reprezentujícího výraz (starý) sultán je uzel reprezentující spojku a.
Přímý potomek uzlu. Uzel X je přímým potomkem uzlu Y, pokud je uzel Y rodičem uzlu X.
Protože tektogramatický strom je lineárně uspořádaný, hovoříme také o pravém nebo levém přímém potomku. Pravý (levý) přímý potomek uzlu M je takový přímý potomek uzlu M, který je v lineárním uspořádání tektogramatického stromu umístěn napravo (nalevo) od uzlu M.
obr. 1.1: Přímými potomky uzlu reprezentujícího sloveso vystřídat se jsou tři uzly: uzel reprezentující spojku a, nově vytvořený uzel pro patiens, a uzel reprezentující předložkovou skupinu na trůnu. Všechny přímé potomky uzlu reprezentujícího sloveso vystřídat se jsou levé.
Řídící/závislý uzel uzlu. Jsou-li uzly X a Y (respektive výrazy jimi reprezentované) ve vztahu závislosti, říkáme, že uzel X je řídící uzel (resp. uzel závislý na) uzlu Y. Řídící uzel nemusí být totožný s rodičem závislého uzlu (řídících uzlů jediného uzlu může být dokonce víc) a závislý uzel nemusí patřit mezi přímé potomky řídícího uzlu (viz i 5.1 - "Závislost"). (V technické dokumentaci k PDT se pro tento typ uzlu používá i označení "efektivní rodič" a "efektivní potomek/syn").
obr. 1.1: Řídícím uzlem uzlu reprezentujícího výraz starý je uzel reprezentující výraz sultán (který je zároveň jeho rodičem). Řídícím uzlem uzlu reprezentujícího výraz sultán je uzel reprezentující sloveso vystřídat se (který však není jeho rodičem).
Sestra uzlu. Uzel X je sestrou uzlu Y (jiného než X), pokud mají společného rodiče.
Protože tektogramatický strom je lineárně uspořádaný, hovoříme také o pravé nebo levé sestře. Pravá (levá) sestra uzlu M je taková sestra uzlu M, která je v lineárním uspořádání tektogramatického stromu umístěna napravo (nalevo) od uzlu M.
obr. 1.1: Sestrou uzlu reprezentujícího spojku a je nově vytvořený uzel reprezentující patiens slovesa vystřídat se a uzel reprezentující předložkovou skupinu na trůnu. Všechny sestry uzlu reprezentujícího spojku a jsou pravé sestry.
Cesta od uzlu M. Pro pravidla anotace aktuálního členění definujeme také pojem pravé (levé) cesty od uzlu M a pojem nejpravější (nejlevější) cesty od uzlu M.
Pravá (levá) cesta od uzlu M je taková cesta v tektogramatickém stromě, která vede od uzlu M směrem k listu a končí v uzlu, který nemá pravého (levého) přímého potomka. Uzel M není uzlem této cesty.
Nejpravější (nejlevější) cesta od uzlu M je taková pravá (levá) cesta v tektogramatickém stromě, kde pro všechny uzly na této cestě platí, že nemají žádnou pravou (levou) sestru.
obr. 1.1: Od uzlu reprezentujícího řídící predikát vystřídat se nevede žádná pravá cesta. Na nejlevější cestě od uzlu reprezentujícího řídící predikát vystřídat se leží uzly reprezentující výrazy a, sultán a starý.
Podstrom tektogramatického stromu. Podstrom tektogramatického stromu je spojitý podgraf tektogramatického stromu (podmnožina jeho uzlů a hran s vyznačeným kořenem).
Kořen podstromu. Kořenem podstromu je uzel podstromu, jehož rodič (pokud existuje) není součástí tohoto podstromu.
Výraz. Lingvisticky relevantní část věty označujeme termínem výraz. (Za výraz považujeme i celou větu.)
Kořen výrazu. Kořen výrazu je zkrácené označení pro kořen podstromu reprezentujícího daný výraz.
Kořenem věty je kořen podstromu odpovídajícího celé větě, tzn. (jediný) přímý potomek technického kořene tektogramatického stromu.
Efektivní kořen výrazu. Efektivním kořenem výrazu rozumíme uzel, který v daném tektogramatickém stromě buď nemá řídící uzel, nebo jehož řídící uzel není součástí podstromu reprezentujícího daný výraz. Efektivní kořen výrazu může být s kořenem výrazu totožný; zejména v případě souřadných struktur se však kořen výrazu, který je pro každý výraz jeden, od efektivních kořenů, kterých může být pro jeden výraz více, odlišuje.
obr. 1.1: Kořenem reprezentované příkladové věty uzel reprezentující sloveso vystřídat se. Tento uzel je zároveň též efektivním kořenem této věty. Koordinační spojení starý sultán a nový sultán je reprezentováno podstromem tektogramatického stromu, kořenem tohoto podstromu (kořenem tohoto koordinačního spojení) je uzel reprezentující spojku a, efektivními kořeny jsou oba uzly reprezentující substantivum sultán.