English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5Header Image n.6Header Image n.7

Úvod

Pražský závislostní korpus 2.5 přináší anotaci stejných textů jako jeho předchozí verze, PDT 2.0. Anotace původních čtyř rovin byla z různých hledisek opravena a zlepšena (viz dokumentace). K datům ovšem byly ovšem přidány i nové informace:

Po PDT 2.5 bylo vydáno několik nových verzí: PDT 3.0 (2013), PDiT 1.0 (2012)

Požadavky

Pro práci s PDT 2.5 neexistují žádné speciální softwarové požadavky. Všechno, co je potřeba, už by mělo být ve vašem počítači. Pro otevření dokumentace potřebujete program pro čtení PDF a internetový prohlížeč.

Data

Data ve formátu PML jsou uložena v adresáři data a rozdělena do tří skupin podle nejvyšší roviny anotace – podadresářů mw, amw a tamw. Každá skupina je dále rozdělena do 10 adresářů – etest, dtest a train-N, kde N je jedno z čísel 1 až 8. (Struktura je stejná jako v případě PDT 2.0) Všechny soubory jsou zkomprimovány programem gzip. Dekomprimace je ovšem zbytečná, protože TrEd umí pracovat i s komprimovanými soubory, a to dokonce rychleji než s nezkomprimovanými textovými soubory.

Potíže?

Neváhejte a napište nám, pokud potřebujete s něčím poradit nebo když něco nefunguje.