Úvod
Pražský závislostní korpus 2.5 přináší anotaci stejných textů jako jeho předchozí verze, PDT 2.0. Anotace původních čtyř rovin byla z různých hledisek opravena a zlepšena (viz dokumentace). K datům ovšem byly ovšem přidány i nové informace:
Po PDT 2.5 bylo vydáno několik nových verzí: PDT 3.0 (2013), PDiT 1.0 (2012)
Požadavky
Pro práci s PDT 2.5 neexistují žádné speciální softwarové požadavky. Všechno, co je potřeba, už by mělo být ve vašem počítači. Pro otevření dokumentace potřebujete program pro čtení PDF a internetový prohlížeč.
Data
Data ve formátu PML jsou uložena v adresáři data
a rozdělena do tří skupin podle nejvyšší roviny anotace – podadresářů mw
, amw
a tamw
. Každá skupina je dále rozdělena do 10 adresářů – etest
, dtest
a train-N
, kde N
je jedno z čísel 1 až 8. (Struktura je stejná jako v případě PDT 2.0) Všechny soubory jsou zkomprimovány programem gzip. Dekomprimace je ovšem zbytečná, protože TrEd umí pracovat i s komprimovanými soubory, a to dokonce rychleji než s nezkomprimovanými textovými soubory.
Potíže?
Neváhejte a napište nám, pokud potřebujete s něčím poradit nebo když něco nefunguje.