Obsah
- Obecné informace
- Ročníkové projekty
- Témata pro diplomové práce:
Obecné informace
Pokud máte vlastní nápad na ročníkový projekt nebo jinou studentskou práci, bude pro mně pravděpodobně zajímavá, pokud
- ji budete psát v Perlu, Pythonu a Javě
- ji budete vyvíjet v Linuxu
- výsledek publikujete jako open-source
- bude mít nějaké využítí v reálném, nebo akademickém světě ;-)
- bude mít něco s NLP
Ročníkový projekt: Automatická extrakce konkordancí z Internetu
Zvolme libovolné cílové slovo v libovolném jazyce. V tomto projektu pod termínem konkordance myslíme kontext daného cílového slova. Tento kontext můžeme definovat počtem slov (např. 10 slov před a 10 slov za cílovým slovem), počtem vět apod. Jeden příklad za všechny, a sice cílové slovo Espana:
Cílem tohto projektu bude zhotovit aplikaci, které na vstupu zadáme cílové slovo a počet konkordancí. Aplikace následně požadované množství konkordancí vyhledá a stáhne z Internetu.
Podrobnosti
Úkolem řešitele bude především:
- analyzovat vhodné Internetové zdroje pro získávání konkordancí,
- vytvořit command-linovou aplikaci pro Linux,
- vytvořit nástroje pro analyzování výsledků.
Množství a účel nástrojů pro analýzu výsledků bude záviset na specifikaci, kterou spoločně vytvoříme. Větší množství sofistikovanějších nástrojů by umožnilo vytvořit z této práce zadání pro Bakalářskou práci.
Ročníkový projekt: Framework pro extrakci informací z velkého množství jazykových dat
Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především
- n-gramy (posloupnost n slov, které se v textu vyskytují za sebou)
- skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili)
Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM.
Podrobnosti
Úkolem řešitele bude především:
- vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem,
- vymyslet vhodnou reprezentaci velkého objemu dat,
- vytvořit knihovnu pro extrakci n/s-gramů,
- vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru.
Poslední bod je volitelný a mohl by být základem pro rozšíření práce na Bakalářskou práci.
Ročníkový projekt: Integrace výstupů jazykové analýzy do nástroje Brat
Aplikace Brat [1] je interaktivní webová aplikace, která umožňuje anotovat textové dokumenty pomocí značek a vyznačovat relace mezi těmito značkami. Aplikace je vyvíjena jako open-source projekt. [2]
Cílem tohoto projektu je vytvořit plugin do aplikace Brat, pomocí kterého bude uživatel zadávat dotazy v jazyce PML Tree Query [3]. Plugin zároveň vizualizuje úseky textu, které dotazu odpovídají, příp. k nim doplní odpovídající značky.
Nástroje pro jazykovou analýzu se nebudou spouštět on-line. Plugin bude mít specifikováno, kde vstupní soubory najde.
Podrobnosti
Úkolem řešitele bude především:
- seznámit se s nástrojem Brat [1], systémem pro jazykovou analýzu češtiny (Treex [4] nebo tool_chain), editorem TrEd [5],
- seznámit se systémem pluginů v aplikaci Brat
- specifikovat a implementovat plugin pro vyhledávaní.
Práce může být rozšířena na bakalářskou například přidáním dalšího dotazovacího formalizmu.
Literatura
[1] Webová stránka projektu Brat: http://brat.nlplab.org/
[2] Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Tomoko Ohta, Sophia Ananiadou and Jun'ichi Tsujii (2012). brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012.
[3] Dokumentace PML Tree Query: http://ufal.mff.cuni.cz/pmltq/doc/pmltq_doc.html
[4] Treex: http://ufal.mff.cuni.cz/treex/
[5] TrEd: http://ufal.mff.cuni.cz/tred/
Diplomová práce: Webový nástroj pro anotaci textových dokumentů
Aplikace Brat [1] je interaktivní webová aplikace, která umožňuje anotovat textové dokumenty pomocí značek a vyznačovat relace mezi těmito značkami. Aplikace je vyvíjena jako open-source projekt, na kterém autoři neustále pracují. [2]
Praktické využití nástroje v projektu INTLIB [3] ukázalo, že nástroji chybí několik vlastností, bez kterých je manuální anotace v tomto nástroji zdlouhavá a pomalá.
Úkolem řešitele bude seznámit se s uživatelskými a administrátorskými připomínkami k nástroji Brat, provést jejich analýzu a specifikovat a implementovat programátorské úkoly, kterými nástroj Brat zlepší svoji použitelnost.
Podrobnosti
Úkolem řešitele bude především:
- seznámení se s dostupnými anotačními nástroji pro anotaci značek a relací mezi značkami, jejich porovnání s nástrojem Brat;
- analýza uživatelských a administrátorských připomínek a zkušeností s aplikací Brat;
- specifikace programátorských úkolů, které přispějí k zlepšení aplikace Brat;
- komunikace s autory aplikace Brat ohledně začlenění vývoje do jejich projektu, případně vytvoření vlastní větve projektu.
Poznámka
Vylepšení aplikace Brat není jediným možných řešením zadání. Pokud se v průběhu analýzy ukáže, že
- vývoj nové aplikace by byl efektivnější a rychlejší, nebo
- existuje jiná aplikace, která nabízí lepší vlastnosti, nebo
- vývoj specifikovaných vlastností by byl vhodnější zlepšováním jiné aplikace,
bude toto řešení považováno minimálně za rovnocenné k původnímu záměru.
Literatura
[1] Webová stránka projektu Brat: http://brat.nlplab.org/
[2] Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Tomoko Ohta, Sophia Ananiadou and Jun'ichi Tsujii (2012). brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012.
[3] Webová stránka projektu INTLIB: http://ufal.mff.cuni.cz/intlib
Diplomová práce: Porovnání systémů pro automatickou klasifikaci dokumentů a jejich adaptace pro český jazyk
Automatická klasifikace dokumentů je klasickým problémem v oblasti zpracování přirozeného jazyka. Úkolem automatického klasifikátoru je pro zadaný dokument vybrat jeden nebo několik pojmů z předem definovaného tezauru, které dokument nejlépe charakterizují.
Úkolem řešitele bude seznámit se s metodami strojového učení, které v současnosti dosahují nejlepších výsledků, a vybrané přístupy pak použít na vytvoření klasifikátorů legislativních dokumentů Evropské unie pomocí tezauru EuroVoc.
Jako trénovací a testovací data budou použity legislativní dokumenty Evropské unie.
Podrobnosti
Úkolem řešitele bude především:
- Seznámit se s nejpoužívanejšími technikami v oblasti klasifikace dokumentů.
- Seznámit se s metodami pro evaluaci automatické klasifikace dokumentů.
- Vytvořit trénovací a testovací kolekci dat z prostředí legislativy EU.
- Natrénovat a otestovat několik přístupů ke klasifikaci dokumentů.
- Evaluovat výsledky a porovnat výsledky jednotlivých metod.
Literatura
[1] FABRIZIO SEBASTIANI: Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.
[2] B S Harish, S Manjunath and D S Guru: TEXT DOCUMENT CLASSIFICATION: AN APPROACH BASED ON INDEXING. International Journal of Data Mining & Knowledge Management Process (IJDKP) Vol.2, No.1, January 2012
[3] Jens-Erik Mai: The modernity of classification. Journal of Documentation67. 4 (2011): 710-730.