Témata pro ročníkové, bakalářské a diplomové práce

Obsah

Obecné informace
Ročníkové projekty
- Automatická extrakce konkordancí z Internetu [SIS] [ZADÁNO]
- Framework pro extrakci informací z velkého množství jazykových dat [SIS] [ZADÁNO]
- Integrace výstupů jazykové analýzy do nástroje Brat [SIS] [ZADÁNO]
Témata pro diplomové práce:
- Diplomová práce: Webový nástroj pro anotaci textových dokumentů
- Diplomová práce: Porovnání systémů pro automatickou klasifikaci dokumentů a jejich adaptace pro český jazyk

Obecné informace

Pokud máte vlastní nápad na ročníkový projekt nebo jinou studentskou práci, bude pro mně pravděpodobně zajímavá, pokud

ji budete psát v Perlu, Pythonu a Javě
ji budete vyvíjet v Linuxu
výsledek publikujete jako open-source
bude mít nějaké využítí v reálném, nebo akademickém světě ;-)
bude mít něco s NLP

Ročníkový projekt: Automatická extrakce konkordancí z Internetu

Zvolme libovolné cílové slovo v libovolném jazyce. V tomto projektu pod termínem konkordance myslíme kontext daného cílového slova. Tento kontext můžeme definovat počtem slov (např. 10 slov před a 10 slov za cílovým slovem), počtem vět apod. Jeden příklad za všechny, a sice cílové slovo Espana:

Cílem tohto projektu bude zhotovit aplikaci, které na vstupu zadáme cílové slovo a počet konkordancí. Aplikace následně požadované množství konkordancí vyhledá a stáhne z Internetu.

Podrobnosti

Úkolem řešitele bude především:

analyzovat vhodné Internetové zdroje pro získávání konkordancí,
vytvořit command-linovou aplikaci pro Linux,
vytvořit nástroje pro analyzování výsledků.

Množství a účel nástrojů pro analýzu výsledků bude záviset na specifikaci, kterou spoločně vytvoříme. Větší množství sofistikovanějších nástrojů by umožnilo vytvořit z této práce zadání pro Bakalářskou práci.

Ročníkový projekt: Framework pro extrakci informací z velkého množství jazykových dat

Předpokládejme, že na vstupu máme velký objem textových dat, ze kterých chceme extrahovat určité informace. V tomto projektu to budou především

n-gramy (posloupnost n slov, které se v textu vyskytují za sebou)
skip-gramy (n-gramy, ve kterých jsme jednoněkterá slova vypustili)

Cílem tohoto projektu je vytvořit sadu nástrojů pro extrakci a zpracování velkého množství takových n/s-gramů s ohledem na čas zpracování a velikost RAM.

Podrobnosti

Úkolem řešitele bude především:

vymyslet šikovný způsob, jak definovat n/s-gramy, o které má uživatel zájem,
vymyslet vhodnou reprezentaci velkého objemu dat,
vytvořit knihovnu pro extrakci n/s-gramů,
vytvořit sadu nástrojů, která připraví paralelní spuštění extrakce na clusteru.

Poslední bod je volitelný a mohl by být základem pro rozšíření práce na Bakalářskou práci.

Ročníkový projekt: Integrace výstupů jazykové analýzy do nástroje Brat

Aplikace Brat [1] je interaktivní webová aplikace, která umožňuje anotovat textové dokumenty pomocí značek a vyznačovat relace mezi těmito značkami. Aplikace je vyvíjena jako open-source projekt. [2]

Cílem tohoto projektu je vytvořit plugin do aplikace Brat, pomocí kterého bude uživatel zadávat dotazy v jazyce PML Tree Query [3]. Plugin zároveň vizualizuje úseky textu, které dotazu odpovídají, příp. k nim doplní odpovídající značky.

Nástroje pro jazykovou analýzu se nebudou spouštět on-line. Plugin bude mít specifikováno, kde vstupní soubory najde.

Podrobnosti

Úkolem řešitele bude především:

seznámit se s nástrojem Brat [1], systémem pro jazykovou analýzu češtiny (Treex [4] nebo tool_chain), editorem TrEd [5],
seznámit se systémem pluginů v aplikaci Brat
specifikovat a implementovat plugin pro vyhledávaní.

Práce může být rozšířena na bakalářskou například přidáním dalšího dotazovacího formalizmu.

Literatura

[1] Webová stránka projektu Brat: http://brat.nlplab.org/

[2] Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Tomoko Ohta, Sophia Ananiadou and Jun'ichi Tsujii (2012). brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012.

[3] Dokumentace PML Tree Query: http://ufal.mff.cuni.cz/pmltq/doc/pmltq_doc.html

[4] Treex: http://ufal.mff.cuni.cz/treex/

[5] TrEd: http://ufal.mff.cuni.cz/tred/

Diplomová práce: Webový nástroj pro anotaci textových dokumentů

Praktické využití nástroje v projektu INTLIB [3] ukázalo, že nástroji chybí několik vlastností, bez kterých je manuální anotace v tomto nástroji zdlouhavá a pomalá.

Úkolem řešitele bude seznámit se s uživatelskými a administrátorskými připomínkami k nástroji Brat, provést jejich analýzu a specifikovat a implementovat programátorské úkoly, kterými nástroj Brat zlepší svoji použitelnost.

Podrobnosti

Úkolem řešitele bude především:

seznámení se s dostupnými anotačními nástroji pro anotaci značek a relací mezi značkami, jejich porovnání s nástrojem Brat;
analýza uživatelských a administrátorských připomínek a zkušeností s aplikací Brat;
specifikace programátorských úkolů, které přispějí k zlepšení aplikace Brat;
komunikace s autory aplikace Brat ohledně začlenění vývoje do jejich projektu, případně vytvoření vlastní větve projektu.

Poznámka

Vylepšení aplikace Brat není jediným možných řešením zadání. Pokud se v průběhu analýzy ukáže, že

vývoj nové aplikace by byl efektivnější a rychlejší, nebo
existuje jiná aplikace, která nabízí lepší vlastnosti, nebo
vývoj specifikovaných vlastností by byl vhodnější zlepšováním jiné aplikace,

bude toto řešení považováno minimálně za rovnocenné k původnímu záměru.

Literatura

[1] Webová stránka projektu Brat: http://brat.nlplab.org/

[3] Webová stránka projektu INTLIB: http://ufal.mff.cuni.cz/intlib

Diplomová práce: Porovnání systémů pro automatickou klasifikaci dokumentů a jejich adaptace pro český jazyk

Automatická klasifikace dokumentů je klasickým problémem v oblasti zpracování přirozeného jazyka. Úkolem automatického klasifikátoru je pro zadaný dokument vybrat jeden nebo několik pojmů z předem definovaného tezauru, které dokument nejlépe charakterizují.

Úkolem řešitele bude seznámit se s metodami strojového učení, které v současnosti dosahují nejlepších výsledků, a vybrané přístupy pak použít na vytvoření klasifikátorů legislativních dokumentů Evropské unie pomocí tezauru EuroVoc.

Jako trénovací a testovací data budou použity legislativní dokumenty Evropské unie.

Podrobnosti

Úkolem řešitele bude především:

Seznámit se s nejpoužívanejšími technikami v oblasti klasifikace dokumentů.
Seznámit se s metodami pro evaluaci automatické klasifikace dokumentů.
Vytvořit trénovací a testovací kolekci dat z prostředí legislativy EU.
Natrénovat a otestovat několik přístupů ke klasifikaci dokumentů.
Evaluovat výsledky a porovnat výsledky jednotlivých metod.

Literatura

[1] FABRIZIO SEBASTIANI: Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.

[2] B S Harish, S Manjunath and D S Guru: TEXT DOCUMENT CLASSIFICATION: AN APPROACH BASED ON INDEXING. International Journal of Data Mining & Knowledge Management Process (IJDKP) Vol.2, No.1, January 2012

[3] Jens-Erik Mai: The modernity of classification. Journal of Documentation67. 4 (2011): 710-730.

Institute of Formal and Applied Linguistics

Charles University, Czech Republic
Faculty of Mathematics and Physics

Search form

Obsah

Obecné informace

Ročníkový projekt: Automatická extrakce konkordancí z Internetu

Podrobnosti

Ročníkový projekt: Framework pro extrakci informací z velkého množství jazykových dat

Podrobnosti

Ročníkový projekt: Integrace výstupů jazykové analýzy do nástroje Brat

Podrobnosti

Literatura

Diplomová práce: Webový nástroj pro anotaci textových dokumentů

Podrobnosti

Poznámka

Literatura

Diplomová práce: Porovnání systémů pro automatickou klasifikaci dokumentů a jejich adaptace pro český jazyk

Podrobnosti

Literatura