Témata pro ročníkové, bakalářské a diplomové práce

V rámci vědy a výzkumu mě zejména zajímá vývoj nových metod pro robustní inteligentní dialogové systémy. Dialogové systémy se využívají při komunikační mezi člověkem a strojem v situacích kdy standardní metody jako klávesnice, myš, nebo obrazovka není možné použít nebo je to nepohodlné. Typickými příklady jsou například jízda autem nebo ovládání počítačů a informačních systémů osobami s tělesným postižením.
 

Hlavním cílem těchto vypsaných prací je vylepšení dialogového systému vyvíjeného v mé skupině popsaného na https://ufal.mff.cuni.cz/alex a dostupného na tel. čísle 800 899 998.

Dialogový systém se skládá z několika komponent: 

  • rozpoznávání řeči - převádí řeč pořízenou mikrofonem na text,
  • porozumění mluvených promluvám - interpretuje rozpoznaný text a převádí ho na tzv. dialogové aktu. Dialogový akt se skládá ze záměru promluvy (otázka, odpověď, potvrzení, atd.) a její sémantické informace.
  • řízení dialogu - na základě vstupu od uživatele a stavu dialogu řízení dialogu navrhne optimální pokračování v dialogu opět ve formě dialogového aktu
  • generování promluvy - převádí odpověď dialogového systémy vygenerovanou řízením dialogu do textu,
  • syntéza řeči - nakonec převede text na akustický signál, který se přehraje uživateli.
V současnosti se v rámci výzkumu zaměřuji na porozumění mluvených promluv (angl. spoken language understanding), řízení dialogu (angl. dialogue management), a generování promluv (angl. natural language generation) a vyvíjím je v rámci mého laboratorního dialogového systému. Komponenty rozpoznávání řeči (angl. automated speech recognition) a syntéza řeči (angl. test-speech synthesis) využívám v podobě open-source implementací.

Podmínky a zadání prací

  • Práce by měli být vypracovány na Linuxu nebo být multiplatformní.
  • Preferuji využití následujících programovacích jazyků (v uvedeném pořadí): Python, C/C++, Java
  • Vyvinuté programy by se měli ovládat zejména z příkazové řádky. Grafické rozhraní až na výjimky je nežádoucí.

Zadání prací

Podívejte se do ISupřehled mých navrhovaných témat. Čtěte navrhované ročníkové práce, bakalářky, diplomky i projekty. V případě zájmu o některé z témat mě kontaktujte na emailu (jurcicek(at)ufal(dot)mff(dot)cuni(dot)cz) a vámi vybrané téma můžeme prodiskutovat a případně i podle potřeby upravit. Vypsaná témata lze  vypracovat jako ročníkové práce, bakalářky, nebo jako diplomky.
 
Můžete také přijít s vlastními tématy, ale musí se týkat následujících oblastí:
  • strojové učení, zpětnovazební učení, statistické metody, Bayesovské metody
  • multimodální ovládání počítačů
  • dialogové systémy
  • zpracování přirozeného jazyka
Příklady prací nebo užitečné informace:
Poznámky:
  • Typická práce musí být informaticky orientovaná, tj. obsahovat nějaký vyvinutý program spolu s vývojovou a uživatelskou dokumentací.
  • Abstrakt, úvod, a závěr jsou jedny z nejdůležitějších částí práce. Tyto části jsou první, které oponent čte.

Zadaná témata

Použití neuronových sítí pro automatické rozpoznávání řeči

V poslední době, zejména díky využití výpočetních prostředků založených na GPU, se ukázalo, že neuronové sítě poskytují jedny z nejlepších výsledků v mnoha úlohách strojového učení. Cílem této práci je využití konvolučních a rekurentních neuronových sítí pro automatické rozpoznávání řeči. Pro tuto práci má moje skupinu k dispozici GPU karty NVIDIA Tesla K40 (cca. 2800 jader, 12 GB RAM) a NVIDIA GeForce Titan Z (cca. 5600 jader, 12 GB RAM). Hlavním cílem je vylepšení dialogového systému vyvíjeného v mé skupině popsaného na https://ufal.mff.cuni.cz/alex a dostupného na tel. čísle 800 899 998. Více o diplomových racích je na http://ufal.mff.cuni.cz/filip-jurcicek/theses-proposals.

Řešené příklady Bayesovských metod inference v pravděpodobnostních modelech

Bayesovské metody zahrnují takové statistické metody, které systematicky pracují s neurčitostí v datech. Tyto metody strojového učení umožňují najít v datech závislosti a vazby, které nejsou zjevné a bez člověkem běžně neodhalitelné.  Tématem této práce bude odvození a implementace algoritmů Bayesovské inference pro několik základních pravděpodobnostních modelů jako je normální rozdělení, skrytý Markovův model (angl. HMM), konečná Gausovská směs (angl. GMM). Použité metody Bajesovské inference budou zahrnovat tzv. Monte-Carlo metody nebo Variational inference. Tato práce je zejména vhodná pro studenty se zájmem o matematiku a její praktické užití v oblasti strojového učení. Součástí práce bude také vhodná vizualizace postupu učení a zobrazení výhod proti klasickým metodám jako je například metoda maximální věrohodnosti. Úspěšné zpracování tohoto tématu spočívá v nastudování problematiky, aplikace vybraných metod a jejich vyhodnocení.

Vypsaná témata

Mutimodální ovládání mobilních aplikací 

Ovládání aplikací na mobilních zařízeních jako jsou chytré telefony (angů. smartphones) je vetšinou značně nepohodlné z důvodů malé ovládací plochy. Nadruhou stranu čistě hlasové ovládání není v současnosti velmi spolehlivé. Ideálním řešením by byla vhodná integrace jak standardního: ovládání obrazovka + prsty a ovládání řečí jako využití rozpoznávání řeči a syntézy řeči. Tématem práce bude vývoj mutimodálního rozhraní pro chytré telefony (Android anebo iPhone) pro úlohu poskytování informaci o veřejné dopravě. Takové rozhraní by mělo umožnit jak efektivní využití dotykové obrazovky tak i hlasu pro kontrolu aplikace.

Integrace moderních metod rozpoznáváná řeči z KALDI do Alex a CloudASR

Systém rozpoznávání řeči KALDI byl relativné nedávno rošířen o moderní metody rozponávánní řeči založených na hlubokých neruronovývh sítích (DNN) a rekurentních sítích LSTM. Cílem práce bude nastudování těchto metod a integrace do systému trénování rozpoznávání mluvené řeči v dialogovém systému Alex dostupného na tel. čísle 800 899 998. Nové metody rozpoznávání mohou být dále integrovány do systému rozpoznávání řeči v cloud - dostupného na adrese http://demo.cloudasr.com/.

Použití rekurentních neruonových sítí pro automatické rozpoznávání řečníka, jazyka a pohlaví

V poslední době, zejména díky využití výpočetních prostředků založených na GPU, se ukázalo, že neuronové sítě poskytují jedny z nejlepších výsledků v mnoha úlohách strojového učení. Cílem této práci je využití konvolučních a rekurentních neuronových sítí pro automatické rozpoznávání řečníka, jazyka, a pohlaví. Pro tuto práci má moje skupinu k dispozici GPU karty NVIDIA Tesla K40 (cca. 2800 jader, 12 GB RAM) a NVIDIA GeForce Titan Z (cca. 5600 jader, 12 GB RAM). Hlavním cílem je vylepšení dialogového systému vyvíjeného v mé skupině popsaného na https://ufal.mff.cuni.cz/alex a dostupného na tel. čísle 800 899 998. Více o diplomových racích je na http://ufal.mff.cuni.cz/filip-jurcicek/theses-proposals.

Vývoj aplikace pro procvičování poslechu cizího jazyka

Nedávno jsme vyvinuli systém rozpoznávání řeči dostupný v cloud (http://demo.cloudasr.com/). Pro jeho další zlepšování hledáme vhodné způsby anotace pořízených dat. Jednou z rozumných možností se nabízí vytvoření aplilkace pro zlepšování schopností poslechu studenty cizýho jazyka - listening education application. Během procvičování porozumění promluvám, je možné od uživatelů získat anotace poslouchaných audio záznamů. Tyto anotace následně mohou být použity k zlepšování  samotného rozpoznávače řeči. Tématem práce bude navrhnout a implementovat aplikaci pro iPhone nebo Android, která toto umožní. Více informací je na http://ufal.mff.cuni.cz/filip-jurcicek/theses-proposals.

Ukončené diplomové práce

Implementace aproximativních bayesovských metod pro odhad stavu v dialogových systémech

Komponenta odhadu stavu dialogu předchází modul řízení a je součástí každého dialogového systému. Pro efektivní integraci informací poskytnutých modulem porozumění, je třeba co nejpřesněji modelovat pravděpodobnostní rozdělení definované nad všemi stavy dialogu. Jelikož těchto stavů může být velké množství, tak se zde většinou používají aproximativní techniky. Tato práce se bude zabývat variačními Bayesovskými technikami pro odhad stavu dialogu a parametrů modelu dialogu.

Rozpoznávání řeči pomocí KALDI

Jednou z důležitých komponent v dialogovém systému je modul rozpoznávání mluvené řeči. Tématem této práce bude seznámení se a využití open-source implementace výkonného rozpoznávače a systému trénování ASR Kaldi (http://kaldi.sourceforge.net/). Součástí této práce bude připrava akustického modelu a o testování ve vyvíjeném dialogovém systému. 

Simulace uživatele v statistických dialogových systémech

V ideálním případě by statistické dialogové systémy byly trénovány v interakci s reálnými uživateli tak, aby maximalizovali jejich spokojenost. Ale toto není možné, protože současné metody trénování dialogových systémů jsou velmi náročné na množství trénovacích dat, několik set tisících dialogů. Proto se k trénování využívá takzvaných simulátorů uživatele, které potřebné trénovací data dokážou vygenerovat. Tématem této práce bude vývoj trénovatelného simulátoru uživatele z korpusu dialogů člověk-počítač.  V rámci práce se vytvoří jednoduchý "baseline" simulátor postavený na pravidlech, jednoduchý statistický simulátor založený na bigramových statistických, a zejména model postavený na učení stochastické strategie řízení.  

Vývoj cloud aplikace pro rozpoznávání řeči

V současnosti rozpoznávání řeči dosáhlo již kvality, která umožňuje její praktické využití. Problém současných řešení je, že jejich nasazení je složité a komplikované. Proto pro jejich využití se nyní stále více uplatňují cloud řešení, kdy vzdálená služba dostupná přes internet provede rozpoznávání řeči bez nutnosti přípravy a instalace samotného rozpoznávače. Tématem práce bude vývoj, otestován, a nasazení aplikace, která umožní uživatelům buď přes webové rozhraní nebo pomoci API (např. REST) nahrát audio signál promluvy a vrátí rozpoznaný text. Pro vývoj této aplikace by se využil rozpoznávač řeč, který je vyvíjen v rámci interního projektu. Dále by tato aplikace umožňovala kontrolu, a přepis šatně rozpoznaných vět.

Development of an English public transport information dialogue system

The goal of this thesis is to develop a dialogue system providing information about public transport in English. The system will be based on the Alex dialogue systems framework developed within the department. It will provide real-time transport information and will be evaluated with real users. For the purpose of evaluation, a crowdsourcing methods will be used, e.g. CrowdFlower.com. The evaluation measures will be based on the subjective user satisfaction. 

Vývoj hlasově ovládaných webových her pomocí CloudASR

Nedávno jsme vyvinuli systém rozpoznávání řeči dostupný v cloud (http://demo.cloudasr.com/). Pro jeho další zlepšování hledáme vhodné využití. Jednou z rozumných možností se nabízí ve webových hrách, kdy uživatel neovládá hru jenom pomocí klávesnice, myši, nebo gest, ale také pomocí hlasu. Jednou z typických možností využití rozpoznávání je v hrach zaměřených například na výkuku jazyků. Tématem práce bude navrhnout a implementovat jednu složitější, nebo několik jednodušších her s hlasovým ovládáním. Použité technologie budou zejména Javascript, HTML5, WebRTC, WebAudio, Python. Více informací je na http://ufal.mff.cuni.cz/filip-jurcicek/theses-proposals.

Literatura

Psutka, J. and Müller, L. and Matoušek, J. and Radová, V. : Mluvíme s počítačem česky. p. 752, Academia, Prague, 2006.
C. M. Bishop, Pattern Recognition and Machine Learning, vol. 4, no. 4. Springer, 2006, p. 738.
F. Jurcicek, B. Thomson, S. Young (2011) "Reinforcement learning for parameter estimation in statistical spoken dialogue systems". Computer Speech and Language
B. Thomson and S.Young (2010). "Bayesian update of dialogue state: A POMDP framework for spoken dialogue systems." Computer Speech and Language. 
S. Young, M. Gasic, S. Keizer, F. Mairesse, J. Schatzmann, B. Thomson and K. Yu (2010). "The Hidden Information State Model: a practical framework for POMDP-based spoken dialogue management." Computer Speech and Language. 
B. Thomson (2009). "Statistical methods for spoken dialogue management." Ph.D. Thesis. University of Cambridge.