English version
SloNLP je slovenskočeský workshop speciálně zaměřený na zpracování přirozeného jazyka a počítačovou lingvistiku. Jeho hlavním cílem je podpořit spolupráci mezi výzkumníky v oblasti NLP v Česku a na Slovensku; k účasti proto vyzýváme i magisterské studenty a doktorandy věnující se počítačové lingvistice.
Mezi témata workshopu patří automatické rozpoznávání mluvené řeči (ASR), automatická analýza a generování přirozeného jazyka (morfologie, syntax, sémantika...), dialogové systémy, strojový překlad (MT), vyhledávání informací (IR), praktické aplikace NLP technologií, a další témata počítačové lingvistiky.
Uvítáme také články o probíhajícím výzkumu s předběžnými výsledky (work in progress), články popisující negativní výsledky (negative results), a články představující návrhy na budoucí výzkum.
Workshop je součástí konference ITAT, která se koná 15.9. - 19.9.2016 v hotelu SOREA Hutník I. v Tatranských Matliarech (1,5 km od Tatranské Lomnice; mapa).
Proceedings
Články SloNLP jsou součástí hlavního sborníku ITATu, který je publikovaný online v CEURu, a zároveň v tištěné podobě na Amazonu. Navrhovaný způsob citování článků pomocí BibTeXu je následující (pro lidsky čitelnou podobu viz záznam v Bibliu):
@inproceedings{slonlp2016:XXXauthornameXXX,
booktitle = {Proceedings of the 16th {ITAT}: Slovensko{\v{c}}esk{\'{y}} {NLP} workshop (Slo{NLP} 2016)},
title = {XXX paper title XXX},
editor = {Bro{\v{n}}a Brejov{\'{a}}},
author = {XXX paper authors XXX},
year = {2016},
publisher = {CreateSpace Independent Publishing Platform},
organization = {Comenius University in Bratislava, Faculty of Mathematics, Physics and Informatics},
address = {Bratislava, Slovakia},
venue = {{SOREA} Hutn{\'{i}}k I.},
series = {{CEUR} Workshop Proceedings},
volume = {1649},
pages = {XXXpagefrom-pagetoXXX},
isbn = {978-1537016740},
issn = {1613-0073},
}
Program
Sobota 17. září: společný program konference ITAT
- 17:45-18:45 Jiří Materna (Seznam.cz): Aplikace strojového učení ve fulltextovém vyhledávání (zvaná přednáška SloNLP - viz níže)
- 19:00- Konferenční banket
Neděle 18. září: workshop SloNLP
- 08:55-09:00 Rudolf Rosa: Úvodní slovo
- 09:00-09:20 Ladislav Lenc, Tomas Hercig: Neural Networks for Sentiment Analysis in Czech (paper, slides)
- 09:20-09:40 Ondřej Plátek, Petr Bělohlávek, Vojtěch Hudeček, Filip Jurčíček: Recurrent Neural Networks for Dialog State Tracking (paper, slides)
- 09:40-10:00 Tomáš Jelínek: Error rates and agreements of parsers: two experiments with ensemble parsing of Czech (paper, slides)
- 10:00-10:20 David Mareček: 12 years of Unsupervised Dependency Parsing (paper, slides)
- 10:20-10:30 Jaroslava Hlaváčová: Kolik potřebujeme slovních druhů? (diskuzní kroužek) (slide)
- 10:30-11:00 Kávová prestávka
- 11:10-11:30 Katrin Přikrylová, Vladislav Kuboň, Kateřina Veselovská: Logical vs. Natural Language Conjunctions in Czech: A Comparative Study (paper, slides)
- 11:30-11:40 Josef Chaloupka: Automatic Symbol Processing for Language Model Building in Slavic Languages (paper, slides, demo)
- 11:40-12:00 Alexandr Rosen: Building and using corpora of non-native Czech (paper, slides, demo, corpus)
- 12:00-12:20 Rudolf Rosa: Czechizator - Čechizátor (paper, slides, demo)
- 12:20-12:30 László Kovács, Erika Baksa-Varga, Daniel Hládek: Lexicon-based Post Correction of OCR Errors
Účastníci SloNLP se mohou zúčastnit i dalších přednášek v rámci konference ITAT (viz program konference). Dovolujeme si upozornit zejména na následující:
- Sobota 17.9. 11:00-11:30 Martin Kopp: How to Mimic Humans, Guide for Computers (přednáška workshopu WCIDM)
- Sobota 17.9. 12:00-12:30 Tomáš Šabata: Modeling and Clustering the Behavior of Animals using Hidden Markov Models (přednáška workshopu WCIDM)
- Neděle 18.9. 17:00-17:30 Martin Plátek, Karel Oliva: Redukční analýza A-stromů s minimalistickými omezeními (přednáška konference ITAT)
- Neděle 18.9. 17:30-18:00 Vladislav Kuboň, Markéta Lopatková, Tomáš Hercig: Searching for a Measure of Word Order Freedom (přednáška konference ITAT)
Zvaná přednáška SloNLP
Jiří Materna (Seznam.cz): Aplikace strojového učení ve fulltextovém vyhledávání
Velká část veřejných informací je dnes k dispozici na internetu v elektronické podobě. Ve většině případů však neznáme přesné umístění odpovědí na naše otázky a jsme zvyklí pro jejich nalezení používat internetové vyhledávače jako jsou Seznam nebo Google. Zatímco v době vzniku prvních vyhledávačů se pro nalezení nejrelevantnějších odpovědí používaly jednoduché algoritmy a pravidlové systémy, dnes už se téměř ve všech částech vyhledávače využívá síly a robustnosti strojového učení.
Zajímá vás, jak moderní vyhledávače fungují a jaké problémy je ve fulltextovém vyhledávání třeba řešit? V této přednášce si představíme obecnou architekturu fulltextového vyhledávače a zaměříme se na vybrané aplikace strojového učení ve vyhledávání. Typickými příklady jsou porozumění dotazu, řazení výsledků nebo využití hlubokých neuronových sítí pro zpracování textové i obrazové informace.
Jiří Materna vystudoval obor informatika na Fakultě informatiky Masarykovy univerzity, kde také získal doktorát v oboru Umělá inteligence a počítačová lingvistika. Od roku 2008 je zaměstnán ve společnosti Seznam.cz, kde nyní zastává pozici vedoucího výzkumného oddělení. Je zakladatel a spoluorganizátor konference Machine Learning Prague, mentorem podnikatelského akcelerátoru StartupYard a autorem blogu o strojovém učení Machine Learning Guru. Mezi jeho odborné zájmy patří strojové učení, zpracování přirozeného jazyka, information retrieval, statistika a obecně řešení těžkých problémů z oblasti informatiky s aplikacemi v běžném životě.
Přijaté články
- Ladislav Lenc and Tomas Hercig: Neural Networks for Sentiment Analysis in Czech
- Ondřej Plátek, Petr Bělohlávek, Vojtěch Hudeček and Filip Jurčíček: Recurrent neural networks for dialog state tracking
- Tomáš Jelínek: Error rates and agreements of parsers: two experiments with ensemble parsing of Czech
- David Mareček: 12 years of Unsupervised Dependency Parsing
- Katrin Přikrylová, Vladislav Kuboň and Kateřina Veselovská: Logical vs. Natural Language Conjunctions in Czech: A Comparative Study
- Alexandr Rosen: Building and using corpora of non-native Czech
- Rudolf Rosa: Czechizator - Čechizátor
- Josef Chaloupka: Automatic Symbol Processing for Language Model Building in Slavic Languages
Pokyny pro autory
- článek v angličtině, případně slovenštině/češtině
- 4-8 stránek dvousloupcově, včetně referencí (styl pro latex, popřípadě styl pro Word)
- zaslání článku pomocí EasyChair
- každý článek bude recenzován 2-3 recenzenty
- pokud je článek současně ve více recenzních řízeních, je nutné v případě publikace článku jinde (jiná konference/časopis) článek stáhnout nejpozději před odesláním finální verze (camera-ready)
- prezentace článku v angličtině, případně slovenštině/češtině
- články budou publikovány ve sborníku konference ITAT (s ISBN), který by měl být indexován v databázi Scopus
Důležité termíny
- do 5.6.
29.5. zaslání abstraktu (50 - 200 slov) -- prodloužený deadline
- do 8.6.
5.6. zaslání článku -- prodloužený deadline
- do 3.7. informace o přijetí/nepřijetí/podmínečném přijetí
- do 15.7. zaslání finální verze článku (pro podmínečně přijaté články do 13.7.)
- do 31.7. včasná registrace
- 17.9. banket a zvaná přednáška
- 18.9. workshop
Všechny deadlines jsou 23:59 AoE.
Programový výbor
Minulé ročníky