Towards Automated Spoken Language Assessment: A Study of ASR Transcription of Examinations for Non-Native Speakers of Czech

Michal Novák, Peter Polák, Kateřina Rysová, Magdaléna Rysová, Ondřej Bojar

References:

Oliver Adams, Trevor Cohn, Graham Neubig, Hilaria Cruz, Steven Bird, and Alexis Michaud. Evaluating phonemic transcription of low-resource tonal languages for language documentation In 11th International Conference on Language Resources and Evaluation, LREC 2018, pages 3356–3365, 2019.
Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli. wav2vec 2.0: A framework for self-supervised learning of speech representations Advances in neural information processing systems 33, pages 12449–12460, 2020.
Aneta Bučková. Languages in Migration, 2023.
Jaroslava Ivanová, editors. Společný evropský referenční rámec pro jazyky : jak se učíme jazykům, jak je vyučujeme a jak v jazycích hodnotíme, Univerzita Palackého, Olomouc, 2006.
Alexis Conneau, Min Ma, Simran Khanuja, Yu Zhang, Vera Axelrod, Siddharth Dalmia, Jason Riesa, Clara Rivera, and Ankur Bapna. Fleurs: Few-shot learning evaluation of universal representations of speech In 2022 IEEE Spoken Language Technology Workshop (SLT), pages 798–805, 2023. (http://doi.org/10.1109/SLT54892.2023.10023141)
Jitka Cvejnová and Ondřej Geppert. Zkouška z češtiny pro trvalý pobyt v ČR (úroveň A2), Národní pedagogický institut České republiky, Praha, Czechia, 2022.
Alex Graves, Santiago Fernández, Faustino Gomez, and Jürgen Schmidhuber. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks In Proceedings of the 23rd international conference on Machine learning, pages 369–376, 2006. (http://doi.org/10.1145/1143844.1143891)
Richard Holaj. Nástroj pro automatický přepis řeči nerodilých mluvčí českého jazyka, 2023.
Richard Holaj and Petr Pořízka. ANOPHONE: An Annotation Tool for Phonemes and L2 Annotation Systems for Czech Journal of Linguistics/Jazykovedný casopis 74, pages 333–344, 2023. (http://doi.org/10.2478/jazcas-2023-0050)
Maarten Janssen. A Corpus with Wavesurfer and TEI: Speech and Video in TEITOK In Text, Speech, and Dialogue, pages 261–268, Springer International Publishing, Cham, 2021. (http://doi.org/10.1007/978-3-030-83527-9_22)
Angelika Kubanek-German. Early Language Programmes in Germany In An Early Start: Young Learners and Modern Languages in Europe and beyond, Council of Europe Publishing, Strasbourg, 2000.
Jan Lehečka, Jan Švec, Josef V. Psutka, and Pavel Ircing. Transformer-based Speech Recognition Models for Oral History Archives in English, German, and Czech In Proc. INTERSPEECH 2023, pages 201–205, 2023. (http://doi.org/10.21437/Interspeech.2023-872)
Pavel Pečený. Jak se připravovat k Certifikované zkoušce z češtiny pro cizince (CCE) In Sborník Asociace učitelů češtiny jako cizího jazyka (AUČCJ), Akropolis, Praha, Czechia, 2012.
Pavel Pečený. Oblasti zvyšování kvality jazykové zkoušky na příkladu Certifikované zkoušky z češtiny pro cizince (CCE) In Zvyšování kvality výuky a testování cizích jazyků (včetně češtiny pro cizince), pages 87–92, ÚJOP UK, Poděbrady, Czechia, 2013.
Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, and others. Scaling speech technology to 1,000+ languages Journal of Machine Learning Research 25, pages 1–52, 2024.
Hervé Bredin and Antoine Laurent. End-to-end speaker segmentation for overlap-aware resegmentation In Proc. Interspeech 2021, Brno, Czech Republic, 2021. (http://doi.org/10.21437/Interspeech.2021-560)
Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever. Robust speech recognition via large-scale weak supervision In International conference on machine learning, pages 28492–28518, 2023.
Barbara Schmiedtova. Item "L2 Czech" in collection "Barbsch-L2 data", 2000–2001.
Jan Švec, Martin Bulín, Aleš Pražák, and Pavel Ircing. UWebASR – Web-based ASR engine for Czech and Slovak In Proceedings of CLARIN Annual Conference 2018, pages 190–193, CLARIN, Pisa, Italy, 2018.
Kateřina Vodičková, Pavel Pečený, and Jana Nováková. Specifikace Certifikované zkoušky z češtiny pro cizince a Společný evropský referenční rámec pro jazyky In Výuka a testování cizích jazyků v kontextu Společného evropského referenčního rámce (SERR), pages 78–90, ÚJOP UK, Poděbrady, Czechia, 2012.
Max Bain, Jaesung Huh, Tengda Han, and Andrew Zisserman. WhisperX: Time-Accurate Speech Transcription of Long-Form Audio INTERSPEECH 2023, 2023. (http://doi.org/10.21437/Interspeech.2023-78)

The Prague Bulletin of Mathematical Linguistics

Search form

Towards Automated Spoken Language Assessment: A Study of ASR Transcription of Examinations for Non-Native Speakers of Czech

Michal Novák, Peter Polák, Kateřina Rysová, Magdaléna Rysová, Ondřej Bojar

References: