EVALD 3.0 for Foreigners
(Evaluator of Discourse for Foreigners)
(popis v češtině najdete níže)
1 Introduction
EVALD 3.0 for Foreigners is a software that serves for automatic evaluation of surface coherence (cohesion) in Czech texts written by non-native speakers of Czech. Software evaluates the level of the given text from the perspective of its surface coherence (i.e. it takes into consideration, e.g., the frequency and diversity of connectives, richness of vocabulary etc.).
EVALD 3.0 for Foreigners is an update of the previous versions of EVALD for Foreigners – EVALD 1.0 for Foreigners and EVALD 2.0 for Foreigners. In 2019, it was superseded by a new version, EVALD 4.0 for Foreigners.
The input document submitted to EVALD 3.0 for Foreigners is a written text created by a learner of Czech who wants to know the level of his or her writing skills in Czech in terms of surface coherence. EVALD software processes the text by internal procedures and then informs the user about the supposed level of surface coherence in the submitted text. In the assessment, six possible levels of text coherence are identified: A1, A2, B1, B2, C1, C2. These categories were established by the Council of Europe and described in the Common European Framework of Reference for Languages (CEFR, see http://www.coe.int/t/dg4/linguistic/Source/Framework_EN.pdf). The level of A (A1 and A2) is for basic users of language, B (B1 and B2) for independent users of language and C (C1 and C2) for proficient users of language.1 EVALD 3.0 for Foreigners was trained on authentic texts written by non-native speakers (learners) of Czech (the texts are taken from the corpus MERLIN2 and CzeSL-SGT3 containing writing samples created especially during the Czech Language Certificate Exams).4
Firstly, the texts were divided into categories A1 to C2 by teachers (assessors) on the basis of their surface coherence level. Afterwards, the machine learning experiments on the evaluated texts were carried out.
EVALD 3.0 for Foreigners was learning how a human assessor evaluates the texts in order to be able to evaluate new texts itself (to divide them into categories A1 to C2). The software classifies the new texts according to schemes that it has previously learned on the so-called training data, using the Random Forest algorithm, available within the Weka software with open access (https://sourceforge.net/projects/weka/?source=typ_redirect).
EVALD 3.0 for Foreigners was created in order to evaluate the submitted text by one of the mentioned marks/categories (i.e. A1–C2) from the perspective of surface coherence and in this respect to approach human evaluation.5
2 Installation and instruction manual
Please see the documentation tab for instructions how to get and run Evald 3.0 for Foreigners.
On-line demo version (for EVALD 4.0 for Foreigners!): https://lindat.mff.cuni.cz/services/evald-foreign/
3 Targeted users
EVALD 3.0 for Foreigners can be used e.g. by teachers of Czech as a foreign language for the evaluation of student essays6 in terms of surface text coherence or by learners of Czech who can easily verify their level of coherence in Czech thanks to this software. At the same time, it may be used by students with special educational needs, especially by the deaf students whose writing skills in Czech tend to have similar characteristics as the writing skills by the foreigners.
Software is available publicly and free of charge, without obtaining a license.7
4 Bibliographic reference
Jiří Mírovský, Michal Novák, Kateřina Rysová, Magdaléna Rysová, Eva Hajičová: EVALD 3.0 for Foreigners – Evaluator of Discourse. Data/software, LINDAT/CLARIN digital library, Prague, Czech Republic, http://hdl.handle.net/11234/1-2864, Nov 2018. On-line demo version: https://lindat.mff.cuni.cz/services/evald-foreign/
EVALD 3.0 pro cizince
(Evaluátor diskurzu pro cizince)
1 Úvod
Počítačový nástroj EVALD 3.0 pro cizince slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny. Software hodnotí úroveň předloženého textu z hlediska jeho povrchové výstavby (zohledňuje např. frekvenci a rozmanitost užitých spojovacích prostředků, bohatost slovní zásoby apod.).
EVALD 3.0 pro cizince je aktualizací předchozích verzí softwaru EVALD pro cizince – EVALD 1.0 pro cizince a EVALD 2.0 pro cizince. V roce 2019 byla vytvořena novější verze softwaru – EVALD 4.0 pro cizince.
Vstupním dokumentem, který se předkládá softwaru EVALD 3.0 pro cizince, je psaný text vytvořený člověkem, který se učí česky a chce znát úroveň svého písemného vyjadřování z hlediska povrchové koherence. Software text vyhodnotí vnitřní procedurou a sdělí uživateli předpokládanou úroveň povrchové koherence předloženého textu.
Při hodnocení se rozlišuje šest možných úrovní koherence textu: A1, A2, B1, B2, C1, C2. Tyto kategorie byly stanoveny podle stupnice jazykových úrovní sestavené Radou Evropy a popsané ve Společném evropském referenčním rámci pro jazyky (SERR, viz http://www.msmt.cz/mezinarodni-vztahy/spolecny-evropsky-referencni-ramec-pro-jazyky). Úrovně A (A1, A2) odpovídají uživatelům základů jazyka, úrovně B (B1, B2) samostatným uživatelům a úrovně C (C1, C2) zkušeným uživatelům.1
Software EVALD 3.0 pro cizince byl trénován na autentických textech nerodilých mluvčích češtiny – texty pocházejí z korpusů MERLIN2 a CzeSL-SGT3. Jedná se o písemné práce vytvořené zejména v rámci certifikovaných zkoušek z češtiny pro cizince.4
Tyto texty nejprve roztřídili učitelé (hodnotitelé) do kategorií A1–C2 na základě toho, jaké úrovně v nich dosahovala povrchová koherence. Poté byly na takto ohodnocených textech provedeny experimenty strojového učení. Software EVALD 3.0 pro cizince se učil, jak texty hodnotí člověk, aby díky tomu byl posléze sám schopen třídit nové texty do kategorií A1–C2 (třídí je podle schémat, která se předtím naučil na tzv. trénovacích datech), s využitím algoritmu Random Forest dostupného v rámci volně přístupného softwaru Weka (https://sourceforge.net/projects/weka/?source=typ_redirect).
Software EVALD 3.0 pro cizince byl tedy vytvořen tak, aby předloženému textu přiřadil jednu z uvedených známek/kategorií (tj. A1–C2) z hlediska povrchové koherence a přiblížil se přitom lidskému hodnocení.5
2 Instalace a návod k použití
Informace o získání a spuštění softwaru najdete v záložce dokumentace.
Demo verze přístupná on-line (pro EVALD 4.0 pro cizince!): https://lindat.mff.cuni.cz/services/evald-foreign/?lang=cs
3 Využití
Software EVALD 3.0 pro cizince mohou využívat např. učitelé češtiny jako cizího jazyka při hodnocení písemných prací6 či studenti češtiny jako cizího jazyka, kteří si díky softwaru mohou snadným a rychlým způsobem ověřit svoji úroveň češtiny z hlediska koherence textu. Zároveň jej mohou využívat i studenti se speciálními vzdělávacími potřebami, zejména neslyšící, jejichž vyjadřování v češtině mívá podobná specifika jako vyjadřování cizinců. Software je dostupný veřejně a zdarma, bez nutnosti získání licence.7
4 Bibliografický údaj
Jiří Mírovský, Michal Novák, Kateřina Rysová, Magdaléna Rysová, Eva Hajičová: EVALD 3.0 for Foreigners – Evaluator of Discourse. Data/software, LINDAT/CLARIN digital library, Prague, Czech Republic, http://hdl.handle.net/11234/1-2864, Nov 2018. On-line demo version: https://lindat.mff.cuni.cz/services/evald-foreign/