Eesti keele õppija korpus EMMA
Kasutajanimi:
Parool:
EMMA. Eesti keele õppija korpus

EMMA on Tartu Ülikoolis loodud eesti keele õppijakorpus (koos sisestus- ja kasutusliidesega), mis sisaldab autentseid eestikeelseid tekste (eksamitööd, õppimisprotsessis koostatud tekstid) 9. ja 12. klassi õpilastelt aastatest 1999-2017. Alates 2019. aastast lisatakse korpusesse Eesti Keele Instituudi ja Haridus- ja Noorteamet (Harno) koostööna eesti keele kui teise keele õppijate tekste ning laiendatakse korpust nii eagrupi (on lisatud koolieelikute, 3. ja 6. klassi õpilaste tekstid) kui ka testiliigi (tasemetööd) osas. Korpus on ükskeelne (eesti keel).

Momendil on korpuses 12210 teksti, neist 3847 Tartu Ülikoolilt ja 8362 Eesti Keele Instituudilt. Korpus sisaldab kokku 214368 lauset, 2826262 sõna.

Märgendamine

Kogu korpus on automaatselt lausestatud ja märgendatud EstNLTK 1.4 abil. 2470 eesti keele emakeelena teksti sisaldavad lisaks ka vigade märgendust. Vigade tähistamisel on aluseks võetud eesti keele riigieksamil eristatavad veatüübid (kokku on tähistatud 69321 viga).

Kasutamine

Korpust on võimalik kasutada uurimis- ja teadustöö eesmärgil. Soovi korral on uurijal võimalik korpuse jaoks loodud märgendussüsteemi abil uurimiseks välja valitud tekstidele ise märgendeid lisada ning nende alusel analüüsi teostada.

Korpuse kasutusõiguse saamiseks kirjuta aadressil emma@keeleressursid.ee.

EMMA korpuse idee autor ja eesti keele emakeelena allkorpuse projektijuht on Kadri Sõrmus (kadri.sormus999@gmail.com), eesti keele teise keelena allkorpuse projektijuht Jelena Kallas (jelena.kallas@eki.ee), tehniline teostaja Sven Aller (sven.aller@ut.ee).

Korpuse ja keskkonna loomist on toetanud: Haridus- ja teadusministeerium Tartu Ülikooli eesti ja üldkeeleteaduse instituudiga sõlmitud lepingu, Eesti Keele Instituudiga seotud lepingu ja EKT riiklikust programmist Eesti Keeleressursside Keskuse kaudu.

Eesti keele õppija korpus EMMA | korpused.keeleressursid.ee/emma