Eesti keele õppija korpus EMMA
Kasutajanimi:
Parool:
EMMA. Eesti keele õppija korpus

EMMA on Tartu Ülikoolis loodud eesti keele õppijakorpus (koos sisestus- ja kasutusliidesega), mis sisaldab autentseid eestikeelseid tekste (eksamitööd, õppimisprotsessis koostatud tekstid) 9. ja 12. klassi õpilastelt aastatest 1999-2017. Alates 2019. aastast lisatakse korpusesse Eesti Keele Instituudi ja SA Innove koostööna eesti keele kui teise või võõrkeeleõppijate tekste ja laiendatakse korpust nii eagrupi (lisanduvad 3. ja 6. klassi õpilaste tekstid) kui ka testiliigi (tasemetööd) osas. Korpus on ükskeelne (eesti keel).

Momendil on korpuses 9362 teksti, neist 3847 Tartu Ülikoolilt ja 5514 Eesti Keele Instituudilt. Korpus sisaldab kokku 184043 lauset, 2577622 sõna.

Märgendamine

Korpus on automaatselt lausestatud. Korpuse jaoks loodud märgendussüsteemi abil on elektroonilisel kujul olevatele tekstidele kantud õpilastekstide hindajate poolt tekstides tähistatud vead (69321 viga). Vigade tähistamisel on aluseks võetud eesti keele riigieksamil eristatavad veatüübid.

Kasutamine

Korpust on võimalik kasutada uurimis- ja teadustöö eesmärgil. Soovi korral on uurijal võimalik korpuse jaoks loodud märgendussüsteemi abil uurimiseks välja valitud tekstidele ise märgendeid lisada ning nende alusel analüüsi teostada.

Korpuse kasutusõiguse saamiseks kirjuta aadressil kadri.sormus@ut.ee.

EMMA korpuse idee autor ja projektijuht on Kadri Sõrmus (kadri.sormus@ut.ee), tehniline teostaja Sven Aller (sven.aller@ut.ee).

Korpuse ja keskkonna loomist on toetanud: Haridus- ja teadusministeerium Tartu Ülikooli eesti ja üldkeeleteaduse instituudiga sõlmitud lepingu ja EKT riiklikust programmist Eesti Keeleressursside Keskuse kaudu.

Eesti keele õppija korpus EMMA | korpused.keeleressursid.ee/emma