EMMA on Tartu Ülikoolis loodud eesti keele õppijakorpus (koos sisestus- ja kasutusliidesega), mis sisaldab autentseid eestikeelseid tekste (eksamitööd, õppimisprotsessis koostatud tekstid) 9. ja 12. klassi õpilastelt aastatest 1999-2017. Alates 2019. aastast lisatakse korpusesse Eesti Keele Instituudi ja Haridus- ja Noorteamet (Harno) koostööna eesti keele kui teise keele õppijate tekste ning laiendatakse korpust nii eagrupi (on lisatud koolieelikute, 3. ja 6. klassi õpilaste tekstid) kui ka testiliigi (tasemetööd) osas. Korpus on ükskeelne (eesti keel).
Momendil on korpuses 15953 teksti, neist 3847 Tartu Ülikoolilt ja 12105 Eesti Keele Instituudilt. Korpus sisaldab kokku 257143 lauset, 3205290 sõna.
Kogu korpus on automaatselt lausestatud ja märgendatud EstNLTK 1.4 abil. 2470 eesti keele emakeelena teksti sisaldavad lisaks ka vigade märgendust. Vigade tähistamisel on aluseks võetud eesti keele riigieksamil eristatavad veatüübid (kokku on tähistatud 69321 viga).
Korpust on võimalik kasutada uurimis- ja teadustöö eesmärgil. Soovi korral on uurijal võimalik korpuse jaoks loodud märgendussüsteemi abil uurimiseks välja valitud tekstidele ise märgendeid lisada ning nende alusel analüüsi teostada.
Korpuse kasutusõiguse saamiseks kirjuta aadressil emma@keeleressursid.ee.
EMMA korpuse idee autor ja eesti keele emakeelena allkorpuse projektijuht on Kadri Sõrmus (kadri.sormus999@gmail.com), eesti keele teise keelena allkorpuse projektijuht Jelena Kallas (jelena.kallas@eki.ee), tehniline teostaja Sven Aller (sven.aller@ut.ee).
Korpuse ja keskkonna loomist on toetanud: Haridus- ja teadusministeerium Tartu Ülikooli eesti ja üldkeeleteaduse instituudiga sõlmitud lepingu, Eesti Keele Instituudiga seotud lepingu ja EKT riiklikust programmist Eesti Keeleressursside Keskuse kaudu.