Valitud korpus: "Koondkorpus 2012"

Statistikutest

Kollokatsioonide tuvastamiseks korpusest kasutatakse mitmesuguseid sõnadevahelise seose tugevuse mõõtmise statistikuid. Meie kollokatsioonide leidja kasutab kolme statistikut: log-tõepära funktsioon (Log-likelihood), vastastikuse informatsiooni väärtus (Mutual Information) ja minimaalne tundlikkus (Minimum Sensitivity); võrdluseks saab otsida ka lihtsalt esinemissageduse järgi järjestatud sõnapaare.

Millist statistikut kasutada?

Log-tõepära funktsioon (Log-likelihood) on nendest kolmest kõige kindlam valik, seda loetakse kollokatsioonide tuvastamisel _de facto_ standardiks ja ka eesti murdetekstidega tehtud katsete andmetel annab just tema parimaid tulemusi.
Vastastikuse informatsiooni väärtus (Mutual Information) "tõstab" st annab kõrgema arvulise MI väärtuse harvemesinevatele sõnapaaridele ja sobib seega nt harvemesinevate fraseologismide otsimiseks.
Minimaalne tundlikkus (Minimum Sensitivity) on siiani vähekasutatud statistik, mis kirjanduse andmetel peaks andma isegi paremaid tulemusi kui log-tõepära funktsioon (viide: http://www.daniel-wiechmann.eu/downloads/AMtest.pdf), kuid tema efektiivsust eesti keeleandmete töötlemiseks pole veel süstemaatiliselt uuritud.