Valitud korpus: "Koondkorpus 2012"

Kollokatsioonidest

Kollokatsioonid on sellised sõnapaarid, mille liikmed esinevad üksteise naabruses sagedamini kui võiks eeldada nende üksikult esinemise sageduste põhjal. Tüüpilised kollokatsioonid on püsiühendid - näiteks ühendverbid või idiomaatilised väljendid. Püsiühendid võivad muidugi koosneda ka rohkem kui kahest sõnast, kuid meie kollokatsioonide otsija suudab tuvastada ainult kahesõnalisi ühendeid.

Kollokatsioonide otsimisel arvestatakse võimalike kollokaatide kandidaatidena samas osalauses esinevaid sõnavorme või lemmasid.

Kollokatsioone saab otsida kolmel viisil:

  • 1) teatud lemma olulisi kollokaate sõnavormidena
  • 2) teatud lemma olulisi kollokaate lemmadena
  • 3) teatud sõnavormi olulisi kollokaate sõnavormidena

Nii sisestava lemma või sõnavormi kui ka otsitavate kollokaatide ringi saab piirata nende sõnaliigilise kuuluvusega. Sõnaliigi märgendid:

_A_omadussõna - algvõrre (adjektiiv - positiiv), nii käänduvad kui käändumatud, nt kallis või eht
_C_omadussõna - keskvõrre (adjektiiv - komparatiiv), nt laiem
_D_määrsõna (adverb), nt kõrvuti
_G_genitiivatribuut (käändumatu omadussõna), nt balti
_H_pärisnimi, nt Edgar
_I_hüüdsõna (interjektsioon), nt tere
_J_sidesõna (konjunktsioon), nt ja
_K_kaassõna (pre/postpositsioon), nt kaudu
_N_põhiarvsõna (kardinaalnumeraal), nt kaks
_O_järgarvsõna (ordinaalnumeraal), nt teine
_P_asesõna (pronoomen), nt see
_S_nimisõna (substantiiv), nt asi
_U_omadussõna - ülivõrre (adjektiiv - superlatiiv), nt pikim
_V_tegusõna (verb), nt lugema
_X_verbi juurde kuuluv sõna, millel eraldi sõnaliigi tähistus puudub, nt plehku