Eesti keele ühendkorpuse 2021 lemmade ja sõnavormide sagedusloendid.

Eesti keele ühendkorpuse 2021 lemmade ja sõnavormide sagedusloendid

Sagedusloendid on genereeritud Eesti keele ühendkorpuse 2021 (Estonian National Corpus 2021) allkorpuste alusel. Valikus on järgmised allkorpused: Veebikorpus 2021 (Web 2021), Vikipeedia 2021 (Wikipeadia 2021), DOAJ, Uudisvood 2014-2021 (Feeds 2014-2021), Kirjadus (Literature). Seega kajastab korpus kõige värskemat keelekasutust. Allkorpustes Uudisvood 2014-2021 ja Kirjadus on ka materjali, mis on pärit varasematest aastatest.
Korpuse maht:
- 944 907 713 sõnet
- 7 756 705 erinevat lemmat
- 857 784 lemmat üle sageduspiiri (ipm* 0,011, mis vastab ENC 2021 puhul sagedusele 10 või rohkem).

Lemmad on töötlemata, mis tähendab, et
- suur- ja väiketähelised kujud on ühendamata;
- sagedused näitavad üksiksõna kasutust (ühendverbe, nimisõnafraase jm näidatakse osiste kaupa);
- esineda võib võõrkeelseid sõnesid;
- sõnaliiki pole arvestatud ('hall' A ja 'hall' S on koos)**.

* ipm (instances per million) näitab lemma või sõne puhul promille ehk keskmist esinemist miljoni kohta.

** Eesti keele jaoks pole 'lempos' ehk lemma+sõnaliik oluline, sest sõnaliike eristab juba väliskuju ning
'hall' näitel jääks homonüümne hall+S (hallaöö, spordihall) ikkagi üheks lemmaks.

Viita kui: Hein, Indrek 2022. Eesti keele ühendkorpuse 2021 lemmade ja sõnavormide sagedusloendid. Eesti Keele Instituut. DOI: 10.15155/3-00-0000-0000-0000-08D1FL

You don’t have the permission to edit this resource.