Estonian Open Parallel Corpus

View resource name in all available languages

Eesti avatud paralleelkorpus

ID:

http://hdl.handle.net/11297/9-00-0000-0000-0000-0002-0

doi:10.15155/TY.000B

The English-Estonian parallel corpus was collected in the framework of the National Programme for Estonian Language Technology http://www.keeletehnoloogia.ee/ekt-projektid/eesti-avatud-paralleelkorpus

Note. Part of the corpus temporaly removed for quality improvements

View resource description in all available languages

Projekti „Eesti avatud paralleelkorpus” eesmärk on luua oluline kogus keeleressursse statistiliste masintõlkesüsteemide parendamiseks. Projekt aitab kaasa olukorra saavutamisele kus: (i) Erinevad kommerts- ja kogukondlikud masintõlkesüsteemid pakuvad kvaliteetset tõlketeenust. (ii) Masintõlkesüsteemide teenused on lõppkasutajatele võimalikult väheste piirangutega (tasu, maht, kasutatavad platvormid) kättesaadavad. (iii) Sõltuvus üksikutest masintõlketeenuste kommertsteenusepakkujatest ei ole kriitiline ja on asendatav avatud ning vabavaraliste lahendustega. Projekti mõõdetavad tulemid on: (i) Kogutud ja korrastatud paralleelkorpuste maht. Projekti esimese aasta jooksul kogutud vähemalt 2,5 miljonit ühikut (sõna), projekti lõpuks vähemalt 15 miljonit ühikut. (ii) Kogutud korpuste - täiedavalt olemasolevatele korpustele - abil treenitud masintõlkesüsteemide kvaliteedinäitajate parenemine (mõõdetakse koostöös masintõlkesüsteemide omanikega). (iii) Kogutud korpused aksepteeritud ja publitseeritud META-SHARE (http://www.meta-net.eu/meta-share) ja CLARIN (http://www.clarin.eu/external/) baasides. Projekti tulemina loodava paralleelkorpuse omadused: • Lause tasandil joondatud inglise-eesti paralleelkorpus. • Korpus kirjeldatakse kasutades META-SHARE metaandmete formaati. • Korpus on kättesaadav tasuta ja piiranguteta kasutamiseks kommerts- ja vabavararakendustes, edasiarendusteks jm. Korpus on allalaaditav nii META-SHARE taristu kui ka CLARINi võrgustiku kaudu. • Korpus koostatakse andmetest mida ei ole seni kasutatud paralleelkorpuste loomiseks (ei kattu olemasolevate paralleelkorpustega DGT ja JRC Aquis).

Märkus. Alamosa korpusest (sh IT aastaraamatud) ajutiselt kvaliteediparanduseks eemaldatud

You don’t have the permission to edit this resource.