Åtte etiopiske talespråkskorpus

Åtte små etiopiske talespråkskorpus for amarisk, gumer, hadiyya, hamar, kambata, muher, oromo og tigrinya er tilgjengelige for alle i søkeverktøyet Glossa.

Korpusene er utviklet gjennom et samarbeid mellom NORHED-prosjektet Linguistic Capacity Buliding – Tools for the inclusive development of Ethiopia og Tekstlaboratoriet:

Amharic Speech Corpus 154 000 tokens, 82 talere.
Gumer Speech Corpus 37 250 tokens, 22 talere.
Hadiyya Speech Corpus 13 000 tokens, 39 talere.
Hamar Speech Corpus 16 900 tokens, 2 talere.
Kambata Speech Corpus 139 600 tokens, 69 talere.
Muher Speech Corpus 40 500 tokens, 8 talere.
Oromo Speech Corpus 266 500 tokens, 88 talere.
Tigrinya Speech Corpus 138 600 tokens, 45 talere.

Les mer om korpusene og om etiopisk språkteknologi

Publisert 14. aug. 2023 13:38 - Sist endret 26. jan. 2024 11:54