Korpusene er utviklet gjennom et samarbeid mellom NORHED-prosjektet Linguistic Capacity Buliding – Tools for the inclusive development of Ethiopia og Tekstlaboratoriet:
- Amharic Speech Corpus 154 000 tokens, 82 talere.
- Gumer Speech Corpus 37 250 tokens, 22 talere.
- Hadiyya Speech Corpus 13 000 tokens, 39 talere.
- Hamar Speech Corpus 16 900 tokens, 2 talere.
- Kambata Speech Corpus 139 600 tokens, 69 talere.
- Muher Speech Corpus 40 500 tokens, 8 talere.
- Oromo Speech Corpus 266 500 tokens, 88 talere.
- Tigrinya Speech Corpus 138 600 tokens, 45 talere.
Les mer om korpusene og om etiopisk språkteknologi