Korpusene er utviklet i et samarbeid mellom HaBiT prosjektet og NORHED-prosjektet Linguistic Capacity Buliding – Tools for the inclusive development of Ethiopia:
- Corpus Amharic WaC [2013 + 2015 + 2016]
Amarisk webkorpus med 20,287,250 tokens / 17,320,000 ord. - Amaharic WIC
Amaharic WIC er et tidligere tagget korpus beskrevet i Argaw og Asker (2005), Gambäck og Asker (2010) og Gambäck (2012), som nå er lagt inn i Sketch Engine. - Corpus Oromo WaC [2016]
Oromisk webkorpus med 5,091,696 tokens / 4,249,953 ord. - Corpus Somali WaC [2016]
Somalisk webkorpus med 79,741,231 tokens / 71,871,585 ord. - Corpus Tigrinya WaC [2016]
Tigrinja webkorpus med 2,531,443 tokens / 2,087,613 ord.
Les mer om korpusene og om etiopisk språkteknologi