Fem etiopiske skriftspråkskorpus

Fem etiopiske skriftspråkskorpus er tilgjengelige for alle i Sketch Engine: Corpus Amharic WaC, Amaharic WIC, Corpus Oromo WaC, Corpus Somali WaC og Corpus Tigrinya WaC.

Korpusene er utviklet i et samarbeid mellom HaBiT prosjektet og NORHED-prosjektet Linguistic Capacity Buliding – Tools for the inclusive development of Ethiopia:

Corpus Amharic WaC [2013 + 2015 + 2016]
Amarisk webkorpus med 20,287,250 tokens / 17,320,000 ord.
Amaharic WIC
Amaharic WIC er et tidligere tagget korpus beskrevet i Argaw og Asker (2005), Gambäck og Asker (2010) og Gambäck (2012), som nå er lagt inn i Sketch Engine.
Corpus Oromo WaC [2016]
Oromisk webkorpus med 5,091,696 tokens / 4,249,953 ord.
Corpus Somali WaC [2016]
Somalisk webkorpus med 79,741,231 tokens / 71,871,585 ord.
Corpus Tigrinya WaC [2016]
Tigrinja webkorpus med 2,531,443 tokens / 2,087,613 ord.

Les mer om korpusene og om etiopisk språkteknologi

Publisert 14. aug. 2023 13:20 - Sist endret 14. aug. 2023 13:47