HaBiT webkorpus for nynorsk og bokmål

HaBiT-korpusene er hittil de største webkorpusene for norsk.

Vinterlandskap med utsyn nedover en dal med fjord og fjell. Foto.

HaBiT Norwegian Web Corpus 2015 (Nynorsk) inneholder drøye 55 millioner ord. HaBiT Norwegian Web Corpus 2015 (Bokmål) inneholder 1,18 milliarder ord.

Begge korpusene er samlet inn i Februar 2015 ved å bruke SpiderLing. Tekstene er tagget med Oslo-Bergen-taggeren. Arbeidet er gjort ved Masarykova Univerzita, Brno, Tsjekkia, i samarbeid med Tekstlaboratoriet ved UiO og NTNU, i regi av HaBiT prosjektet, finanisert av det tsjekkisk-norske forskningsprogrammet i EEA and Norway Grants.

Korpusene er søkbare for alle i Sketch Engine:

Søk i nynorskkorpuset

Søk i bokmålskorpuset

 

 

Av Logoen til Habit-prosjektet
Publisert 11. aug. 2023 13:04 - Sist endret 26. jan. 2024 13:40