NoWaC

Norsk webkorpus med 700 millioner ord.

NoWaC (Norwegian Web as Corpus) er et stort web-basert korpus for bokmål som inneholder 700 millioner token (ord og skilletegn).

Korpuset er bygd opp ved å gå igjennom alle dokumenter på .no-domenet på Internett automatisk i perioden november 2009 til januar 2010, laste dem ned og bearbeide dem.

Korpuset er tilgjengelig for forskning i søkeverktøyet Glossa, som er utviklet av Tekstlaboratoriet. Bruk innlogging med Feide eller CLARIN eller ta kontakt med tekstlab-post@iln.uio.no.

Les mer om NoWaC.

 

Søk i korpuset

 

 

Publisert 22. juni 2023 15:39 - Sist endret 26. jan. 2024 14:15