Språklige trekk kan være nøkkelen til å avsløre falske nyheter

Verbtider, pronomen og metaforer er noe av det som kan være annerledes i en tekst når skribenter prøver å lure oss.

Hender som holder en smarttelefon hvor det står "news" og "fake".

BEDRE VERKTØY: Facebook og andre plattformer bruker allerede verktøy for å avsløre mulig desinformasjon. Målet til Silje Susanne Alvestad og kollegaene er å lage bedre verktøy.

Foto: Colourbox.

Etter avsløringene om at det amerikanske presidentvalget i 2016 ble påvirket av russiskproduserte «fake news», ble flere mer kritiske til nyheter i sosiale medier. «Falske nyheter» ble siden kåret til årets ord i 2017, og mange av oss lærte at om noe virker for godt til å være sant, så er det ofte det.

Men hva med selve språket: kan det si noe om hvor sann teksten du leser, er?

Ved Universitetet i Oslo jobber lingvister nå sammen med forskere innen informatikk og kunstig intelligens på SINTEF for å avsløre språket i falske nyheter, det de kaller «Fakespeak».

– Vi undersøker om det fins språklige forskjeller mellom sanne og usanne nyhetstekster i norsk, engelsk og russisk. Målet er å forbedre eksisterende faktasjekkverktøy, sier Silje Susanne Alvestad.

Hun er leder for Fakespeak-prosjektet og ser at i bekjempelsen av falske nyheter kan lingvistikk, som er hennes fagfelt, ha en direkte samfunnsnytte.

– Innenfor medievitenskap og informatikk har det i flere år vært forsket på ulike aspekter ved falske nyheter, som for eksempel hvordan de spres. Men innenfor språkvitenskapen har det vært hull når det gjelder dette fenomenet, sier Alvestad.

Uformell stil og verb i presens kan være tegn på lureri

Det finnes riktignok noen lingvister som har gått løs på falske nyhetsartikler tidligere.

I 2003 ble New York Times-journalist Jayson Blair tatt for å ha fabrikkert en rekke nyhetsartikler (nytimes.com). Jack Grieve og hans kollegaer ved Universitetet i Birmingham har samlet de falske tekstene i det lingvister kaller et korpus, og sammenlignet dem med et utvalg sanne nyhetssaker Blair har skrevet.

– Forskerne antok at siden Jayson Blair hadde ulik hensikt med de to typene artikler han hadde skrevet – han ønsket å informere med de genuine tekstene og å villede med de fabrikkerte – så ville også stilen, de språklige trekkene, være ulik, sier Alvestad.

Og ganske riktig: tekstene var sjangermessig forskjellige.

– De usanne hadde en uformell stil, mens de de genuine tekstene lignet andre tekster med høy informasjonstetthet.

De britiske forskerne fant flere språklige forskjeller:

Ekte tekster: mer bruk av substantiver og ord som modifiserer substantiver. Ordene var i gjennomsnitt lengre.
Falske tekster: mer bruk av verb, særlig i presens. Også mer bruk av pronomen, adjektiver og småord som brukes for å legge trykk på meningsinnholdet (emfatiske ord).

Dette er funn Alvestad og lingvistkollegaene Nele Põldvere og Elizaveta Kibisova bygger videre på, når de undersøker språklige kjennetegn ved falske nyheter på norsk, engelsk og russisk.

Metaforbruk kan være viktig signal

En metafor er et uttrykk fra ett domene som er brukt på et annet. For eksempel kan man bruke en metafor fra krig på området helse når man snakker om hvordan man bør «angripe et virus».

Silje Alvestad - kvinne med hår i hestehale og rød genser. — **JAKTER PÅ** «**FAKESPEAK**»: Slije Susanne Alvestad leder lingvister og informatikere i forskningem på språket i falske nyheter. Foto: Privat.

UiO-forskerne, med Nele Põldvere i spissen, har sett nærmere på Blairs bruk av metaforer.

– Han bruker færre metaforer i de fabrikkerte nyhetsartiklene sine enn når han skriver sant. En mulig forklaring på det er at vi oftest bruker metaforer når vi gjenforteller historier om noe vi faktisk har opplevd selv, sier Alvestad.

I tillegg bruker Blair språklige elementer som beskriver eller prøver å frembringe positive følelser.

– Tidligere forskning har vist at når man bevisst vil villede, prøver man oftest å få frem sterke negative følelser. Men det motsatte var tilfelle hos Jayson Blair. Når han skriver usant, bruker han ord, uttrykk og formuleringer som skaper positive følelser.

Alvestad peker på at det kan skyldes tematikken: Flere av Blairs tekster var fabrikkerte heltehistorier om amerikanske soldater i Irak-krigen.

– Blair ønsket å presentere Irak-krigen i et positivt lys.

Utfordrende å finne nok falske nyheter på norsk

Når forskere sammenligner sanne og falske tekster skrevet av samme person, slik de gjør med Blairs tekster, kan det gi verdifulle data. Man garderer seg mot flere mulige feilkilder, som forskjeller i personlig skrivestil og forskjeller i sjanger. Samtidig kan det være vanskelig å generalisere ut fra funn basert på ett enkelt individ.

– Jack Grieve og hans kolleger utførte flere mindre studier av samme type som Jayson Blair-studien, og de konkluderte med at folk lyver på forskjellige måter, påpeker Alvestad.

Én forfatter produserer ofte ikke nok tekst. Mens Jayson Blairs tekster er på til sammen 80 sider, ønsker maskinlæringsspesialister helst å jobbe med tekstsamlinger som er mye større enn det. Derfor har forskerne valgt å kombinere tekstsett skrevet av én forfatter med tekster skrevet av ulike forfattere, noe de samler inn fra faktasjekktjenester.

Alvestad og kollegaene er godt i gang med å analysere språket i falske nyheter på engelsk, mens både norsk og russisk byr på noen metodiske utfordringer.

– Mens engelsk er det språket som brukes mest på nett og som det er forsket mest på, er det vanskelig å finne nok stoff på norsk. Norge ligger på topp i undersøkelser om tillit til medier, så det er kanskje ikke så overraskende.

Forskerne har likevel noen eksempler på fabrikkerte nyheter fra enkeltforfattere som også har skrevet ekte journalistikk de kan sammenligne med, og de samarbeider med Faktisk.no for å samle et større sett av tekster.

– Det siste tar mye tid, for ingen av faktasjekktjenestene vi har vært i kontakt med, har et arkiv å dele med oss. Dermed må vi selv nøste oss tilbake til originalteksten, som ofte er endret eller fjernet etter selve faktasjekken. Vi ønsker jo å undersøke artikkelen slik den var før den ble faktasjekket, sier Alvestad.

Skjerm på smart-telefon som viser Donald Trumps twitterkonto, med teksten "account suspended". — **ØKT BEVISSTHET OM FAKE NEWS:** Mange ble klar over faren for falske nyheter etter at Donald Trump ble valgt til president i USA i 2016. Han ble også kjent for å dele usannheter gjennom sin Twitter-konto, som ble stengt i 2021 på grunn av opphissing til vold. Foto: Unsplash.

Nok falske nyheter i Russland, men vanskelig å kvalitetssikre

Det er godt dokumentert at det florerer av usannheter i russiske medier (faktisk.no). Det er likevel utfordrende for Alvestad og kollegaene å finne russiske tekster de kan bruke som forskningsmateriale.

– Det kunne for eksempel vært interessant å undersøke informasjonspåvirkningen fra russisk side i forkant av invasjonen av Ukraina, sier Alvestad.

En slik studie byr imidlertid på en rekke utfordringer.

– For det første ble det tidlig vanskelig for journalister i Russland å skrive noe som avvek fra myndighetenes versjon av virkeligheten. Derfor ser tekstene mer ut som pressemeldinger enn nyhetsartikler, og de mangler ofte forfatternavn. Vi ønsker å ha med forfatternavn og kilde, også for å finne tekster vi kan sammenligne de villedende tekstene med.

Videre er faktasjekktjenester i Russland noe annet enn de er i land som Norge.

– I Russland er det forbudt å spre falske nyheter om visse temaer, men definisjonen av falske nyheter er ikke helt som vår.

For å finne godt materiale på russisk ser forskerne nå til faktasjekktjenester og medier basert utenfor Russland, som for eksempel ukrainske stopfake.org.

Bedre verktøy for å avsløre

Sosiale medier-plattformen Facebook bruker i dag kunstig intelligens for å advare om mulig desinformasjon. Går det som forskerne i Fakespeak-prosjektet vil, kan den typen verktøy bli bedre.

– Vi jobber på denne måten: først analyserer lingvistene i prosjektet tekstene. Så overleverer de resultatene til informatikerne, som inkorporerer de språklige kjennetegnene i verktøy som allerede finnes. Målet er at falske nyheter på den måten skal kunne oppdages raskere enn de kan i dag.

– Vil resultatene deres ha overføringsverdi til andre språk?

– Hvis vi skulle finne ut at det er fellestrekk ved fakespeak i de tre språkene vi undersøker, så vil det være et interessant funn. Likevel er dette bare indoeuropeiske språk – det fins jo mange andre språkfamilier. Så vi vil trenge mange flere studier for å kunne si noe om hvorvidt trekkene er universelle.

Alvestad forteller at det er stor interesse for Fakespeak-forskningen både i og utenfor akademia og at hun ofte mottar henvendelser fra forskere som vil samarbeide. Hun peker på verdien av at forskerne i prosjektet samarbeider tett på tvers av både fagfelt og institusjoner på en måte som får frem ny kunnskap.

– Vi er rett og slett et eksempel på et tverrfaglig prosjekt som gjør humanistisk forskning veldig samfunnsnyttig, avslutter hun.

Om forskningen

Silje Susanne Alvestad er lingvist og forsker innenfor slaviske språk ved Universitetet i Oslo. Hun leder prosjektet Fakespeak – språket i falske nyheter. Her samarbeider språkforskere ved Universitetet i Oslo med informatikere ved SINTEF for å forbedre teknologiske verktøy som kan avsløre falske nyheter ved å automatisere språklige kjennetegn.