Vi tester KI-språkvask

Kan kunstig intelligens erstatte en godt kvalifisert språkvasker? Totaltekst har testet om ChatGPT 5 kan duge.

I Totaltekst er vi oppriktig opptatt av å følge med på og ligge i forkant av utviklingen. Vi mener språk og tekst er et håndverk, og som gode håndverkere må vi holde oss oppdatert på nye verktøy og finne ut hva de eventuelt kan brukes til.

ChatGPT har fått bryne seg på arbeidsprøven vår

Vi følger altså nøye med på nyvinningene innenfor kunstig intelligens, og vi tester dem etter hvert som de lanseres. Den store nyheten i høst har vært ChatGPT 5, og i ulike forum diskuteres det for tiden hvorvidt den egner seg til å språkvaske tekster. Vi har testet den etter samme oppskrift som vi tester potensielle ansatte.

Når vi ansetter en språkkonsulent i Totaltekst, må vi nemlig være helt sikre på at kandidaten holder et meget høyt faglig nivå. Følgelig må kandidaten levere en arbeidsprøve, som i vårt tilfelle vil si å språkvaske en nøye utvalgt og tilpasset prøvetekst. Prøveteksten er full av åpenbare feil og svakheter – og av mer tilforlatelige snubletråder.

Vi har forsøkt ulike tilnærminger

Det er en kjent sak at hva man får ut av ChatGPT, kommer an på hva man mater den med. For at vi skal ha et solid grunnlag å dra konklusjoner på, har vi forsøkt flere ulike tilnærminger:

Vi har bedt ChatGPT språkvaske på egen hånd uten nærmere instrukser.
Vi har bedt ChatGPT språkvaske i tråd med en kort punktliste med konkrete instrukser.
Vi har bedt ChatGPT språkvaske i tråd med en fyldig samling referansemateriell som inkluderer våre interne tjenestestandarder og støttedokumenter så vel som et utvalg offentlig tilgjengelige kilder.

Videre har vi gjort den samme prøvevasken i to ulike arbeidsmoduser i ChatGPT. Ikke uventet leverer Thinking-modusen høyere kvalitet enn Auto. Den sistnevnte presterer rett og slett så svakt at det ikke er grunn til å kaste bort mer tid på den. Bare det å ramse opp alle skrivefeil, tegnsettingsfeil og andre svakheter Auto overser, selv i en kort prøvetekst, kunne fylt hele dette blogginnlegget og vel så det.

Målrettede grep forbedrer resultatet

Thinking-modusen er derimot mer imponerende, men også her må vi raskt snevre inn tilnærmingen før vi går videre. Å be Thinking språkvaske uten nærmere instruksjoner gir ikke et tilfredsstillende resultat. Visst retter den opp i en hel del, både rene feil og dårlig språk, og til en viss grad mestrer den kommaregler og normer for punktoppstilling. Samtidig slipper den gjennom altfor mye som en kompetent språkkonsulent ville luket bort, inkludert rene brudd på subjektsregelen, komprimerte uttrykksmåter og oppramsinger med manglende parallellitet.

Noe bedre blir det når vi gir en liste med et snaut dusin konkrete instruksjoner, men det er fremdeles et godt stykke igjen til akseptabel kvalitet. Det blir egentlig ikke så veldig interessant før vi ber ChatGPT språkvaske i tråd med mer omfattende tjenestestandarder og støttedokumenter. Da plukker den opp en klart større andel av problemene som må løses, eksempelvis både tunge setningskonstruksjoner og uryddig formatering av mellomoverskrifter.

Feilfri blir den likevel ikke

Selv med den mest raffinerte tilnærmingen vi har prøvd, er ChatGPT langt unna å bestå arbeidsprøven. Til det er mange av endringene for tilfeldige og umotiverte. Noen ganger fører det til at en kurant løsning endres til en annen kurant løsning, andre ganger til løsninger som er dårligere eller forandrer på betydningen. La oss gi noen korte eksempler:

kraftig vekst kan bli til betydelig vekst (umotivert endring, potensiell nyanseforskjell)
tilnærming kan bli til analyse (betydningsforskyvning)
lavere kan bli til betydelig lavere (betydningsinnsnevring)
litt (uspesifisert omfang) kan bli til sporadisk (frekvens)

ChatGPT endrer også gjerne entallsformer til flertall etter eget lune, og den kan uten videre finne på å fjerne både enkeltord og kildehenvisninger i teksten. Og selv om den til tider viser seg i stand til å myke opp substantivtunge formuleringer, forblir teksten tunglest når det ikke ryddes i ulogiske konstruksjoner og uklart meningsinnhold.

Et annet problem er kommentarene – ChatGPT sliter med å bruke kommentarfunksjonen i Word, noe den også forklarer når vi spør. Isteden setter den inn hakeparenteser med kommentarer direkte i brødteksten. Tungrodd, ja vel, men det ville muligens vært verdt strevet å redigere dem bort i etterkant dersom de faktisk tilførte noe. Dessverre gjør kommentarene lite annet enn å påpeke endringer som er gjort i avsnittet, noe som uansett kan framheves med endringssporing. Spørsmål og merknader til uklare eller tvetydige punkter i teksten er fraværende.

Problemene forekommer uavhengig av kvaliteten på teksten

En mulig feilkilde i denne sammenhengen kunne vært at prøveteksten vår inneholder såpass mange feil og snubletråder at resultatet ble urimelig dårlig. Dette har vi kontrollert for ved å kjøre andre tekster av høyere kvalitet gjennom den samme prosedyren, og det ser ikke ut til å gjøre noen vesentlig forskjell. De overflødige og tidvis upresise endringene kommer likevel.

Kanskje skyldes det at ChatGPT alltid vil endre noe når du ber den om å gjøre forbedringer. Uansett er resultatet en rekke endringer som ved første øyekast kan virke imponerende, men som viser seg å ikke være forbedringer når man går dem etter i sømmene.

Verktøyet erstatter ikke fagfolk

Konklusjonen gir seg etter hvert selv: ChatGPT kan utvilsomt gi en del gode forslag og på den måten være et nyttig hjelpemiddel for kyndige språkbrukere. Men den gir slett ikke noe ferdig produkt, den gjør mange vilkårlige og unødvendige endringer, og man skal holde tunga beint i munnen for å passe på at meningsinnholdet er intakt etter en runde med ChatGPT-språkvask.

ChatGPT er altså ikke noen erstatning for menneskelig fagkunnskap og skjønn. Godt språkhåndverk går ikke av moten selv om verktøyene er i utvikling.

Flere blogginnlegg