Lektor råber vagt i gevær: Den kunstige intelligens ChatGPT opdigter referencer

Efter den seneste tids debat om, hvad den kunstige intelligens ChatGPT kan komme til at betyde for uddannelsessektoren, satte lektor i arkæologi Jens-Bjørn Riis Andresen sig for at undersøge, hvad chatbotten egentlig kunne hoste op med på et felt, hvor han selv er på hjemmebane og derfor let kan skille skidt fra kanel, nemlig lertøj fra jernalderen.

Han bad først ChatGPT om at karakterisere lertøj fra jernalderen i Danmark. Dernæst bad han den om at beskrive regionale forskelle i lertøj fra den romerske jernalder i Danmark. Begge dele klarede den mildest talt middelmådigt, vurderer Jens-Bjørn Riis Andresen.

”Jeg fik delvist rigtige svar – altså en blanding af sande og forkerte informationer. Jo mere specifik jeg bad den være, jo mere forkerte blev svarene.”

Men da Jens-Bjørn Riis Andresen bad ChatGPT om referencer på artikler om lertøj fra den romerske jernalder i Danmark, fik han sig en overraskelse. Først bad han om referencer uden at angive sprog, dernæst bad han specifikt om danske referencer. Begge gange leverede ChatGPT en liste med fem artikler. Det overraskende for lektoren var, at han ikke kunne nikke genkendende til én eneste af artiklerne.

”Først blev jeg faktisk lidt ramt på min faglighed – jeg synes jo, jeg er godt inde i feltet, men disse artikler var tilsyneladende røget under min radar.”

Men da han efterforskede sagen nærmere fandt han årsagen til, at han ikke kendte til artiklerne. ChatGPT opdigter – eller konstruerer – referencer.

”Tilsyneladende ser referencerne helt tilforladelige ud. Navnene på artikelforfatterne er kendte forskere inden for feltet, og det samme gælder for tidsskrifterne. Titlerne virker plausible, og der er et kort resumé af hver artikel. Men det hele er det pure opspind. Artiklerne findes ikke, når man søger på dem,” fortæller Jens-Bjørn Riis Andresen.

Opdagelsen bekymrer ham, for det er jo lige til dumpekarakter, siger han og refererer til, at det kan få store konsekvenser, hvis en studerende ukritisk benytter ChatGPT i en akademisk opgave og derved potentielt gør sig skyldig i snyd ved eksempelvis at benytte opdigtede referencer.

”Som ChatGPT er implementeret lige nu, overskrider den i mine øjne helt fundamentale videnskabsetiske principper om redelighed og transparens. AI-eksperter siger, at ChatGPT hallucinerer – det vil jeg ikke mene, vi har brug for i forskning,” siger Jens-Bjørn Riis Andresen.

Lektoren har delt sin oplevelse med de studerende, han underviser. Og selvom han fornemmer, at flere af de studerende er mindre alarmerede over ChatGPT end ham, står han ved sin bekymring over chatbotten.

”Det minder mig om hele diskussionen omkring fake news, og jeg tenderer til at tænke, at den burde lukkes ned,” siger han.

AU Library er stødt på henvendelser om ChatGPT-referencer

De opdigtede referencer er ikke bare noget, Jens-Bjørn Riis Andreasen er stødt på. Hos AU Library har man i løbet af den seneste måned flere gange oplevet, at studerende ledte efter materiale, der ikke findes. Bibliotekerne registrerer ikke specifikt, hvorvidt der er tale om henvendelser om ChatGPT-referencer, men Marianne Tind, der er sektionsleder på AU Library, kender til tre tilfælde fra den seneste måned.

”Her på Bartholins Allé har jeg en kollega, der fik en henvendelse fra en studerende, som ikke kunne finde en reference og fortalte, at referencen var fundet via ChatGPT. Min kollega, der er en rigtigt dygtig bibliotekar, ledte og ledte, men kunne ikke finde referencen,” siger Marianne Tind.

Ud over det nævnte eksempel har Marianne Tind fundet én forespørgsel i Det Kgl. Biblioteks tjeneste 'Spørg Biblioteket', hvor en studerende ledte efter referencer, biblioteket ikke kunne finde. Den studerende skrev, at vedkommende blandt andet havde brugt ChatGPT. Det tredje eksempel er fra AU’s campus i Emdrup, hvor en undrende studerende henvendte sig hos en bibliotekar, da den studerende igennem AU’s artikelservice havde fået afvist sin bestilling på de fire artikler, vedkommende ledte efter. Biblioteket havde afvist bestillingen, efter at have tjekket, at tidsskriftet rigtig nok fandtes online, og derfor kunne den studerende selv få adgang til det. Problemet var bare, at ChatGPT havde opdigtet referencer i tidsskriftet helt ned på årgang og sidetal.

Marianne Tind har en formodning om, at den type henvendelser vil stige fremover, og derfor er det også noget, bibliotekarerne på AU vil holde sig for øje.

”Vi er nødt til at være opmærksomme på det. Der er ingen tvivl om, at vi nu er der, hvor vi vil gå mere aktivt i dialog med den studerende, hvis vi får en henvendelse om en reference, vedkommende ikke kan finde. Først vil vi selvfølgelig forsøge at finde referencen, men kan vi ikke det, vil vi spørge, om de har fundet referencen der (ChatGPT, red.).”

”Vi spørger altid om, hvor den studerende har referencen fra, hvis vi ikke kan finde den. For så kan vi selv finde det sted, referencen står, og dobbelttjekke, at der ikke er noget, der er skrevet forkert,” siger hun.

Ligesom Jens-Bjørn Riis Andresen hæfter Marianne Tind sig ved, at chatbotten opdigter plausible referencetitler. Hun forudså, at det kunne blive brugt til at 'springe over, hvor gærdet er lavest,' og derfor har det også overrasket hende, at de studerende leder efter de referencer, chatbotten giver dem.

”Vi har tænkt, at det kunne blive et problem, hvis den studerende bare skriver den her reference ind i sin litteraturliste, og så læser vejlederen den reference og tænker: ”Den reference er meget plausibel. Forskeren findes og har skrevet om det her”. Der er jeg blevet overrasket over, at de studerende faktisk leder efter referencerne,” siger Marianne Tind.

Ekspert: ChatGPT er trænet til at give dig et svar og holde samtalen i gang

De forkerte kildehenvisninger skyldes chatrobottens vidensgrundlag og dens grundlæggende princip om, at den er designet til at svare dig på dit spørgsmål, forklarer Peter Dalsgaard, der er professor i interaktionsdesign ved Institut for Kommunikation og Kultur. ChatGPT er trænet til at gætte de kommende ord i en sekvens. Det gør den ud fra de millioner af tekster, den er blevet fordret med. Jo mere velbeskrevet emnet er, jo større er sandsynligheden for, at den giver et korrekt svar.

”Grunden til, at den finder på ting som for eksempel referencer og kildehenvisninger, er, at den er trænet til at give dig et svar og holde samtalen i gang. Så kan det godt være, den ikke kan finde en præcis reference, men så finder den for eksempel nogle forfattere, der har skrevet noget inden for det felt. Den er måske også trænet i forhold til titlerne på de ting, forfatterne har skrevet, og den ved, at de nogle gange skriver med andre. Så finder den på noget, og det er det, der kan gøre det ekstra problematisk. Den kommer med et kvalificeret gæt på en artikel, som forfatterne kunne have skrevet – men som de i virkeligheden ikke har skrevet.”

”Det er ikke grebet ud af den blå luft, men det er bare, hvad den finder mest sandsynligt, der vil komme i næste række af ord,” siger Peter Dalsgaard.

Fænomenet betegnes som AI-hallucinering, forklarer professoren. Det virker, som om den forestiller sig ting, der ikke findes, men i virkeligheden prøver den bare at stykke noget sammen ud fra noget materiale, fordi den er designet til det. Peter Dalsgaard har selv oplevet, at chatbotten begyndte at opdigte et studie og kom med et resultat af det fiktive studie, da han testede dens evne til at skrive en forskningsartikel.

”Så den går videre end bare at opdigte titler. Den kan stort set opdigte artikler. Det er jo spændende, men man skal passe meget på. Det betyder også, at den praktisk talt ikke kan bruges til særligt meget, når det kommer til faktuelle forhold, fordi man hele tiden vil skulle bruge en masse tid på at faktatjekke den,” siger han.

Omvendt er der andre sammenhænge, hvor han sagtens kan se idéen i at bruge chatbotten. Det kunne for eksempel være en studerende, der søger råd til strukturen i sin eksamensopgave, eller hvis man mangler inspiration til en tekst, man skal skrive.

Peter Dalsgaard påpeger også, at udvikleren bag ChatGPT, OpenAI, på sin hjemmeside beskriver dens begrænsninger, ligesom robotten i flere tilfælde vil forklare brugeren, at den ikke kan svare på visse spørgsmål, da den ikke er udviklet til det.

”Jeg tror, der vil ske det, at man vil indbygge faktatjek i den, så de resultater, den kommer op med, kan kobles til kilder og referencer, så den også kan henvise til, hvor artiklerne findes.”

”Der er forskellige tekniske måder at gøre det på. Men et fænomen, man kender fra en anden type AI, er, at man lader to AI tale sammen, så den ene svarer, og den anden tjekker svaret, indtil det, den svarer, passerer testen. Så først når den proces er gennemløbet, får du et resultat,” siger Peter Dalsgaard.

Korrekturlæst af Charlotte Boel.