Språkmodeller finner på ting
Siden store språkmodeller ikke har kunnskap, kan de finne på ting som ikke stemmer. Det kalles ofte hallusinering, men har egentlig ingenting med menneskelig hallusinering å gjøre. Derfor er det noen som foretrekker å kalle det konfabulering når språkmodeller finner på ting.
Eksempler på hallusinering
Språkmodeller kan finne på eller blande sammen ting på forskjellige måter. Her er noen eksempler, det finnes flere.
- Feil fakta: Modellen oppgir feil datoer, tall eller navn.
- Oppdiktede referanser: Modellen lager titler på artikler eller bøker som ikke finnes.
- Blandede personer: Modellen blander sammen biografier fra ulike personer.
Hvorfor skjer det?
Det er mange årsaker til hallusinering:
- Modellen vil alltid gi et svar, den sier ikke “jeg vet ikke”.
- Mønstre fra trening, modellen har lært hvordan svar “skal se ut”.
- Manglende faktasjekk, modellen har ikke kunnskap.
- Overgeneralisering, modellen kombinerer mønstre fra ulike kilder.
- Utdaterte treningsdata, modellen vet ikke hva som har skjedd etter den ble trent.
Hallusinering med selvtillit
Det er et stort problem at LLM-er ofte hallusinerer med stor selvsikkerhet. De sier ikke: “Jeg er usikker, men …”. I stedet presenterer de feilinformasjon med samme overbevisning som riktig informasjon. Derfor kan du ikke stole på at et svar er riktig bare fordi det fremstår selvsikkert. Du må alltid sjekke fakta med en pålitelig kilde.
Hva med internett-søk?
Mange store språkmodeller har nå mulighet til å søke på internett for å få oppdatert informasjon. Men det garanterer ikke at svaret er riktig. Det er fordi LLM-en fortsatt må tolke og oppsummere informasjonen den finner, og det gjør den på samme måte som alltid – ved å generere tekst basert på mønstre. Modellen kan derfor fortsatt hallusinere selv om den har tilgang til korrekt informasjon fra nettet.