Hvordan fungerer språkmodeller?

I denne delen av kurset skal du lære mer om hvordan store språkmodeller (LLM-er) fungerer, og hvorfor denne forståelsen er viktig når du bruker dem.

En type enkle språkmodeller som mange har brukt, er smarte tastaturer på mobiltelefoner. De foreslår neste ord basert på teksten du har skrevet så langt. Modellene er trent opp på tekster hentet fra internett, og forslagene er de mest sannsynlige ordene utfra mønstrene som modellen har lært fra tekstene. Vi kan si at forslaget er betinget av teksten du har skrevet, som vi kaller konteksten.

Selv om store språkmodeller er mye mer avanserte enn smarte tastaturer, fungerer de grunnleggende sett på samme måte. De bygger opp teksten et ord av gangen, betinget av konteksten du gir den. Konteksten kan være en instruksjon eller et spørsmål. Ofte legger vi til ekstra kontekst, for eksempel ved å laste opp filer. Mange KI-systemer, som for eksempel chat-tjenesten MS Copilot, kan også hente relevant informasjon fra internett, som deretter brukes som kontekst.

Store språkmodeller trenes altså på tekster fra internett. Men det er mange tekster de ikke har tilgang til. For eksempel har de ikke tilgang til informasjon som krever innlogging, eller som er bak en betalingsmur. De har også begrenset tilgang til trykte kilder. Dette skaper begrensninger for hva modellene kan lære.

Dette gir ulikt utslag for ulike bruksområder. For eksempel er det for visse fagområder lite informasjon på nett, og da vil naturligvis også språkmodellen ha lite informasjon om disse områdene.

Etter denne episoden vil du kunne:

Forstå at LLM-er konstruerer tekst basert på statistiske mønstre
Forklare hvorfor LLM-er ikke er pålitelige kunnskapsbaser
Gjenkjenne når en LLM kan gi feil informasjon
Forstå betydningen av tilfeldighet i KI-svar

Fordypning

Hva er kontekst?

Når vi snakker om store språkmodeller, bruker vi ofte kontekst om alt det vi gir modellen som input. Det kan være et spørsmål eller instruksjon, men også for eksempel dokumenter, bilder eller andre ting i vi laster opp til modellen. Alle store språkmodeller har et kontekstvindu, som har en begrenset størrelse. Informasjonen vi vil at modellen skal behandle må få plass i kontekstvinduet. Hvis vi har mer informasjon enn det som får plass i kontekstvinduet, kan systemet som styrer språkmodellen bruke ulike teknikker for å lage utdrag eller sammendrag av informasjonen. Språkmodellen har ikke tilgang til informasjon som ikke er i konteksten. Den kan heller ikke kan “huske” informasjon fra tidligere samtaler.