Skrevet af Aaron J. Snoswell, Queensland University of Technology og Dan Hunter, Queensland University of Technology
Hvis du har set billeder af en tekande formet som en avocado eller læst en velskrevet artikel, der svinger ud af lidt mærkelige tangenter, er du muligvis blevet udsat for en ny trend inden for kunstig intelligens.
Nye maskinlæringssystemer kaldet DALL-E, GPT og PaLM får opmærksomhed med deres utrolige evne til at generere kreativt arbejde.
Disse systemer er kendt som “Foundation Models”, grundmodeller, og er ikke alle lavet til at skabe hype eller festtricks. Men hvordan fungerer denne nye tilgang til kunstig intelligens? Og bliver den enden på menneskelig kreativitet og starten på et deep-fake mareridt?
1. Hvad er grundmodeller?
Grundmodeller fungerer ved at træne et enkelt enormt system på store mængder generelle data og derefter tilpasse systemet til nye problemer. Tidligere modeller havde en tendens til at starte fra bunden for hvert nyt problem.
For eksempel blev DALL-E 2 trænet til at matche billeder (såsom et foto af en kat) med billedteksten (“Mr. Fuzzyboots, tabbykatten slapper af i solen”) ved at scanne hundredvis af millioner af eksempler. Når den er trænet, ved modellen, hvordan katte (og andre ting) ser ud på billeder.
Men modellen kan også bruges til mange andre interessante AI-opgaver, såsom at generere nye billeder fra en billedtekst alene (“Vis mig en koala, der ‘dunker’ en basketball”) eller redigering af billeder baseret på skriftlige instruktioner (“få det til at se ud som om denne abe betaler skat”).
2. Hvordan fungerer de?
Grundmodeller kører på “dybe neurale netværk”, som er løst inspireret af, hvordan hjernen fungerer. Disse involverer sofistikeret matematik og en enorm mængde computerkraft, men det kan koges ned til en meget sofistikeret form for mønstertilpasning.
Ved at se på millioner af eksempler på billeder, kan et dybt neuralt netværk forbinde ordet “kat” med mønstre af pixels, der ofte vises på billeder af katte – som bløde, uklare, behårede teksturklatter. Jo flere eksempler modellen ser (jo flere data, den bliver fodret), og jo større modellen er (jo flere “lag” eller “dybde” den har), jo mere komplekse kan disse mønstre og sammenhænge være.
Grundmodeller er på en måde blot en forlængelse af det “deep learning”-paradigme, der har domineret AI-forskning i det sidste årti. Men de udviser u-programmeret eller “emergent” adfærd, der kan være både overraskende og ny.
For eksempel ser Googles PaLM-sprogmodel ud til at kunne producere forklaringer på komplicerede metaforer og vittigheder. Det er ikke en del af den oprindelige træning, der blot var at efterligne de typer data, den blev trænet til at behandle.
3. Adgangen er begrænset – indtil videre
Selve omfanget af disse kunstig intelligens-systemer giver nærmest hovedpine. PaLM har 540 milliarder parametre, hvilket betyder, at selvom alle på planeten huskede 50 numre, ville vi stadig ikke have nok lagerplads til at reproducere modellen.
Modellerne er så enorme, at træning af dem kræver enorme mængder af beregningsmæssige og andre ressourcer. Et estimat anslår omkostningerne ved at træne OpenAIs sprogmodel GPT-3 til omkring 5 millioner dollars.
Derfor er det kun store teknologivirksomheder som OpenAI, Google og Baidu, der har råd til at bygge fundamentmodeller i øjeblikket. Disse virksomheder begrænser, hvem der kan få adgang til systemerne, hvilket giver økonomisk mening.
Brugsrestriktioner kan give os en vis trøst. Disse systemer vil ikke blive brugt til ondsindede formål (såsom at generere falske nyheder eller ærekrænkende indhold). Men det betyder også, at uafhængige forskere ikke er i stand til at udspørge disse systemer og dele resultaterne på en åben og ansvarlig måde. Så vi kender endnu ikke de fulde implikationer af deres brug.
4. Hvad vil disse modeller betyde for ‘kreative’ industrier?
I de kommende år vil der blive produceret flere grundmodeller. Mindre modeller udgives allerede i open source-sammenhænge, teknologivirksomheder begynder at eksperimentere med at licensere og kommercialisere værktøjerne, og forskere i kunstig intelligens arbejder hårdt på at gøre teknologien mere effektiv og tilgængelig.
Den bemærkelsesværdige kreativitet, som modeller som PaLM og DALL-E 2 udviser, antyder, at kreative professionelle job kan blive påvirket af denne teknologi hurtigere end oprindeligt forventet.
Traditionelt har man forventet, at robotter ville fortrænge de dårlige job først; de monotome jobs. Kreative jobs forventede man derimod ville være relativt sikkert fra automatisering – især arbejde, der krævede kreativitet og træning.
Deep learning AI-modeller udviser allerede overmenneskelig nøjagtighed i opgaver, såsom at gennemgå røntgenbilleder og opdage øjentilstanden øjenforkalkning (AMD – aldersrelateret macula degeneration). Grundmodeller kan snart give billig arbejdskraft inden for områder som annoncering, tekstforfatning eller grafisk design.
Fremtiden for de kreative jobs kan altså se væsentlig anderledes ud, end vi havde forventet.
5. Hvad betyder det for juridiske beviser, nyheder og medier?
Grundmodeller vil uundgåeligt påvirke loven på områder som intellektuel ejendom og beviser, fordi vi ikke vil være i stand til at antage, at kreativt indhold er resultatet af menneskelig aktivitet.
Vi bliver også nødt til at konfrontere udfordringen med misinformation, der genereres af disse systemer. Vi står allerede over for enorme problemer med misinformation, som vi ser i den russiske invasion af Ukraine og de voksende problemer med Deep Fake-billeder og -videoer. Men grundmodellerne er klar til at gøre disse udfordringer endnu større.
Tid til at forberedelse
Som forskere, der studerer virkningerne af kunstig intelligens på samfundet, tror vi, at grundmodellerne vil medføre enorme ændringer. De kontrolleres (lige nu) stramt, så vi har tid nok til at forstå deres implikationer, før de bliver et stort problem.
Ånden er ikke helt ude af flasken endnu, men grundmodellerne er en meget stor flaske – og indeni er der en meget klog ånd.
Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.