Till 2026 kommer vi ha slut på data att träna artificiell intelligens med: vad betyder detta

av Titti Carlberg

17 November 2023

Till 2026 kommer vi ha slut på data att träna artificiell intelligens med: vad betyder detta

Artificiell intelligens har nu blivit en del av våra liv, på ett eller annat sätt. Men uppkomsten av olika generativa AI:er har lett till en viss oro bland forskare: data för att träna artificiell intelligens kan ta slut tidigare än de trott. 
I den här artikeln kommer vi att titta på varför bristen på data för att träna AI är ett problem, och vilka lösningarna är.

Hur artificiell intelligens tränas

Hur artificiell intelligens tränas

Pexels

Att träna de algoritmer som ligger till grund för generativ AI kräver en stor mängd data. Vidare är det viktigt att denna data håller hög kvalitet, för att också höja kvaliteten på svaren. För att ge några exempel tränades ChatGPT på 570 Gigabyte text, eller ungefär 300 miljarder ord. Och detsamma hände för algoritmerna som genererar bilder som Dall-E, trände på nästan 6 miljarder text-bild-par. Kort sagt: för att ha artificiell intelligens som verkligen är användbar i vardagen krävs mycket, väldigt mycket text för att träna dem.

Problemet är att, som vi nämnt, denna data måste vara av hög kvalitet. För att förstå varför, fråga dig själv: vill vi verkligen att ChatGPT ska träna på alla inlägg på de sociala medier vi tittar på varje dag. Vi kan riskera misslyckanden som Microsofts, som fick rasistiska svar från en generativ AI som tränats på Twitter-innehåll. Uppgifterna måste därför vara av hög kvalitet, och här stöter vi på det andra problemet: det finns inte tillräckligt med det. Enligt vissa forskare kan textdata av hög kvalitet ta slut till 2026. Och då?

 

Framtiden för artificiell intelligens: hur kommer träning att ske?

Framtiden för artificiell intelligens: hur kommer träning att ske?

Pexels

Larmet om data för att träna artificiell intelligens är för tillfället bara ett larm. Utvecklare kan optimera algoritmer och därmed leda till generativa AI:er som:

utnyttjar befintliga uppgifter bättre;
är benägna att använda mindre data;
minska det erforderliga koldioxidavtrycket.

Detta alternativ består dock av många men och några om. Ett annat alternativ är ett avtal med stora förlag, för at ge AI fri tillgång till nya böcker och befintligt litterärt arv. På så sätt skulle det också vara möjligt att undvika användning av utbildningsdata utan att kompensera upphovsrättsinnehavarna. Det finns också en lösning som det inte pratas så mycket om ännu: att träna artificiell intelligens med syntetisk data, det vill säga data producerad av en artificiell intelligens.

Att träna AI med AI-producerad data: detta är framtiden

Att träna AI med AI-producerad data: detta är framtiden

Freepik

Det stämmer, det finns företag som tar itu med databristen på ett "kreativt" sätt, och producerar syntetisk data för att träna AI. Några exempel på detta tillvägagångssätt är Mostly AI och Clearbox AI, som tränar artificiell intelligens med data producerad av artificiell intelligens. Dessa är algoritmer baserade på proprietär teknologi som representerar matematiska simuleringar av verkliga situationer. Syntetisk data respekterar människors integritet och minskar kostnaderna för att komma åt känslig data.

Å andra sidan fokuserar anhängare av syntetisk data på integritetsfaktorn, såväl som på bristen på högkvalitativ riktig data. Med hjälp av data skapad av AI löses detta problem och generativa modelller kan tränas, som företagen avser. Det kanske återstår ett dilemma dock: på vilken data tränas de AI:er som producerar data att träna andra AI:er med?