Bygga stora språkmodeller som ChatGPT till halv kostnad? - Vad Är Chat GPT

Stora språkmodeller (LLM) som GPT-3 och ChatGPT har revolutionerat AI genom att erbjuda naturlig språkförståelse och innehållsgenereringsfunktioner. Men deras utveckling har ett högt pris som begränsar tillgängligheten och ytterligare forskning.

ChatGPT till Halva Kostnaden

Forskare uppskattar att utbildningen av GPT-3 kostade OpenAI cirka 5 miljoner dollar. Microsoft insåg dock potentialen och investerade 1 miljard dollar 2019 och 10 miljarder dollar 2023 i OpenAI:s GPT-3- och ChatGPT-satsning.

LLM är maskininlärningsmodeller som tränas på omfattande textdata för NLP-applikationer. De är baserade på transformatorarkitektur och använder uppmärksamhetsmekanismer för NLP-uppgifter som frågesvar, maskinöversättning, sentimentanalys etc.

Frågan uppstår: kan effektiviteten hos dessa stora modeller ökas samtidigt som beräkningskostnaden och träningstiden minskas?

Flera metoder, som progressiva neurala nätverk, nätverksmorfism, modellparallellism inom lagren, kunskapsarv etc., har utvecklats för att minska beräkningskostnaden för träning av neurala nätverk. Den nya LiGO-metoden (Linear Growth Operator) som vi kommer att diskutera sätter ett nytt riktmärke. Den halverar beräkningskostnaden för att träna LLM.

Innan vi diskuterar denna teknik är det viktigt att undersöka de faktorer som bidrar till det höga priset för att skapa LLM.

Kostnaden för att bygga stora språkmodeller

De tre största kostnaderna för att utveckla LLM är följande:

1. Beräkningsresurser

Att bygga LLM kräver enorma beräkningsresurser för att träna på stora datamängder. De måste bearbeta miljarder parametrar och lära sig komplexa mönster från massiva textdata.

Investeringar i specialiserad hårdvara som grafikprocessorer (GPU) och Tensor Processing Units (TPU) krävs för att bygga och träna LLM för att uppnå toppmodern prestanda.

GPT-3 tränades till exempel på en superdator med 10000 GPU:er i företagsklass (H100 och A100) och 285 000 CPU-kärnor.

2. Energiförbrukning

De intensiva beräkningsresurser som krävs för att bygga LLM resulterar i betydande energiförbrukning. Till exempel tog det 14,8 dagar att träna 175 miljarder parametrar GPT-3 med 10 000 V100 GPU:er, vilket motsvarar 3,55 miljoner GPU-timmar. En sådan hög energiförbrukning har också betydande miljöeffekter.

3. Lagring och hantering av data

LLM tränas på stora datamängder. GPT-3 tränades till exempel på en stor korpus av textdata, inklusive Common Crawl, WebText2, Books1, Books2 och Wikipedia, bland andra källor. Betydande infrastrukturinvesteringar krävs för att samla in, hantera och lagra dessa datamängder.

Dessutom krävs molnlagring för datalagring och mänsklig expertis för förbehandling av data och versionskontroll. Att säkerställa att din datastrategi överensstämmer med regler som GDPR ökar också kostnaden.

LiGO-teknik: Minska kostnaden för att bygga stora språkmodeller till hälften
LiGO (Linear Growth Operator) är en ny teknik som utvecklats av forskare vid MIT för att minska beräkningskostnaden för att träna LLM med 50%. Metoden innebär att vikterna i större modeller initialiseras från vikterna i mindre förtränade modeller, vilket möjliggör effektiv skalning av neurala nätverk.

Yoon Kim, huvudförfattare till artikeln, säger:

“Det har uppskattats att träningsmodeller i den skala som ChatGPT antas köras på kan kosta miljontals dollar bara för en enda träningskörning. Kan vi förbättra effektiviteten i dessa utbildningsmetoder, så att vi fortfarande kan få bra modeller på kortare tid och för mindre pengar? Vi föreslår att vi gör detta genom att utnyttja mindre språkmodeller som tidigare har tränats.”

Denna metod bibehåller prestandafördelarna hos större modeller med minskade beräkningskostnader och träningstid jämfört med att träna en stor modell från grunden. LiGO använder en datadriven linjär tillväxtoperatör som kombinerar djup- och breddoperatörer för optimal prestanda.

I uppsatsen användes olika datamängder för att genomföra textbaserade experiment, inklusive den engelska Wikipedia-korpusen för träning av BERT- och RoBERTa-modeller och C4-datamängden för träning av GPT2.

LiGO-teknikexperimentet inkluderade växande BERT-Small till BERT-Base, BERT-Base till BERT-Large, RoBERTaSmall till RoBERTa-Base, GPT2-Base till GPT2-Medium och CaiT-XS till CaiT-S.

Forskarna jämförde sin metod med flera andra baslinjer, inklusive utbildning från grunden, progressiv utbildning, bert2BERT och KI.

LiGO-tekniken gav 44,7 % besparingar i FLOP (floating-point operations per second) och 40,7 % besparingar i väggtid jämfört med att träna BERT-Base från grunden genom att återanvända BERT-Small-modellen. LiGO tillväxtoperatör överträffar StackBERT, MSLT, bert2BERT och KI i effektiv träning.

Fördelar med att använda en teknik för träningsoptimering som LiGO

LiGO är en effektiv träningsmetod för neurala nätverk som har olika fördelar som listas enligt följande:

1. Snabbare träning

Som tidigare nämnts är snabbare träning den största fördelen med LiGO-tekniken. Den tränar LLM på halva tiden, vilket ökar produktiviteten och minskar kostnaderna.

2. Resurseffektiv

LiGO är resurseffektivt eftersom det minimerar väggtid och FLOP:er, vilket leder till en mer kostnadseffektiv och miljövänlig metod för att utbilda stora transformatormodeller.

3. Generalisering

LiGO-tekniken har förbättrat prestandan hos både språk- och syntransformatorer, vilket tyder på att det är en generaliserbar teknik som kan tillämpas på olika uppgifter.

Att bygga kommersiella AI-produkter är bara en aspekt av de totala kostnader som är förknippade med AI-system. En annan betydande del av kostnaderna kommer från den dagliga driften. Till exempel kostar det OpenAI cirka 700 000 dollar varje dag att besvara frågor med hjälp av ChatGPT.

Forskare förväntas fortsätta att utforska metoder som gör LLM kostnadseffektiva under utbildning och mer tillgängliga på runtime.