mboost-dp1

ChatGPT under the hood


Gå til bund
Gravatar #1 - arne_v
14. feb. 2023 18:36
Det siges at træningen af ChatGPT er sket på 10000 af dem her:
https://www.nvidia.com/en-us/data-center/a100/
og har estimeret 175 milliarder parametre.
Gravatar #2 - arne_v
14. feb. 2023 20:10
Og trænet på 570 GB text.
Gravatar #3 - larsp
15. feb. 2023 07:53
Vildt. Nvidia ramte plet da de valgte at fokusere på maksimal acceleration af meget små datatyper, som der bruges i disse AI modeller. AMD's kort kan bare ikke løbe så hurtigt med de små datatyper.
Gravatar #6 - larsp
16. feb. 2023 06:32
#5 Hæftigt grej.

Det er lidt ærgeligt at disse nye LLMs / large-language-models kræver så meget performance at det er totalt udenfor hvad private kan stykke sammen.

Image generation AI som StableDiffusion kan sagtens køres derhjemme med en high-end GPU. GPT-3 klasse LLMs, not so much. Ærgeligt.
Gravatar #7 - larsp
16. feb. 2023 15:46
Jeg må sige, efter at have eksperimenteret lidt med chatGPT, at det er ret generiske svar der kommer tilbage. Det er tydeligvis "den tekst der bedst passer til spørgsmålet" man får, ud fra traditionel og kedelig tænkning. Der er måder at slippe chatbotten fri fra dens begrænsninger, men selv da er det ret generisk.

Hvis man ved noget om emnet er der ingen overraskelser. Hvis det er et emne man ikke ved noget om, kan man godt lære noget. Men... meh. Det er småkedeligt i sidste ende. Jeg har ikke været i stand til at få chatgpt til at flippe ud med syrede svar.

Trough of disillusionment incoming? :)
Gravatar #8 - arne_v
16. feb. 2023 16:25
#7

"traditionel og kedelig tænkning" er vel en logisk konsekvens af den måde teknologien fungerer på.

Man har estimeret 175 milliarder parametere så den får flest muligt tilfælde af:

serie af ord efter punkt X = funktion(serie af ord før punkt X, parametre)

i et meget stort tekst materiale.

Det betyder at svar er det som "findes" (i lidt bred forstand) flest gange i tekst materialet.

Gravatar #9 - arne_v
16. feb. 2023 19:01
Jeg faldt lige over en artikel om hvordan ChatGPT virker.

Og lad mig starte med at sige at den er lang.

:-)

https://writings.stephenwolfram.com/2023/02/what-i...
Gravatar #10 - larsp
17. feb. 2023 08:14
arne_v (8) skrev:
"traditionel og kedelig tænkning" er vel en logisk konsekvens af den måde teknologien fungerer på.

...

Det betyder at svar er det som "findes" (i lidt bred forstand) flest gange i tekst materialet.

Ja. Og det er jo ganske udmærket nogle gange at læse et destillat af common-opinion om et emne.

Men jeg tager ordet "kedelig" i mig igen. Man skal bare prikke lidt til chatgpt, f.eks. bede den om at svare som om den har trukket en flaske whiskey, eller bruge nogle af de mange jailbreak intro prompter. Så kommer der så sandelig mindre kedelige svar, haha.
Gravatar #11 - arne_v
19. feb. 2023 00:47
Gravatar #12 - larsp
19. feb. 2023 08:31
Disse LLMer, som jeg forstår det, er trænet til at generere tekst hvor hvert ord der følger passer optimalt i forhold til de foregående baseret på en analyse af gigantiske mængder mellem/høj kvalitets tekst. Det vil sige at hvert ord er valgt med nærmest umenneskelig perfektion, og det ses tydeligt. Teksten er grammatisk perfekt, letlæst og med et rigtigt godt flow.

Men netop dette kan vel ende med at blive en akilleshæl, for mennesker skriver ikke så perfekt og det vil kunne bruges til detektion af LLM genereret tekst. Jeg tror det er tid til at fejre vores menneskelige fejlbarligheder og skrive lidt halv-gebrokkent med personlig karakter. Så er der ingen tvivl om at det er menneskeskabt materiale ;)
Gravatar #13 - arne_v
19. feb. 2023 13:15
#12

Har dy tygget dig gennem monster artiklen jeg linkede til i #9?

Den problematik relaterer sig vel til "temperatur" parameteren i den.
Gravatar #14 - larsp
20. feb. 2023 06:31
#13, nej det har jeg ikke, endnu. Jeg er med på at modellen ikke tager det absolut mest sandsynlige ord hver gang, men at der er noget tilfældighed involveret. Men selv da vælger modellen fra toppen af sandsynlighederne tænker jeg, og der vil ikke være skæverter som når et menneske skriver.

Hvis jeg havde en dag fri for arbejde ville jeg prøve at løbe dette eksempel igennem: "Cramming: Training a Language Model on a Single GPU in One Day" https://github.com/JonasGeiping/cramming https://arxiv.org/abs/2212.14034
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login