ChatGPT saatavilla nyt myös IBM PC:lle

  • Keskustelun aloittaja Keskustelun aloittaja Kaotik
  • Aloitettu Aloitettu

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 748
ChatGPT:n saatavuus on todistanut kiistatta jälleen kerran, että 640 Kt muistia riittää kaikille, ainakin jos sen takaa löytyy 4,77 MHz:n taajuudella sykkivä Intel 8088 -prosessori IBM PC-XT:n sisällä. Tällä kertaa kiitos itsestänselvyyden todistamisesta kuutuu Yo Kheng Mengille.

1680210255390.png


 
Mitä tuo "client" sisältää? Toimiiko ilman nettiä?
Eli siis 8088 ruksuttaisi GPT-3:a tai GPT-4:ää menemään paikallisesti 640 kt:n muistissaan? Juu ei.

Tompan artikelissa mainitaan että toimivan verkkoyhteyden aikaansaaminen ChatGPT:n kanssa oli yksi projektin suurimmista haasteista.
 
Vähän meh uutinen. Voinhan mä käyttää ChatGPT:tä tuolla periaatteella vaikka 70-luvun VT100 päätteen kanssa...joku raspi vaan väliin.
 
Tuolla tarkempi selostus toiminnasta: Building a DOS ChatGPT client in 2023 en ehdi nyt itse lukea tarkemmin, mutta tämä kaavio kertoo aika hyvin toiminnan:

dos-chgpt-https.png
Eikö IBM PC:lle ole siis ollut aikaisemmin mitään selaimen kaltaista ohjelmaa.. Eihän tässä hehkuttamisessa ole mitään järkeä!
Tuollahan ei ole mitään tekemistä varsinaisen ChatGPT:n kanssa.,..

Pystyykös ChatGPT:tä pyörittämään kotikoneella?
 
Vähän meh uutinen. Voinhan mä käyttää ChatGPT:tä tuolla periaatteella vaikka 70-luvun VT100 päätteen kanssa...joku raspi vaan väliin.
Tuossa client pyöri natiivisti MS-DOSissa. Kuten blogista lukee niin ihan yksinkertaista ei ollut tuokaan.
Tuo proxy on ainoastaan sitä varten että MS-DOSille ei ole kirjastoja HTTPS-tukeen ja vaikka olisikin niin ei teho riittäisi salauksen purkuun.
 
Tuossa client pyöri natiivisti MS-DOSissa. Kuten blogista lukee niin ihan yksinkertaista ei ollut tuokaan.
Tuo proxy on ainoastaan sitä varten että MS-DOSille ei ole kirjastoja HTTPS-tukeen ja vaikka olisikin niin ei teho riittäisi salauksen purkuun.

Okei katsoin vaan tuota linkattua kuvaa jossa on "Modern PC" välissä. Ihan hauska retroprojekti kuitenkin.
 
Pystyykös ChatGPT:tä pyörittämään kotikoneella?
OpenAI:n GPT-3 ja GPT-4 ovat liian suuria malleja kuluttajaraudalle. GPT-3 on 175 miljardin parametrin malli, GPT-4:n osalta parametrilukema ei ole julkista tietoa, mutta eiköhän se merkittävästi suurempi ole.

Metan LLaMa malli on hyvä esimerkki LLM:stä jota on mahdollista pyörittää kotikoneella tai jopa moderneilla älypuhelimilla. 7 miljardin parametrin malli on saatu tosiaan pyörimään esim. Pixel 7 ja Apple M1 laitteissa. 30B malli puolestaan mahtuu juuri ja juuri pyörimään GPU:lla, jossa on 24Gt VRAMia.

Ulosannin laatu jää kauaksi ChatGPT-3:n tai 4:n tasosta, mutta on silti vaikuttavaa.
 
Ovatko nuo sillätavoin rajoitteellisia, että pitää olla nimenomaan tarpeeksi muistia / GPU (tai vastaava suoritin). Virtuaalimuisti ei varmaankaan kelpaa hitautensa takia?

Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

Minkäköhänlaisella raudalla tuota GPT-4:sta esim suoritetaan?
 
Ovatko nuo sillätavoin rajoitteellisia, että pitää olla nimenomaan tarpeeksi muistia / GPU (tai vastaava suoritin). Virtuaalimuisti ei varmaankaan kelpaa hitautensa takia?

Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

Minkäköhänlaisella raudalla tuota GPT-4:sta esim suoritetaan?
Pino toisiinsa liitettyjä laskentakortteja, jotka näkyvät yhtenä muistiavaruutena, arvaisin.

esim tällä onnistuu 175 miljardia parametria: NVIDIA H100 Tensor Core GPU
 
Ovatko nuo sillätavoin rajoitteellisia, että pitää olla nimenomaan tarpeeksi muistia / GPU (tai vastaava suoritin). Virtuaalimuisti ei varmaankaan kelpaa hitautensa takia?
Jep.

Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

Minkäköhänlaisella raudalla tuota GPT-4:sta esim suoritetaan?
Yleensä näitä ajetaan esmes niputtamalla useamman Nvidian Teslan muistit yhteen NVLinkillä. Yhdessä kortissa kun on 80 gigaa muistia, niin neljällä kortilla saadaan jo yli 300 gigaa käytettävissä olevaa näyttömuistia. Toisin kun kuluttajapuolen SLI mikä ei kasvata käytettävissä olevan muistin määrää, tällä ratkaisulla saadaan siis oikeasti isompi muistiavaruus käytettäväksi.

Tarkkaa rautaa millä ChatGPT pyörii ei taida olla missään kerrottu, mutta realistisesti joku tuonkaltainen setti siellä takana on oltava koska muistia tarvitaan runsaasti ja tuollaisia kortteja on olemassa.

Edit: kirjoitin hitaasti niin pomk ehti väliin: nuo linkitetyt kortit ovat pohjimmiltaan samaa rautaa mitä PCIE Tesloissa mutta eri form factorissa.



OpenAI:n GPT-3 ja GPT-4 ovat liian suuria malleja kuluttajaraudalle. GPT-3 on 175 miljardin parametrin malli, GPT-4:n osalta parametrilukema ei ole julkista tietoa, mutta eiköhän se merkittävästi suurempi ole.

Metan LLaMa malli on hyvä esimerkki LLM:stä jota on mahdollista pyörittää kotikoneella tai jopa moderneilla älypuhelimilla. 7 miljardin parametrin malli on saatu tosiaan pyörimään esim. Pixel 7 ja Apple M1 laitteissa. 30B malli puolestaan mahtuu juuri ja juuri pyörimään GPU:lla, jossa on 24Gt VRAMia.

Ulosannin laatu jää kauaksi ChatGPT-3:n tai 4:n tasosta, mutta on silti vaikuttavaa.
Jos joku noita numeroita miettii niin jenkkien ”biljoona” on suomeksi miljardi.

Eli siis 7 miljardin parametrin malli pyörii tämän päivän kuluttajaraudalla, 30 miljardin malli juuri ja juuri 24 gigan näytönohjaimella ja ChatGPT pyörii useammalla sadalla gigalla.
 
Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?
En tiedä kuinka paljon PCIe väylä ahdistaa suorituskykyä, mutta jotkut ajelevat 2x 3090:llä suurinta, 65 miljardin parametrin LLaMa mallia ja käsittääkseni toimii noin ihan käyttökelpoisesti.
 
Nopeasti se Suomenkin kieli kehittyy :)
 

Liitteet

  • Screenshot_20230331-160721_FOSS Browser.png
    Screenshot_20230331-160721_FOSS Browser.png
    2,9 KB · Luettu: 92
Mistäköhän näiden suorituskyky on kiinni.?

Jos meillä olisi esim sama GPU, kuin esim 4090:ssa ja siinä olisi esim vähintään 96 gigaa muistia (nykynopeudella), niin olisiko se epätasapainoinen noiden ajamiseen, koska GPU:n laskentakyky tulisi pahasti vastaan vai onko näissä muistimäärä se tekijä, joka esim nykynäyttiksillä ja laskentakorteilla jarruttaa tehokkaasti menoa.. Toki Nvidian linkki ammattilaiskorteissa on nopea, mutta paikallinen muisti on silti aina paikallista muistia..

Toki muistin loppuminen on aina kertakaikkinen showstopper, mutta miten se suhtautuu GPU:n suorituskykyyn, mikä lie optimitilanne?

Ja onkohan näiden kanssa minkälainen cache systeemi kaikkein järkevin? Tarvitaanko erilaista päättelyä, kuin ennen, mitä kannattaa cachettaa ja mitä ei?

Toki sekin on mielenkiintoinen aspekti, että jos ajettaisiin vain AI koodia, ja 4090:sta karsittaisiin kaikki ylimääräiset yksiköt pois (siis esim RT, I/O, piirto jne rauta, niin minkävarran suoritusyksiköitä olisi VS 4090, kun piipalan koko olisi sama? Mahtuisiko esim tuplamäärä?)
 
Viimeksi muokattu:
Noissa käytetään A100/H100 jne, ei kuluttajapiirejä
 
Noissa käytetään A100/H100 jne, ei kuluttajapiirejä
Samaa piiriä mitä A100/H100 käyttää ei löydy kuluttajakorteista, mutta esim. A40 käyttää GA102 piiriä, mikä on kyllä käytössä myös RTX3080/3090 korteissa.


Mistäköhän näiden suorituskyky on kiinni.?

Jos meillä olisi esim sama GPU, kuin esim 4090:ssa ja siinä olisi esim vähintään 96 gigaa muistia (nykynopeudella), niin olisiko se epätasapainoinen noiden ajamiseen, koska GPU:n laskentakyky tulisi pahasti vastaan vai onko näissä muistimäärä se tekijä, joka esim nykynäyttiksillä ja laskentakorteilla jarruttaa tehokkaasti menoa.. Toki Nvidian linkki ammattilaiskorteissa on nopea, mutta paikallinen muisti on silti aina paikallista muistia..

Toki muistin loppuminen on aina kertakaikkinen showstopper, mutta miten se suhtautuu GPU:n suorituskykyyn, mikä lie optimitilanne?

Ja onkohan näiden kanssa minkälainen cache systeemi kaikkein järkevin? Tarvitaanko erilaista päättelyä, kuin ennen, mitä kannattaa cachettaa ja mitä ei?

Toki sekin on mielenkiintoinen aspekti, että jos ajettaisiin vain AI koodia, ja 4090:sta karsittaisiin kaikki ylimääräiset yksiköt pois (siis esim RT, I/O, piirto jne rauta, niin minkävarran suoritusyksiköitä olisi VS 4090, kun piipalan koko olisi sama? Mahtuisiko esim tuplamäärä?)
Hiukan laajentaen tuohon replyyni Kaotikin viestiin: vaikka nuo A100/H100 käyttävätkin nopeampaa HBM muistia, niin suuressa osaa tieteellistä laskentaa rajoittava tekijä on tosiaan muistin määrä, ja RTX4090 isolla määrällä muistia (ja pelikortin hintalapulla varustettuna ammattilaiskortin hinnan sijaan) olisi varmasti hyvin kaupaksi käyvä tuote laskentakäyttöön. Nvidiahan tarkoituksella pihtaa pelikortteihin laitettavaa muistia jotta ammattikäyttöön ei menisi pelikortteja ”liian halvalla”: A4000 on lähes sama kortti kuin 3070 mutta tuplamäärällä muistia ja ”ammattikortin” hintalapulla.
 
Mistäköhän näiden suorituskyky on kiinni.?

Jos meillä olisi esim sama GPU, kuin esim 4090:ssa ja siinä olisi esim vähintään 96 gigaa muistia (nykynopeudella), niin olisiko se epätasapainoinen noiden ajamiseen, koska GPU:n laskentakyky tulisi pahasti vastaan vai onko näissä muistimäärä se tekijä, joka esim nykynäyttiksillä ja laskentakorteilla jarruttaa tehokkaasti menoa.. Toki Nvidian linkki ammattilaiskorteissa on nopea, mutta paikallinen muisti on silti aina paikallista muistia..

Toki muistin loppuminen on aina kertakaikkinen showstopper, mutta miten se suhtautuu GPU:n suorituskykyyn, mikä lie optimitilanne?

Ja onkohan näiden kanssa minkälainen cache systeemi kaikkein järkevin? Tarvitaanko erilaista päättelyä, kuin ennen, mitä kannattaa cachettaa ja mitä ei?

Toki sekin on mielenkiintoinen aspekti, että jos ajettaisiin vain AI koodia, ja 4090:sta karsittaisiin kaikki ylimääräiset yksiköt pois (siis esim RT, I/O, piirto jne rauta, niin minkävarran suoritusyksiköitä olisi VS 4090, kun piipalan koko olisi sama? Mahtuisiko esim tuplamäärä?)
Muistiavaruus rajoittaa että mitä voi ylipäänsä ajaa. Prosessointikyky sitten että millä nopeudella noita voi käyttää tai opettaa. Käyttö on tyypillisesti hyvin nopeaa.

Joku 4090 olisi varmaan ihan riittävän nopea ajamaan moista järkevällä vasteajalla.

Viimeiseen kappaleeseen semmonen huomio, että piipalan pinta-ala rajoittaa että paljonko siihen saa muistiväyliä reunoille. Muistiväylien määrä sitten taas määrittää maksimimuistikapaseiteettia.
 
Muistiavaruus rajoittaa että mitä voi ylipäänsä ajaa. Prosessointikyky sitten että millä nopeudella noita voi käyttää tai opettaa. Käyttö on tyypillisesti hyvin nopeaa.

Joku 4090 olisi varmaan ihan riittävän nopea ajamaan moista järkevällä vasteajalla.

Viimeiseen kappaleeseen semmonen huomio, että piipalan pinta-ala rajoittaa että paljonko siihen saa muistiväyliä reunoille. Muistiväylien määrä sitten taas määrittää maksimimuistikapaseiteettia.
Toki sopivalla muistityypillä, varsinkin, jos nopeus ei ole se kaikkein tärkein asia, samaan väylään voidaan liittää enemmän muistia ja onhan niitä piirejä muutenkin useamman kokoisia..

Toki eiköhän ainankin Nvidia tee vain noille optimoituja korttejakin lähivuosina.. Näkee sitten, mikälainen konfiguraatio niissä on.. Onko panostettu muisteissa esim nopeuteen vai onko nopeuden suhteen annettu olla maltillisempi ja määrä on iso VS muistikanavien määrä..
 
Twitteristä löytyi jotain spekulaatiota ChatGPT:n rautavaatimuksista.



How fast could it run? A 3-billion parameter model can generate a token in about 6ms on an A100 GPU (using half precision+tensorRT+activation caching). If we scale that up to the size of ChatGPT, it should take 350ms secs for an A100 GPU to print out a single word.

Of course, you could never fit ChatGPT on a single GPU. You would need 5 80Gb A100 GPUs just to load the model and text. ChatGPT cranks out about 15-20 words per second. If it uses A100s, that could be done on an 8-GPU server (a likely choice on Azure cloud).
 

Statistiikka

Viestiketjuista
264 569
Viestejä
4 580 456
Jäsenet
75 469
Uusin jäsen
visu123

Hinta.fi

Back
Ylös Bottom