ChatGPT saatavilla nyt myös IBM PC:lle

Kaotik · 31.03.2023

ChatGPT:n saatavuus on todistanut kiistatta jälleen kerran, että 640 Kt muistia riittää kaikille, ainakin jos sen takaa löytyy 4,77 MHz:n taajuudella sykkivä Intel 8088 -prosessori IBM PC-XT:n sisällä. Tällä kertaa kiitos itsestänselvyyden todistamisesta kuutuu Yo Kheng Mengille.

MS-DOS ChatGPT Client Arrives for 1984 IBM PC

Developer succeeds in extremely old meets new feat.

www.tomshardware.com

Griffin · 31.03.2023

Mitä tuo "client" sisältää? Toimiiko ilman nettiä?

Halpuuttaja · 31.03.2023

Griffin sanoi:
Mitä tuo "client" sisältää? Toimiiko ilman nettiä?

Eli siis 8088 ruksuttaisi GPT-3:a tai GPT-4:ää menemään paikallisesti 640 kt:n muistissaan? Juu ei.

Tompan artikelissa mainitaan että toimivan verkkoyhteyden aikaansaaminen ChatGPT:n kanssa oli yksi projektin suurimmista haasteista.

totallynotrobot · 31.03.2023

Griffin sanoi:
Mitä tuo "client" sisältää? Toimiiko ilman nettiä?

Tuolla tarkempi selostus toiminnasta: Building a DOS ChatGPT client in 2023 en ehdi nyt itse lukea tarkemmin, mutta tämä kaavio kertoo aika hyvin toiminnan:

kuoris · 31.03.2023

Vähän meh uutinen. Voinhan mä käyttää ChatGPT:tä tuolla periaatteella vaikka 70-luvun VT100 päätteen kanssa...joku raspi vaan väliin.

Griffin · 31.03.2023

totallynotrobot sanoi:
Tuolla tarkempi selostus toiminnasta: Building a DOS ChatGPT client in 2023 en ehdi nyt itse lukea tarkemmin, mutta tämä kaavio kertoo aika hyvin toiminnan:

Eikö IBM PC:lle ole siis ollut aikaisemmin mitään selaimen kaltaista ohjelmaa.. Eihän tässä hehkuttamisessa ole mitään järkeä!
Tuollahan ei ole mitään tekemistä varsinaisen ChatGPT:n kanssa.,..

Pystyykös ChatGPT:tä pyörittämään kotikoneella?

tuoppi´ · 31.03.2023

kuoris sanoi:
Vähän meh uutinen. Voinhan mä käyttää ChatGPT:tä tuolla periaatteella vaikka 70-luvun VT100 päätteen kanssa...joku raspi vaan väliin.

Tuossa client pyöri natiivisti MS-DOSissa. Kuten blogista lukee niin ihan yksinkertaista ei ollut tuokaan.
Tuo proxy on ainoastaan sitä varten että MS-DOSille ei ole kirjastoja HTTPS-tukeen ja vaikka olisikin niin ei teho riittäisi salauksen purkuun.

kuoris · 31.03.2023

tuoppi´ sanoi:
Tuossa client pyöri natiivisti MS-DOSissa. Kuten blogista lukee niin ihan yksinkertaista ei ollut tuokaan.
Tuo proxy on ainoastaan sitä varten että MS-DOSille ei ole kirjastoja HTTPS-tukeen ja vaikka olisikin niin ei teho riittäisi salauksen purkuun.

Okei katsoin vaan tuota linkattua kuvaa jossa on "Modern PC" välissä. Ihan hauska retroprojekti kuitenkin.

Halpuuttaja · 31.03.2023

Griffin sanoi:
Pystyykös ChatGPT:tä pyörittämään kotikoneella?

OpenAI:n GPT-3 ja GPT-4 ovat liian suuria malleja kuluttajaraudalle. GPT-3 on 175 miljardin parametrin malli, GPT-4:n osalta parametrilukema ei ole julkista tietoa, mutta eiköhän se merkittävästi suurempi ole.

Metan LLaMa malli on hyvä esimerkki LLM:stä jota on mahdollista pyörittää kotikoneella tai jopa moderneilla älypuhelimilla. 7 miljardin parametrin malli on saatu tosiaan pyörimään esim. Pixel 7 ja Apple M1 laitteissa. 30B malli puolestaan mahtuu juuri ja juuri pyörimään GPU:lla, jossa on 24Gt VRAMia.

Ulosannin laatu jää kauaksi ChatGPT-3:n tai 4:n tasosta, mutta on silti vaikuttavaa.

Griffin · 31.03.2023

Ovatko nuo sillätavoin rajoitteellisia, että pitää olla nimenomaan tarpeeksi muistia / GPU (tai vastaava suoritin). Virtuaalimuisti ei varmaankaan kelpaa hitautensa takia?

Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

Minkäköhänlaisella raudalla tuota GPT-4:sta esim suoritetaan?

pomk · 31.03.2023

Griffin sanoi:
Ovatko nuo sillätavoin rajoitteellisia, että pitää olla nimenomaan tarpeeksi muistia / GPU (tai vastaava suoritin). Virtuaalimuisti ei varmaankaan kelpaa hitautensa takia?

Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

Minkäköhänlaisella raudalla tuota GPT-4:sta esim suoritetaan?

Pino toisiinsa liitettyjä laskentakortteja, jotka näkyvät yhtenä muistiavaruutena, arvaisin.

esim tällä onnistuu 175 miljardia parametria: NVIDIA H100 Tensor Core GPU

dmn · 31.03.2023

Griffin sanoi:
Eikö IBM PC:lle ole siis ollut aikaisemmin mitään selaimen kaltaista ohjelmaa.. Eihän tässä hehkuttamisessa ole mitään järkeä!

Dr. Sbaitso

pq · 31.03.2023

Griffin sanoi:
Ovatko nuo sillätavoin rajoitteellisia, että pitää olla nimenomaan tarpeeksi muistia / GPU (tai vastaava suoritin). Virtuaalimuisti ei varmaankaan kelpaa hitautensa takia?

Jep.

Griffin sanoi:
Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

Minkäköhänlaisella raudalla tuota GPT-4:sta esim suoritetaan?

Yleensä näitä ajetaan esmes niputtamalla useamman Nvidian Teslan muistit yhteen NVLinkillä. Yhdessä kortissa kun on 80 gigaa muistia, niin neljällä kortilla saadaan jo yli 300 gigaa käytettävissä olevaa näyttömuistia. Toisin kun kuluttajapuolen SLI mikä ei kasvata käytettävissä olevan muistin määrää, tällä ratkaisulla saadaan siis oikeasti isompi muistiavaruus käytettäväksi.

Tarkkaa rautaa millä ChatGPT pyörii ei taida olla missään kerrottu, mutta realistisesti joku tuonkaltainen setti siellä takana on oltava koska muistia tarvitaan runsaasti ja tuollaisia kortteja on olemassa.

Edit: kirjoitin hitaasti niin pomk ehti väliin: nuo linkitetyt kortit ovat pohjimmiltaan samaa rautaa mitä PCIE Tesloissa mutta eri form factorissa.

Halpuuttaja sanoi:
OpenAI:n GPT-3 ja GPT-4 ovat liian suuria malleja kuluttajaraudalle. GPT-3 on 175 miljardin parametrin malli, GPT-4:n osalta parametrilukema ei ole julkista tietoa, mutta eiköhän se merkittävästi suurempi ole.

Metan LLaMa malli on hyvä esimerkki LLM:stä jota on mahdollista pyörittää kotikoneella tai jopa moderneilla älypuhelimilla. 7 miljardin parametrin malli on saatu tosiaan pyörimään esim. Pixel 7 ja Apple M1 laitteissa. 30B malli puolestaan mahtuu juuri ja juuri pyörimään GPU:lla, jossa on 24Gt VRAMia.

Ulosannin laatu jää kauaksi ChatGPT-3:n tai 4:n tasosta, mutta on silti vaikuttavaa.

Jos joku noita numeroita miettii niin jenkkien ”biljoona” on suomeksi miljardi.

Eli siis 7 miljardin parametrin malli pyörii tämän päivän kuluttajaraudalla, 30 miljardin malli juuri ja juuri 24 gigan näytönohjaimella ja ChatGPT pyörii useammalla sadalla gigalla.

Halpuuttaja · 31.03.2023

Griffin sanoi:
Voiko noiden kuormaa jakaa esim 10:nelle GPU:lle vai onko kommunikaatio esim 16XPCIE4:sta pitkin liian hidasta?

En tiedä kuinka paljon PCIe väylä ahdistaa suorituskykyä, mutta jotkut ajelevat 2x 3090:llä suurinta, 65 miljardin parametrin LLaMa mallia ja käsittääkseni toimii noin ihan käyttökelpoisesti.

Karonkka · 31.03.2023

Nopeasti se Suomenkin kieli kehittyy

Griffin · 01.04.2023

Mistäköhän näiden suorituskyky on kiinni.?

Jos meillä olisi esim sama GPU, kuin esim 4090:ssa ja siinä olisi esim vähintään 96 gigaa muistia (nykynopeudella), niin olisiko se epätasapainoinen noiden ajamiseen, koska GPU:n laskentakyky tulisi pahasti vastaan vai onko näissä muistimäärä se tekijä, joka esim nykynäyttiksillä ja laskentakorteilla jarruttaa tehokkaasti menoa.. Toki Nvidian linkki ammattilaiskorteissa on nopea, mutta paikallinen muisti on silti aina paikallista muistia..

Toki muistin loppuminen on aina kertakaikkinen showstopper, mutta miten se suhtautuu GPU:n suorituskykyyn, mikä lie optimitilanne?

Ja onkohan näiden kanssa minkälainen cache systeemi kaikkein järkevin? Tarvitaanko erilaista päättelyä, kuin ennen, mitä kannattaa cachettaa ja mitä ei?

Toki sekin on mielenkiintoinen aspekti, että jos ajettaisiin vain AI koodia, ja 4090:sta karsittaisiin kaikki ylimääräiset yksiköt pois (siis esim RT, I/O, piirto jne rauta, niin minkävarran suoritusyksiköitä olisi VS 4090, kun piipalan koko olisi sama? Mahtuisiko esim tuplamäärä?)

Kaotik · 01.04.2023

Noissa käytetään A100/H100 jne, ei kuluttajapiirejä

pq · 01.04.2023

Kaotik sanoi:
Noissa käytetään A100/H100 jne, ei kuluttajapiirejä

Samaa piiriä mitä A100/H100 käyttää ei löydy kuluttajakorteista, mutta esim. A40 käyttää GA102 piiriä, mikä on kyllä käytössä myös RTX3080/3090 korteissa.

Griffin sanoi:
Mistäköhän näiden suorituskyky on kiinni.?

Jos meillä olisi esim sama GPU, kuin esim 4090:ssa ja siinä olisi esim vähintään 96 gigaa muistia (nykynopeudella), niin olisiko se epätasapainoinen noiden ajamiseen, koska GPU:n laskentakyky tulisi pahasti vastaan vai onko näissä muistimäärä se tekijä, joka esim nykynäyttiksillä ja laskentakorteilla jarruttaa tehokkaasti menoa.. Toki Nvidian linkki ammattilaiskorteissa on nopea, mutta paikallinen muisti on silti aina paikallista muistia..

Toki muistin loppuminen on aina kertakaikkinen showstopper, mutta miten se suhtautuu GPU:n suorituskykyyn, mikä lie optimitilanne?

Ja onkohan näiden kanssa minkälainen cache systeemi kaikkein järkevin? Tarvitaanko erilaista päättelyä, kuin ennen, mitä kannattaa cachettaa ja mitä ei?

Toki sekin on mielenkiintoinen aspekti, että jos ajettaisiin vain AI koodia, ja 4090:sta karsittaisiin kaikki ylimääräiset yksiköt pois (siis esim RT, I/O, piirto jne rauta, niin minkävarran suoritusyksiköitä olisi VS 4090, kun piipalan koko olisi sama? Mahtuisiko esim tuplamäärä?)

Hiukan laajentaen tuohon replyyni Kaotikin viestiin: vaikka nuo A100/H100 käyttävätkin nopeampaa HBM muistia, niin suuressa osaa tieteellistä laskentaa rajoittava tekijä on tosiaan muistin määrä, ja RTX4090 isolla määrällä muistia (ja pelikortin hintalapulla varustettuna ammattilaiskortin hinnan sijaan) olisi varmasti hyvin kaupaksi käyvä tuote laskentakäyttöön. Nvidiahan tarkoituksella pihtaa pelikortteihin laitettavaa muistia jotta ammattikäyttöön ei menisi pelikortteja ”liian halvalla”: A4000 on lähes sama kortti kuin 3070 mutta tuplamäärällä muistia ja ”ammattikortin” hintalapulla.

pomk · 01.04.2023

Griffin sanoi:
Mistäköhän näiden suorituskyky on kiinni.?

Jos meillä olisi esim sama GPU, kuin esim 4090:ssa ja siinä olisi esim vähintään 96 gigaa muistia (nykynopeudella), niin olisiko se epätasapainoinen noiden ajamiseen, koska GPU:n laskentakyky tulisi pahasti vastaan vai onko näissä muistimäärä se tekijä, joka esim nykynäyttiksillä ja laskentakorteilla jarruttaa tehokkaasti menoa.. Toki Nvidian linkki ammattilaiskorteissa on nopea, mutta paikallinen muisti on silti aina paikallista muistia..

Toki muistin loppuminen on aina kertakaikkinen showstopper, mutta miten se suhtautuu GPU:n suorituskykyyn, mikä lie optimitilanne?

Ja onkohan näiden kanssa minkälainen cache systeemi kaikkein järkevin? Tarvitaanko erilaista päättelyä, kuin ennen, mitä kannattaa cachettaa ja mitä ei?

Toki sekin on mielenkiintoinen aspekti, että jos ajettaisiin vain AI koodia, ja 4090:sta karsittaisiin kaikki ylimääräiset yksiköt pois (siis esim RT, I/O, piirto jne rauta, niin minkävarran suoritusyksiköitä olisi VS 4090, kun piipalan koko olisi sama? Mahtuisiko esim tuplamäärä?)

Muistiavaruus rajoittaa että mitä voi ylipäänsä ajaa. Prosessointikyky sitten että millä nopeudella noita voi käyttää tai opettaa. Käyttö on tyypillisesti hyvin nopeaa.

Joku 4090 olisi varmaan ihan riittävän nopea ajamaan moista järkevällä vasteajalla.

Viimeiseen kappaleeseen semmonen huomio, että piipalan pinta-ala rajoittaa että paljonko siihen saa muistiväyliä reunoille. Muistiväylien määrä sitten taas määrittää maksimimuistikapaseiteettia.

Griffin · 01.04.2023

pomk sanoi:
Muistiavaruus rajoittaa että mitä voi ylipäänsä ajaa. Prosessointikyky sitten että millä nopeudella noita voi käyttää tai opettaa. Käyttö on tyypillisesti hyvin nopeaa.

Joku 4090 olisi varmaan ihan riittävän nopea ajamaan moista järkevällä vasteajalla.

Viimeiseen kappaleeseen semmonen huomio, että piipalan pinta-ala rajoittaa että paljonko siihen saa muistiväyliä reunoille. Muistiväylien määrä sitten taas määrittää maksimimuistikapaseiteettia.

Toki sopivalla muistityypillä, varsinkin, jos nopeus ei ole se kaikkein tärkein asia, samaan väylään voidaan liittää enemmän muistia ja onhan niitä piirejä muutenkin useamman kokoisia..

Toki eiköhän ainankin Nvidia tee vain noille optimoituja korttejakin lähivuosina.. Näkee sitten, mikälainen konfiguraatio niissä on.. Onko panostettu muisteissa esim nopeuteen vai onko nopeuden suhteen annettu olla maltillisempi ja määrä on iso VS muistikanavien määrä..

pomk · 02.04.2023

Griffin sanoi:
Toki eiköhän ainankin Nvidia tee vain noille optimoituja korttejakin lähivuosina..

Eikös näitä varten just ole jo toi tänne linkkaamani tuotesarja?

Infy · 02.04.2023

Twitteristä löytyi jotain spekulaatiota ChatGPT:n rautavaatimuksista.

How fast could it run? A 3-billion parameter model can generate a token in about 6ms on an A100 GPU (using half precision+tensorRT+activation caching). If we scale that up to the size of ChatGPT, it should take 350ms secs for an A100 GPU to print out a single word.

Of course, you could never fit ChatGPT on a single GPU. You would need 5 80Gb A100 GPUs just to load the model and text. ChatGPT cranks out about 15-20 words per second. If it uses A100s, that could be done on an 8-GPU server (a likely choice on Azure cloud).

ChatGPT saatavilla nyt myös IBM PC:lle

Kaotik

Banhammer

MS-DOS ChatGPT Client Arrives for 1984 IBM PC

Griffin

Halpuuttaja

totallynotrobot

kuoris

Griffin

tuoppi´

Kapitalisti

kuoris

Halpuuttaja

Griffin

pomk

dmn

pq

Halpuuttaja

Karonkka

Liitteet

Griffin

Kaotik

Banhammer

pq

pomk

Griffin

pomk

Infy

Uutiset

Uutisia lyhyesti

Uusimmat viestit

Statistiikka

Hinta.fi