NVIDIA julkisti "joka kodin supertietokoneen" Project DIGITS:n

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 744
NVIDIA julkisti CES-messuilla uusien GeForce-näytönohjainten ohella myös Project DIGITS -tietokoneen, jota se kutsuu maailman pienimmäksi tekoälysupertietokoneeksi, joka kykenee ajamaan 200 miljardin parametrin kielimalleja.
DIGITSin sydämenä sykkii uusi GB10 Superchip -piiri, jonka sisältä löytyy Grace-prosessorisiru 10 Cortex-X925- ja 10 Cortex-A725 -ytimellä sekä GPU-siru, joka yltää 1000 TFLOPSin suorituskykyyn FP4-tarkkuudella. Sirut on yhdistetty NVLink-C2C-linkillä toisiinsa. NVIDIAn mukaan se on tehnyt MediaTekin kanssa yhteistyötä prosessorin suunnittelussa.
GB10:n parina on yhteensä 128 Gt LPDDR5X-muistia ja 4 Tt:n SSD-asema.

Lähteet: NVIDIA Puts Grace Blackwell on Every Desk and at Every AI Developer’s Fingertips, NVIDIA Project DIGITS: The World’s Smallest AI Supercomputer.
 
Viimeksi muokattu:
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:



 
Olisi mielenkiintoista tietää miten kallis gpu:n ja cpu:n yhdistävä nvlink c2c linkki on. Voisiko tuo sama ratkaisu tulla käyttöön huhutuissa nvidia+mediatek yhteistön win11 läppäreissä vai onko tuo jollain tapaa huono teknologia kuluttajatuotteisiin ja nvidia+mediatek valitsee jonkin toisen tavan

Nvidian youtube videosta napatut screenshotit miten tuo digitsin "soc" on rakennettu. Mielenkiintoista että cachet on gpu;n puolella mutta muistiohjaimet cpu:n puolella. Välissä nvlink c2c.

1736454910656.png


1736454998308.png



nvidian omat ja nvidia+mediatek arm win11 koneet sai ainakin vahvan kiusoittelun jos ei nyt ihan vahvistusta jensenin puheista: https://www.reuters.com/technology/...be-able-sell-nvidias-desktop-cpus-2025-01-07/

 
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:
Mulle jäi mielikuva, että digitsiä myydään r&d alustaksi niille jotka haluavat kehittää 200B tai dual digits konfigissa 400B malleja mitkä eivät mahdu pelikorttien muistiin. Toinen puoli optimointia se, että sama blackwell arkkitehtuuri ja iso 200B/400B malli digitsissä ja konesalissa. Ei tule yllätyksiä suorituskyvyssä kun siirtää mallin lokaalista pilveen. Debuggaus/optimontityökalu, ei tuotantohärpätin. Liekö sitten openai/asiakkaat tuollaista kyselleet, että saavat devaajien/tutkijoiden pöydälle rautaa joka helpottaa elämää versus yrität tehdä kaiken pilven läpi.

developers can prototype, fine-tune, and inference large AI models of up to 200B parameters locally, and seamlessly deploy to the data center or cloud.
 
Viimeksi muokattu:
Olisi mielenkiintoista tietää miten kallis gpu:n ja cpu:n yhdistävä nvlink c2c linkki on. Voisiko tuo sama ratkaisu tulla käyttöön huhutuissa nvidia+mediatek yhteistön win11 läppäreissä vai onko tuo jollain tapaa huono teknologia kuluttajatuotteisiin ja nvidia+mediatek valitsee jonkin toisen tavan

Nvidian youtube videosta napatut screenshotit miten tuo digitsin "soc" on rakennettu. Mielenkiintoista että cachet on gpu;n puolella mutta muistiohjaimet cpu:n puolella. Välissä nvlink c2c.
...
"Miten kallis?" Eikös se ole ihan kyseisen lohkon pinta-alasta kiinni, Eli ei se mitenkään merkittävä ole suhteessa koko piirin pinta-alaan.

Wikipedian mukaan Blackwellin NVlink5.0:ssa (18kpl linkkejä) kaistaa löytyy 1800 GB/s, joka on sattumoisin samaa luokkaa kuin 5090:n muistikaista. Eli ei pitäisi jäädä pullonkaulaksi varmastikkaan tässä virityksessä, jossa muistikaista on muutenkin varmasti pienempi kuin RTX5090:ssä.
C2C (Chip-to-Chip) -tilanteessahan linkkejä on helppo laittaa enemmänkin. Kuvan ihan keskeltä voinee käytännössä laskea nuo linkit kun tarkasti katsoo tuota kampakuviota. Kuvasta arvioisin että linkkejä on 25 tai 26kpl.
 
Vaikuttaa UMA vehkeeltä kuten Applen M, ei ole verrattavissa PC arkkitehtuuriin.
Applen koneetko ei ole ’PC’ kategoriassa? UMA ei ole mikään este sille etteikö laite olisi ’PC’. Windows ei toki moista voi käsittää olevan olemassa, mutta ei sekään ole mikään vaatimus että joku laite olisi ’PC’.
 
Hyvä, että tulee vaihtoehtoja, varmasti muistin määrän takia moni ostaa AI leikkeihin tuon, ennemmin, kuin jonkun pelinäyttiksen..
 
PC on arkkitehtuuri eikä Applen M laitteet sitä noudata lähtien ihan siitä että ovat Arm pohjaisia. Tämä piiri varmaankin sitoo suorittimen ja kiihdyttimen toisiinsa CHI:llä Documentation – Arm Developer

X86 on arkkitehtuuri ja IBM PC -yhteensopivuus on eräänlainen standardi. Apple ei ole kumpaakaan edellisistä, mutta Applen henkilökohtaiset tietokoneet ovat silti personal compuuttereita.

edit: Oli jokseenkin huvittavaa aikoinaan kun tyypit väänsi siitä että onko mäkit pc vai ei, kun mäkeissäkin oli sisällä prosessori jonka nimessä seisoi "Power PC".
 
Viimeksi muokattu:
"Miten kallis?" Eikös se ole ihan kyseisen lohkon pinta-alasta kiinni, Eli ei se mitenkään merkittävä ole suhteessa koko piirin pinta-alaan.

Wikipedian mukaan Blackwellin NVlink5.0:ssa (18kpl linkkejä) kaistaa löytyy 1800 GB/s, joka on sattumoisin samaa luokkaa kuin 5090:n muistikaista. Eli ei pitäisi jäädä pullonkaulaksi varmastikkaan tässä virityksessä, jossa muistikaista on muutenkin varmasti pienempi kuin RTX5090:ssä.
C2C (Chip-to-Chip) -tilanteessahan linkkejä on helppo laittaa enemmänkin. Kuvan ihan keskeltä voinee käytännössä laskea nuo linkit kun tarkasti katsoo tuota kampakuviota. Kuvasta arvioisin että linkkejä on 25 tai 26kpl.
Kallis esimerkiksi vaadittavan paketoinnin kapasiteetin ja hinnan vuoksi. AI-Konesalipiireistä on pulaa lähinnä paketointikapasiteetin rajallisuuden vuoksi. Riittääkö paketointikapasiteettia kuluttajatuotteille vai tehdään vain konesalipiirejä? Vai onko nvlink c2c paketointi kenties triviaali ja kapasiteetti no problem? Toinen asia hinnasta, että jos joku muu tapa kytkeä piirit yhteen olisi tyyliin 10snt halvempi ja lasketaan 10snt*voluumi niin käytetään jotain muuta tapaa?

En tiedä paketoinneista juuri mitään. Sen vuoksi yritin miettiä ja kysyä, että onkohan nvlink c2c tapa mitä nvidia puskee win11 arm+nvidia gpu kuluttajatuotteisiin.

edit. Nvidia taitaa laskea tuon 100GB/s kaista nvlink5:lle niin, että on kaista ylös ja alas laskettu mukaan. Efektiivinen kaista yhteen suuntaan nvlink:ssa 50GB/s. Jos tuolla haluaisi tehdä esim. applen m4 max:in 546GB/s muistikaistaa vastaavn väylänleveyden niin tarvisi 11 linkkiä.
 
Viimeksi muokattu:
Applen koneetko ei ole ’PC’ kategoriassa? UMA ei ole mikään este sille etteikö laite olisi ’PC’. Windows ei toki moista voi käsittää olevan olemassa, mutta ei sekään ole mikään vaatimus että joku laite olisi ’PC’.

Kyllähän Windows on UMAa ymmärtänyt ihan NT-kernelin alusta asti.
 
Kyllähän esim. AMD:n uudet AI Max prosessorit käyttää UMA:ta
Käyttääkö? Ainakin vanhoissa AMD:n integroiduissa on pitänyt erikseen rajata muistialueet ja niiden välillä data liikkuu hitaasti PCIE väylän kautta siinä missä muillakin näyttiksillä. Ymmärtääkseni tuo on ajuriongelma joka liittyy jotenkin windowsin sekoiluihin, varmuustaso tuohon tietoon ei ole tosin super korkea.
 
Käyttääkö? Ainakin vanhoissa AMD:n integroiduissa on pitänyt erikseen rajata muistialueet ja niiden välillä data liikkuu hitaasti PCIE väylän kautta siinä missä muillakin näyttiksillä. Ymmärtääkseni tuo on ajuriongelma joka liittyy jotenkin windowsin sekoiluihin, varmuustaso tuohon tietoon ei ole tosin super korkea.

>For instance, if you have 128GB of total system memory, up to 96GB can be allocated to the GPU alone, with the remaining 32GB dedicated to the CPU. However, the GPU can still read from the entire 128 GB memory, thus eliminating costly memory copies via its unified coherent memory architecture.


DirectX dokumentaatiota vuodelta 2019 Unified Memory Architecture - Win32 apps

> Applications running on UMA may want to have more resources with CPU access enabled than if it is not available. UMA enables applications to avoiding copying resource data around
 
>For instance, if you have 128GB of total system memory, up to 96GB can be allocated to the GPU alone, with the remaining 32GB dedicated to the CPU. However, the GPU can still read from the entire 128 GB memory, thus eliminating costly memory copies via its unified coherent memory architecture.
Jos se muisti pitää erikseen näyttikselle karkeasti allokoida tuolla tavalla, niin ei se ole aito UMA toteutus. UMA toteutuksessa prossu ja näyttis voisivat käpistellä vaikka peräjälkeen samaa muistissa olevaa muuttujaa ilman että sitä tarvitsee siirtää näyttikselle ja prossulle allokoitujen muistialueiden välillä.

Ilmeisesti nyt GPU voi käyttää CPU:lle allokoitua muistia 'read only' tilassa. Hyvä muutos mutta aika kaukana vielä aidosta UMA toteutuksesta.
Applen vehkeissä ymmärtääkseni jo kunnon UMA setit.
 
Onko tuo nyt sitä että tunkee vanhaa ddr5 vramia kylkeen ja markkinoi sanalla AI ja gpun arvo nouse 1000%?
Mitähän tapahtuisi jos Asukset ja muut saisi laittaa 5090 siruille 100gb vram.
 
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:




Suorituskyky ei tosin läheskään aina skaalaudu tällä tavoin lineaarisesti eri tarkkuuksien välillä. Onko jostain löytynyt lähdettä FP16 suorituskyvylle?

Tämä tapa ilmoittaa prosessointitehoa FP4-tarkkuudella on kyllä jo lähes rikollisen harhaanjohtavaa. Tuntuu että markkinoinnissa on haluttu mennä mallien parametrimäärä edellä, ja toivotaan että tuo FP4 osa jää potentiaalisilta ostajilta ymmärtämättä.
 
Suorituskyky ei tosin läheskään aina skaalaudu tällä tavoin lineaarisesti eri tarkkuuksien välillä. Onko jostain löytynyt lähdettä FP16 suorituskyvylle?

Tämä tapa ilmoittaa prosessointitehoa FP4-tarkkuudella on kyllä jo lähes rikollisen harhaanjohtavaa. Tuntuu että markkinoinnissa on haluttu mennä mallien parametrimäärä edellä, ja toivotaan että tuo FP4 osa jää potentiaalisilta ostajilta ymmärtämättä.
Nimenomaan skaalautuu lineaarisesti 4 FP4 = 2 FP8 = 1 FP16, kysehän on siis teoreettisesta laskentatehosta
 
Onko tuo nyt sitä että tunkee vanhaa ddr5 vramia kylkeen ja markkinoi sanalla AI ja gpun arvo nouse 1000%?
Mitähän tapahtuisi jos Asukset ja muut saisi laittaa 5090 siruille 100gb vram.
Varmaan ihan hyviä juttuja tapahtuisi. Harmi ettei taida muistiohjain oikein tukea moista. Ehkä tuplattua sais clamshell mallisesti mut sit tulee ongelmaksi että isompia muistipiirejä ei saa yhteensopivalla io:lla mistään.
 
Onko tuo nyt sitä että tunkee vanhaa ddr5 vramia kylkeen ja markkinoi sanalla AI ja gpun arvo nouse 1000%?
Mitähän tapahtuisi jos Asukset ja muut saisi laittaa 5090 siruille 100gb vram.
4090:en(ada102) oli 24GB muistia. ada102:sta on myös clamshell muistilla varustettu ada rtx 6000 missä muistia 48GB. Pelikortteihin joko ei kannata tai nvidia ei anna laittaa "isoja" muisteja. Arvelen että nvidia ei anna, isot muistikonfiguraatiot varattu pro korteille.

5090:sta voisi tulla 3GB gddr7 piirillä 48GB muistiversio. Clamshell gddr7 mahdollistaisi myös 64GB ja 96GB konfiguraatiot. Isomuistisia kortteja nähdäneen rtx blackwell 6000 tms. kortissa ja hinnat ihan jotain muuta kuin pelikorteissa.

DIGITS:in etu devaajille on siinä, että sama alusta ja isot mallit devaajan työpöydällä ja konesalissa. Voit optimoida digits:lla ja luottaa siihen, että optimoitu malli toimii samalla tavalla konesalissa.
 
Kallis esimerkiksi vaadittavan paketoinnin kapasiteetin ja hinnan vuoksi. AI-Konesalipiireistä on pulaa lähinnä paketointikapasiteetin rajallisuuden vuoksi. Riittääkö paketointikapasiteettia kuluttajatuotteille vai tehdään vain konesalipiirejä? Vai onko nvlink c2c paketointi kenties triviaali ja kapasiteetti no problem? Toinen asia hinnasta, että jos joku muu tapa kytkeä piirit yhteen olisi tyyliin 10snt halvempi ja lasketaan 10snt*voluumi niin käytetään jotain muuta tapaa?

En tiedä paketoinneista juuri mitään. Sen vuoksi yritin miettiä ja kysyä, että onkohan nvlink c2c tapa mitä nvidia puskee win11 arm+nvidia gpu kuluttajatuotteisiin.

edit. Nvidia taitaa laskea tuon 100GB/s kaista nvlink5:lle niin, että on kaista ylös ja alas laskettu mukaan. Efektiivinen kaista yhteen suuntaan nvlink:ssa 50GB/s. Jos tuolla haluaisi tehdä esim. applen m4 max:in 546GB/s muistikaistaa vastaavn väylänleveyden niin tarvisi 11 linkkiä.
En tiedä kummalla meistä jää jotain huomaamatta.
Huomaathan, että kuvasta näkee että tuo c2c linkki on yhden ja saman piisirun sisäinen rakenne?
Miten se voisi tarvita jotain spesiaalia "paketointia"?
 
En tiedä kummalla meistä jää jotain huomaamatta.
Huomaathan, että kuvasta näkee että tuo c2c linkki on yhden ja saman piisirun sisäinen rakenne?
Miten se voisi tarvita jotain spesiaalia "paketointia"?
siinä on kaksi eri piiriä. Mediatek arm cpu piiri ja nvidia gpu piiri. Paketoitu yhteen ja kommunikaatio nvlink chip to chip link:lla.
NVIDIA® NVLink®-C2C extends the industry-leading NVLink technology to a chip-to-chip interconnect. This enables the creation of a new class of integrated products with NVIDIA partners, built via chiplets, allowing NVIDIA GPUs, DPUs, and CPUs to be coherently interconnected with custom silicon
 
Viimeksi muokattu:
On tuo aika kova tarjous. Tähän asti 200b-mallin pyörittämiseen fp16-tarkkuudella on tarvinnut koneen jossa muutama A6000.
 
Viimeksi muokattu:
Vähän erikoisia kommentteja kun tuossa maksetaan käytännössä tuosta muistista ja sen kaistasta eikä mistään laskentatehosta.
Hyvä kai olis olla sopivassa balansissa muistikapasiteettia ja -kaistaa sekä laskentatehoa. Ei ole kauheesti iloa että muistiavaruuteen mahtuu se 100B+ parametrinen kielimalli, jos tokeneita tulee etanavauhdilla.

Tai jos ei generointinopeudella ole väliä niin kandee varmaan kolmen tonnin koneen sijaan ostella joku halpa x86 emo ja prossu johon saa törkättyä 128 gigaa muistia. Kyllä se prossukin niitä tokeneita pikkuhiljaa ruksuttelee.
 
Hyvä kai olis olla sopivassa balansissa muistikapasiteettia ja -kaistaa sekä laskentatehoa. Ei ole kauheesti iloa että muistiavaruuteen mahtuu se 100B+ parametrinen kielimalli, jos tokeneita tulee etanavauhdilla.
Nvidian markkinointiviesti on, että DIGITSiä myydää devaajille jotka debuggaa ja/tai optimoi isoja kielimalleja. Tuotantomallit pilveen, ei DIGITSiin ajoon. Arvonsa sillä, että pönttö on devaajan/optimoijan pöydällä ja voi tehdä mitä vaan versus että yrität pilvessä debugata. Optimointia/debuggausta vaikea tehdä jos ei ole sama arkkitehtuuri alla kuin pilvessä + iso muisti johon mahtuu sama malli kuin pilvessä on ajossa. Nopeus on toisarvoista.
With the NVIDIA AI software stack preinstalled and 128GB of memory, developers can prototype, fine-tune, and inference large AI models of up to 200B parameters locally, and seamlessly deploy to the data center or cloud.
 
Hyvä kai olis olla sopivassa balansissa muistikapasiteettia ja -kaistaa sekä laskentatehoa. Ei ole kauheesti iloa että muistiavaruuteen mahtuu se 100B+ parametrinen kielimalli, jos tokeneita tulee etanavauhdilla.

Tai jos ei generointinopeudella ole väliä niin kandee varmaan kolmen tonnin koneen sijaan ostella joku halpa x86 emo ja prossu johon saa törkättyä 128 gigaa muistia. Kyllä se prossukin niitä tokeneita pikkuhiljaa ruksuttelee.
No ei tuo laskentateho nyt mikään etanavauhti ole. Vielä enemmän etanavauhdilla se 4090 niitä tokeneita puskee jos yrität isompia malleja ajaa, ihan niinkuin itse tuossa alla totesit. Käytännössä täysin eri käyttötarkoitukset tällä ja 1 x 4090.

Toki yksi vaihtoehto myös tuo twitter viestissäkin mainittu pari kipaletta vaikka 5070 ja hyödynnetään keskusmuistia nyt kun pcie 5.0 tuettuna.

Spesifinen markkinasegmentti, mutta eiköhän tuolle ostajia ole.
 
Applen Mac:it ovat unified memoryn ja integroidun siedettävän nopean GPU:n takia olleet "vahingossa" hyviä alustoja isojen kielimallien ajamiseen ja PC-arkkitehtuuri ei taas sovellu hommaan oikeastaan ollenkaan kun isoa ja nopeaa muistiavaruutta ole ole saanut mitenkään käyttöön GPU:lle.

Mac Studio M2 Ultralla ja 128GB muistilla maksaa luokkaa $6000 USD. Macbook Pro M4 Max 128GB muistilla $5000 USD. Nyt Nvidia undercuttaa noita hintoja, eikä Apple varmastikaan aloita hinnalla kilpailua.

Suurin etu Mac:eillä on edelleen nähdäkseni se, että sellainen voi olla tärkein työkone ja samalla AI-alusta. Itsekin kirjotan tätä M2 Max läppärillä jossa on 64GB muistia ja jolla pyörii aika iso lokaali malli siedettävästi.
 
Mulla on macbook pro m4 max 128GB mutta ei tuollaisella nvidia tai amd gpu pilveen optimoida kielimalleja kun CUDA/rocm puuttuu ja ei blackwell/MI arkkitehtuuria alla. ts. jos digitsiä myydään esim. meta, anthropic, openai jne. suuntaan, että heidän devaajien helpompi debugata ja optimoida 100B,200B,400B kielimalleja mitä ajavat pilvessä nvidian blackwell raudalla niin apple ei ole vaihtoehto.

On toki macbook pro 128GB kiva lelu leikkiä kielimallien kanssa. Testannut ollaman avulla kaikenlaisia kielimalleja lokaalisti.
 
Viimeksi muokattu:
No ei tuo laskentateho nyt mikään etanavauhti ole.
En osaa juuri tuosta laitteesta spesifisesti kommentoida, onko laskentatehoa tasapainoisesti vai ei. Muistikaistakaan ei ole vielä tiedossa.

Pointti lähinnä yleisellä tasolla, että sitä laskentatehoa on syytä olla sopiva määrä jottei se ole pullonkaula. Tämän vain heitin, koska sanoit ettei laskentatehosta makseta. Mutta ehkä ymmärsin väärin mitä sillä tarkoitit.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
264 289
Viestejä
4 578 575
Jäsenet
75 404
Uusin jäsen
MiikaK82

Hinta.fi

Back
Ylös Bottom