NVIDIA julkisti "joka kodin supertietokoneen" Project DIGITS:n

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 744
NVIDIA julkisti CES-messuilla uusien GeForce-näytönohjainten ohella myös Project DIGITS -tietokoneen, jota se kutsuu maailman pienimmäksi tekoälysupertietokoneeksi, joka kykenee ajamaan 200 miljardin parametrin kielimalleja.
DIGITSin sydämenä sykkii uusi GB10 Superchip -piiri, jonka sisältä löytyy Grace-prosessorisiru 10 Cortex-X925- ja 10 Cortex-A725 -ytimellä sekä GPU-siru, joka yltää 1000 TFLOPSin suorituskykyyn FP4-tarkkuudella. Sirut on yhdistetty NVLink-C2C-linkillä toisiinsa. NVIDIAn mukaan se on tehnyt MediaTekin kanssa yhteistyötä prosessorin suunnittelussa.
GB10:n parina on yhteensä 128 Gt LPDDR5X-muistia ja 4 Tt:n SSD-asema.

Lähteet: NVIDIA Puts Grace Blackwell on Every Desk and at Every AI Developer’s Fingertips, NVIDIA Project DIGITS: The World’s Smallest AI Supercomputer.
 
Viimeksi muokattu:
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:



 
Olisi mielenkiintoista tietää miten kallis gpu:n ja cpu:n yhdistävä nvlink c2c linkki on. Voisiko tuo sama ratkaisu tulla käyttöön huhutuissa nvidia+mediatek yhteistön win11 läppäreissä vai onko tuo jollain tapaa huono teknologia kuluttajatuotteisiin ja nvidia+mediatek valitsee jonkin toisen tavan

Nvidian youtube videosta napatut screenshotit miten tuo digitsin "soc" on rakennettu. Mielenkiintoista että cachet on gpu;n puolella mutta muistiohjaimet cpu:n puolella. Välissä nvlink c2c.

1736454910656.png


1736454998308.png



nvidian omat ja nvidia+mediatek arm win11 koneet sai ainakin vahvan kiusoittelun jos ei nyt ihan vahvistusta jensenin puheista: https://www.reuters.com/technology/...be-able-sell-nvidias-desktop-cpus-2025-01-07/

 
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:
Mulle jäi mielikuva, että digitsiä myydään r&d alustaksi niille jotka haluavat kehittää 200B tai dual digits konfigissa 400B malleja mitkä eivät mahdu pelikorttien muistiin. Toinen puoli optimointia se, että sama blackwell arkkitehtuuri ja iso 200B/400B malli digitsissä ja konesalissa. Ei tule yllätyksiä suorituskyvyssä kun siirtää mallin lokaalista pilveen. Debuggaus/optimontityökalu, ei tuotantohärpätin. Liekö sitten openai/asiakkaat tuollaista kyselleet, että saavat devaajien/tutkijoiden pöydälle rautaa joka helpottaa elämää versus yrität tehdä kaiken pilven läpi.

developers can prototype, fine-tune, and inference large AI models of up to 200B parameters locally, and seamlessly deploy to the data center or cloud.
 
Viimeksi muokattu:
Olisi mielenkiintoista tietää miten kallis gpu:n ja cpu:n yhdistävä nvlink c2c linkki on. Voisiko tuo sama ratkaisu tulla käyttöön huhutuissa nvidia+mediatek yhteistön win11 läppäreissä vai onko tuo jollain tapaa huono teknologia kuluttajatuotteisiin ja nvidia+mediatek valitsee jonkin toisen tavan

Nvidian youtube videosta napatut screenshotit miten tuo digitsin "soc" on rakennettu. Mielenkiintoista että cachet on gpu;n puolella mutta muistiohjaimet cpu:n puolella. Välissä nvlink c2c.
...
"Miten kallis?" Eikös se ole ihan kyseisen lohkon pinta-alasta kiinni, Eli ei se mitenkään merkittävä ole suhteessa koko piirin pinta-alaan.

Wikipedian mukaan Blackwellin NVlink5.0:ssa (18kpl linkkejä) kaistaa löytyy 1800 GB/s, joka on sattumoisin samaa luokkaa kuin 5090:n muistikaista. Eli ei pitäisi jäädä pullonkaulaksi varmastikkaan tässä virityksessä, jossa muistikaista on muutenkin varmasti pienempi kuin RTX5090:ssä.
C2C (Chip-to-Chip) -tilanteessahan linkkejä on helppo laittaa enemmänkin. Kuvan ihan keskeltä voinee käytännössä laskea nuo linkit kun tarkasti katsoo tuota kampakuviota. Kuvasta arvioisin että linkkejä on 25 tai 26kpl.
 
Vaikuttaa UMA vehkeeltä kuten Applen M, ei ole verrattavissa PC arkkitehtuuriin.
Applen koneetko ei ole ’PC’ kategoriassa? UMA ei ole mikään este sille etteikö laite olisi ’PC’. Windows ei toki moista voi käsittää olevan olemassa, mutta ei sekään ole mikään vaatimus että joku laite olisi ’PC’.
 
Hyvä, että tulee vaihtoehtoja, varmasti muistin määrän takia moni ostaa AI leikkeihin tuon, ennemmin, kuin jonkun pelinäyttiksen..
 
PC on arkkitehtuuri eikä Applen M laitteet sitä noudata lähtien ihan siitä että ovat Arm pohjaisia. Tämä piiri varmaankin sitoo suorittimen ja kiihdyttimen toisiinsa CHI:llä Documentation – Arm Developer

X86 on arkkitehtuuri ja IBM PC -yhteensopivuus on eräänlainen standardi. Apple ei ole kumpaakaan edellisistä, mutta Applen henkilökohtaiset tietokoneet ovat silti personal compuuttereita.

edit: Oli jokseenkin huvittavaa aikoinaan kun tyypit väänsi siitä että onko mäkit pc vai ei, kun mäkeissäkin oli sisällä prosessori jonka nimessä seisoi "Power PC".
 
Viimeksi muokattu:
"Miten kallis?" Eikös se ole ihan kyseisen lohkon pinta-alasta kiinni, Eli ei se mitenkään merkittävä ole suhteessa koko piirin pinta-alaan.

Wikipedian mukaan Blackwellin NVlink5.0:ssa (18kpl linkkejä) kaistaa löytyy 1800 GB/s, joka on sattumoisin samaa luokkaa kuin 5090:n muistikaista. Eli ei pitäisi jäädä pullonkaulaksi varmastikkaan tässä virityksessä, jossa muistikaista on muutenkin varmasti pienempi kuin RTX5090:ssä.
C2C (Chip-to-Chip) -tilanteessahan linkkejä on helppo laittaa enemmänkin. Kuvan ihan keskeltä voinee käytännössä laskea nuo linkit kun tarkasti katsoo tuota kampakuviota. Kuvasta arvioisin että linkkejä on 25 tai 26kpl.
Kallis esimerkiksi vaadittavan paketoinnin kapasiteetin ja hinnan vuoksi. AI-Konesalipiireistä on pulaa lähinnä paketointikapasiteetin rajallisuuden vuoksi. Riittääkö paketointikapasiteettia kuluttajatuotteille vai tehdään vain konesalipiirejä? Vai onko nvlink c2c paketointi kenties triviaali ja kapasiteetti no problem? Toinen asia hinnasta, että jos joku muu tapa kytkeä piirit yhteen olisi tyyliin 10snt halvempi ja lasketaan 10snt*voluumi niin käytetään jotain muuta tapaa?

En tiedä paketoinneista juuri mitään. Sen vuoksi yritin miettiä ja kysyä, että onkohan nvlink c2c tapa mitä nvidia puskee win11 arm+nvidia gpu kuluttajatuotteisiin.
 
Viimeksi muokattu:
Applen koneetko ei ole ’PC’ kategoriassa? UMA ei ole mikään este sille etteikö laite olisi ’PC’. Windows ei toki moista voi käsittää olevan olemassa, mutta ei sekään ole mikään vaatimus että joku laite olisi ’PC’.

Kyllähän Windows on UMAa ymmärtänyt ihan NT-kernelin alusta asti.
 

Statistiikka

Viestiketjuista
264 173
Viestejä
4 574 302
Jäsenet
75 387
Uusin jäsen
Huttuz

Hinta.fi

Back
Ylös Bottom