NVIDIA julkisti "joka kodin supertietokoneen" Project DIGITS:n

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 744
NVIDIA julkisti CES-messuilla uusien GeForce-näytönohjainten ohella myös Project DIGITS -tietokoneen, jota se kutsuu maailman pienimmäksi tekoälysupertietokoneeksi, joka kykenee ajamaan 200 miljardin parametrin kielimalleja.
DIGITSin sydämenä sykkii uusi GB10 Superchip -piiri, jonka sisältä löytyy Grace-prosessorisiru 10 Cortex-X925- ja 10 Cortex-A725 -ytimellä sekä GPU-siru, joka yltää 1000 TFLOPSin suorituskykyyn FP4-tarkkuudella. Sirut on yhdistetty NVLink-C2C-linkillä toisiinsa. NVIDIAn mukaan se on tehnyt MediaTekin kanssa yhteistyötä prosessorin suunnittelussa.
GB10:n parina on yhteensä 128 Gt LPDDR5X-muistia ja 4 Tt:n SSD-asema.

Lähteet: NVIDIA Puts Grace Blackwell on Every Desk and at Every AI Developer’s Fingertips, NVIDIA Project DIGITS: The World’s Smallest AI Supercomputer.
 
Viimeksi muokattu:
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:



 
Olisi mielenkiintoista tietää miten kallis gpu:n ja cpu:n yhdistävä nvlink c2c linkki on. Voisiko tuo sama ratkaisu tulla käyttöön huhutuissa nvidia+mediatek yhteistön win11 läppäreissä vai onko tuo jollain tapaa huono teknologia kuluttajatuotteisiin ja nvidia+mediatek valitsee jonkin toisen tavan

Nvidian youtube videosta napatut screenshotit miten tuo digitsin "soc" on rakennettu. Mielenkiintoista että cachet on gpu;n puolella mutta muistiohjaimet cpu:n puolella. Välissä nvlink c2c.

1736454910656.png


1736454998308.png



nvidian omat ja nvidia+mediatek arm win11 koneet sai ainakin vahvan kiusoittelun jos ei nyt ihan vahvistusta jensenin puheista: https://www.reuters.com/technology/...be-able-sell-nvidias-desktop-cpus-2025-01-07/

 
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:
Mulle jäi mielikuva, että digitsiä myydään r&d alustaksi niille jotka haluavat kehittää 200B tai dual digits konfigissa 400B malleja mitkä eivät mahdu pelikorttien muistiin. Toinen puoli optimointia se, että sama blackwell arkkitehtuuri ja iso 200B/400B malli digitsissä ja konesalissa. Ei tule yllätyksiä suorituskyvyssä kun siirtää mallin lokaalista pilveen. Debuggaus/optimontityökalu, ei tuotantohärpätin. Liekö sitten openai/asiakkaat tuollaista kyselleet, että saavat devaajien/tutkijoiden pöydälle rautaa joka helpottaa elämää versus yrität tehdä kaiken pilven läpi.

developers can prototype, fine-tune, and inference large AI models of up to 200B parameters locally, and seamlessly deploy to the data center or cloud.
 
Viimeksi muokattu:
Olisi mielenkiintoista tietää miten kallis gpu:n ja cpu:n yhdistävä nvlink c2c linkki on. Voisiko tuo sama ratkaisu tulla käyttöön huhutuissa nvidia+mediatek yhteistön win11 läppäreissä vai onko tuo jollain tapaa huono teknologia kuluttajatuotteisiin ja nvidia+mediatek valitsee jonkin toisen tavan

Nvidian youtube videosta napatut screenshotit miten tuo digitsin "soc" on rakennettu. Mielenkiintoista että cachet on gpu;n puolella mutta muistiohjaimet cpu:n puolella. Välissä nvlink c2c.
...
"Miten kallis?" Eikös se ole ihan kyseisen lohkon pinta-alasta kiinni, Eli ei se mitenkään merkittävä ole suhteessa koko piirin pinta-alaan.

Wikipedian mukaan Blackwellin NVlink5.0:ssa (18kpl linkkejä) kaistaa löytyy 1800 GB/s, joka on sattumoisin samaa luokkaa kuin 5090:n muistikaista. Eli ei pitäisi jäädä pullonkaulaksi varmastikkaan tässä virityksessä, jossa muistikaista on muutenkin varmasti pienempi kuin RTX5090:ssä.
C2C (Chip-to-Chip) -tilanteessahan linkkejä on helppo laittaa enemmänkin. Kuvan ihan keskeltä voinee käytännössä laskea nuo linkit kun tarkasti katsoo tuota kampakuviota. Kuvasta arvioisin että linkkejä on 25 tai 26kpl.
 
Vaikuttaa UMA vehkeeltä kuten Applen M, ei ole verrattavissa PC arkkitehtuuriin.
Applen koneetko ei ole ’PC’ kategoriassa? UMA ei ole mikään este sille etteikö laite olisi ’PC’. Windows ei toki moista voi käsittää olevan olemassa, mutta ei sekään ole mikään vaatimus että joku laite olisi ’PC’.
 
Hyvä, että tulee vaihtoehtoja, varmasti muistin määrän takia moni ostaa AI leikkeihin tuon, ennemmin, kuin jonkun pelinäyttiksen..
 
PC on arkkitehtuuri eikä Applen M laitteet sitä noudata lähtien ihan siitä että ovat Arm pohjaisia. Tämä piiri varmaankin sitoo suorittimen ja kiihdyttimen toisiinsa CHI:llä Documentation – Arm Developer

X86 on arkkitehtuuri ja IBM PC -yhteensopivuus on eräänlainen standardi. Apple ei ole kumpaakaan edellisistä, mutta Applen henkilökohtaiset tietokoneet ovat silti personal compuuttereita.

edit: Oli jokseenkin huvittavaa aikoinaan kun tyypit väänsi siitä että onko mäkit pc vai ei, kun mäkeissäkin oli sisällä prosessori jonka nimessä seisoi "Power PC".
 
Viimeksi muokattu:
"Miten kallis?" Eikös se ole ihan kyseisen lohkon pinta-alasta kiinni, Eli ei se mitenkään merkittävä ole suhteessa koko piirin pinta-alaan.

Wikipedian mukaan Blackwellin NVlink5.0:ssa (18kpl linkkejä) kaistaa löytyy 1800 GB/s, joka on sattumoisin samaa luokkaa kuin 5090:n muistikaista. Eli ei pitäisi jäädä pullonkaulaksi varmastikkaan tässä virityksessä, jossa muistikaista on muutenkin varmasti pienempi kuin RTX5090:ssä.
C2C (Chip-to-Chip) -tilanteessahan linkkejä on helppo laittaa enemmänkin. Kuvan ihan keskeltä voinee käytännössä laskea nuo linkit kun tarkasti katsoo tuota kampakuviota. Kuvasta arvioisin että linkkejä on 25 tai 26kpl.
Kallis esimerkiksi vaadittavan paketoinnin kapasiteetin ja hinnan vuoksi. AI-Konesalipiireistä on pulaa lähinnä paketointikapasiteetin rajallisuuden vuoksi. Riittääkö paketointikapasiteettia kuluttajatuotteille vai tehdään vain konesalipiirejä? Vai onko nvlink c2c paketointi kenties triviaali ja kapasiteetti no problem? Toinen asia hinnasta, että jos joku muu tapa kytkeä piirit yhteen olisi tyyliin 10snt halvempi ja lasketaan 10snt*voluumi niin käytetään jotain muuta tapaa?

En tiedä paketoinneista juuri mitään. Sen vuoksi yritin miettiä ja kysyä, että onkohan nvlink c2c tapa mitä nvidia puskee win11 arm+nvidia gpu kuluttajatuotteisiin.

edit. Nvidia taitaa laskea tuon 100GB/s kaista nvlink5:lle niin, että on kaista ylös ja alas laskettu mukaan. Efektiivinen kaista yhteen suuntaan nvlink:ssa 50GB/s. Jos tuolla haluaisi tehdä esim. applen m4 max:in 546GB/s muistikaistaa vastaavn väylänleveyden niin tarvisi 11 linkkiä.
 
Viimeksi muokattu:
Applen koneetko ei ole ’PC’ kategoriassa? UMA ei ole mikään este sille etteikö laite olisi ’PC’. Windows ei toki moista voi käsittää olevan olemassa, mutta ei sekään ole mikään vaatimus että joku laite olisi ’PC’.

Kyllähän Windows on UMAa ymmärtänyt ihan NT-kernelin alusta asti.
 
Kyllähän esim. AMD:n uudet AI Max prosessorit käyttää UMA:ta
Käyttääkö? Ainakin vanhoissa AMD:n integroiduissa on pitänyt erikseen rajata muistialueet ja niiden välillä data liikkuu hitaasti PCIE väylän kautta siinä missä muillakin näyttiksillä. Ymmärtääkseni tuo on ajuriongelma joka liittyy jotenkin windowsin sekoiluihin, varmuustaso tuohon tietoon ei ole tosin super korkea.
 
Käyttääkö? Ainakin vanhoissa AMD:n integroiduissa on pitänyt erikseen rajata muistialueet ja niiden välillä data liikkuu hitaasti PCIE väylän kautta siinä missä muillakin näyttiksillä. Ymmärtääkseni tuo on ajuriongelma joka liittyy jotenkin windowsin sekoiluihin, varmuustaso tuohon tietoon ei ole tosin super korkea.

>For instance, if you have 128GB of total system memory, up to 96GB can be allocated to the GPU alone, with the remaining 32GB dedicated to the CPU. However, the GPU can still read from the entire 128 GB memory, thus eliminating costly memory copies via its unified coherent memory architecture.


DirectX dokumentaatiota vuodelta 2019 Unified Memory Architecture - Win32 apps

> Applications running on UMA may want to have more resources with CPU access enabled than if it is not available. UMA enables applications to avoiding copying resource data around
 
>For instance, if you have 128GB of total system memory, up to 96GB can be allocated to the GPU alone, with the remaining 32GB dedicated to the CPU. However, the GPU can still read from the entire 128 GB memory, thus eliminating costly memory copies via its unified coherent memory architecture.
Jos se muisti pitää erikseen näyttikselle karkeasti allokoida tuolla tavalla, niin ei se ole aito UMA toteutus. UMA toteutuksessa prossu ja näyttis voisivat käpistellä vaikka peräjälkeen samaa muistissa olevaa muuttujaa ilman että sitä tarvitsee siirtää näyttikselle ja prossulle allokoitujen muistialueiden välillä.

Ilmeisesti nyt GPU voi käyttää CPU:lle allokoitua muistia 'read only' tilassa. Hyvä muutos mutta aika kaukana vielä aidosta UMA toteutuksesta.
Applen vehkeissä ymmärtääkseni jo kunnon UMA setit.
 
Onko tuo nyt sitä että tunkee vanhaa ddr5 vramia kylkeen ja markkinoi sanalla AI ja gpun arvo nouse 1000%?
Mitähän tapahtuisi jos Asukset ja muut saisi laittaa 5090 siruille 100gb vram.
 
Jos tuota 1 PetaFLOPSia haluaa verrata markkinoilta löytyviin piireihin niin FP16-tarkkuudella se tarkoittaisi enää 250 TFLOPSia. Oletettavasti kyse on tensori-FLOPSeista, mikä asettaisi piirin suorituskyvyn RTX 4080:n ja RTX 4090:n välimaastoon tai jos lukemassa on hyödynnetty sparsity-ominaisuutta niin se olisi vähän RTX 4070:iä nopeampi.
Tom's Hardware ehtikin jo uutisoida Raja Kodurin ja Tiny Corpin kommentoineen asiasta:




Suorituskyky ei tosin läheskään aina skaalaudu tällä tavoin lineaarisesti eri tarkkuuksien välillä. Onko jostain löytynyt lähdettä FP16 suorituskyvylle?

Tämä tapa ilmoittaa prosessointitehoa FP4-tarkkuudella on kyllä jo lähes rikollisen harhaanjohtavaa. Tuntuu että markkinoinnissa on haluttu mennä mallien parametrimäärä edellä, ja toivotaan että tuo FP4 osa jää potentiaalisilta ostajilta ymmärtämättä.
 
Suorituskyky ei tosin läheskään aina skaalaudu tällä tavoin lineaarisesti eri tarkkuuksien välillä. Onko jostain löytynyt lähdettä FP16 suorituskyvylle?

Tämä tapa ilmoittaa prosessointitehoa FP4-tarkkuudella on kyllä jo lähes rikollisen harhaanjohtavaa. Tuntuu että markkinoinnissa on haluttu mennä mallien parametrimäärä edellä, ja toivotaan että tuo FP4 osa jää potentiaalisilta ostajilta ymmärtämättä.
Nimenomaan skaalautuu lineaarisesti 4 FP4 = 2 FP8 = 1 FP16, kysehän on siis teoreettisesta laskentatehosta
 
Onko tuo nyt sitä että tunkee vanhaa ddr5 vramia kylkeen ja markkinoi sanalla AI ja gpun arvo nouse 1000%?
Mitähän tapahtuisi jos Asukset ja muut saisi laittaa 5090 siruille 100gb vram.
Varmaan ihan hyviä juttuja tapahtuisi. Harmi ettei taida muistiohjain oikein tukea moista. Ehkä tuplattua sais clamshell mallisesti mut sit tulee ongelmaksi että isompia muistipiirejä ei saa yhteensopivalla io:lla mistään.
 
Onko tuo nyt sitä että tunkee vanhaa ddr5 vramia kylkeen ja markkinoi sanalla AI ja gpun arvo nouse 1000%?
Mitähän tapahtuisi jos Asukset ja muut saisi laittaa 5090 siruille 100gb vram.
4090:en(ada102) oli 24GB muistia. ada102:sta on myös clamshell muistilla varustettu ada rtx 6000 missä muistia 48GB. Pelikortteihin joko ei kannata tai nvidia ei anna laittaa "isoja" muisteja. Arvelen että nvidia ei anna, isot muistikonfiguraatiot varattu pro korteille.

5090:sta voisi tulla 3GB gddr7 piirillä 48GB muistiversio. Clamshell gddr7 mahdollistaisi myös 64GB ja 96GB konfiguraatiot. Isomuistisia kortteja nähdäneen rtx blackwell 6000 tms. kortissa ja hinnat ihan jotain muuta kuin pelikorteissa.

DIGITS:in etu devaajille on siinä, että sama alusta ja isot mallit devaajan työpöydällä ja konesalissa. Voit optimoida digits:lla ja luottaa siihen, että optimoitu malli toimii samalla tavalla konesalissa.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
264 250
Viestejä
4 576 956
Jäsenet
75 400
Uusin jäsen
okmi

Hinta.fi

Back
Ylös Bottom