Dell: NVIDIAn Blackwell tulee olemaan kilowattiluokan GPU

  • Keskustelun aloittaja Keskustelun aloittaja Kaotik
  • Aloitettu Aloitettu

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 756
Dellin operatiivinen johtaja Jeff Clarke on maininnut kuin ohimennen NVIDIAn tulevan B200:n tulevan kuluttamaan jopa 1000 wattia per GPU, kun hän kertoi yhtiön todenneen ettei nestejäähdytys ole sille pakollista.
B200 on tämän hetkisten tietojen mukaan NVIDIAn omia prosessoreita hyödyntäviin palvelimiin tarkoitettu versio B100:sta, joka ilmeisesti tulee kuluttamaan jonkin verran vähemmän tehoa. B100 tulee saataville sekä SXM6- että PCIe-versioina.

We're excited about what happens at the B100 and the B200, and we think that's where there's actually another opportunity to distinguish engineering confidence. Our characterization in the thermal side, you really don't need direct liquid cooling to get to the energy density of 1,000 watts per GPU. That happens next year with the B200.

Lähde: Dell Exec Confirms NVIDIA’s Monster Blackwell AI Accelerator Is Coming
 
Niin... Enää ei valmistusteknologian kehittyessä tule ilmaisia lounaita.. Nyt enemmän suorituskykyä tarkoittaa enenevässämäärin enemmän tehoa sähkönä..

Toki ohjelmistoja voidaan hioa paljonkin ja samoin suoritusyksiköitä epäilemättä optimoida tietyn asian tekemiseen, jolloin saadaan selkeästi parempi suorituskyky VS yleisempään toimintaan kykenevä piiri..
 
Niin... Enää ei valmistusteknologian kehittyessä tule ilmaisia lounaita.. Nyt enemmän suorituskykyä tarkoittaa enenevässämäärin enemmän tehoa sähkönä..

Kyllähän se valmistusteknologiakin vielä kehittyy. Ei vaan enää onnistu kutistamaan sirulla olevia komponentteja niin alkoivat sitten pinota päällekkäin ja taas jatkui kehitys. Epäilemättä tulee näkymään välimuistien määrän kasvuna.
 
Kyllähän se valmistusteknologiakin vielä kehittyy. Ei vaan enää onnistu kutistamaan sirulla olevia komponentteja niin alkoivat sitten pinota päällekkäin ja taas jatkui kehitys. Epäilemättä tulee näkymään välimuistien määrän kasvuna.
Päälle laitetusta logiikasta /muistitsta seuraa lämpöjen raju nousu sen alapuolella, jolloin kelloja ym joudutaan rajoittamaan.. Apu on siis hyvin rajallinen, AMD:n 3D prossut on hyvä esimerkki tästä.
 
Päälle laitetusta logiikasta /muistitsta seuraa lämpöjen raju nousu sen alapuolella, jolloin kelloja ym joudutaan rajoittamaan.. Apu on siis hyvin rajallinen, AMD:n 3D prossut on hyvä esimerkki tästä.

Näinhän se on. AMD:n prosessoreissa sitten toki riesana x86 dekooderi että siellä on osia jotka toimivat nopeammilla kelloilla että ehtii purkaa tavaraa liukuhihnoille.

Kehitysvauhti vaan on hidastunut yli 10v ajan, mutta ei se mihinkään ole pysähtynyt. Mielenkiinnolla odotan milloin dumppaavat x86:n että pystyvät jatkamaan nopeuden hakemista. Tai sitten tämä AMD:n tapa laittaa pienistä sirun palasista sitä piiriä kasaan, että jospa vaikka onnistuisivat tuolla tavalla tekemään huomattavan isoja "paketteja" missä tietotekniikkaa integroitu.

Epäilemättä kehitystä tapahtuu jatkossakin softapuolella optimoimalla virrankulutusta. Tarkoittaen sitä, että jos laitteessa kovat wattilukemat maksimikuormalla niin pitää keksiä miten sitä ajetaan menemättä sinne maksimikuormalle.

Tämähän ollut pitkään arkea pelinäytönohjaimien kanssa kun tehoa on niin pirusti, että kannattaa rajoittaa vähän piirtonopeutta yms. säätöjä tehdä ettei turhaan joku 600W GPU paahda täysillä.
 
Kannattaa huomioda, että B200 lienee h200:en korvaava tuote. H200:en virrankulutus 700W. 8xh200 gpu pömpeli 5.6kW. 8gpu laatikko ja niitä x-kappaletta räkkiin ja räkkejä konesalin täydeltä on normaali asennus. Oleellista lienee paljonko asennus vie tilaa(tila on rahaa) ja paljonko saadaan laskutoimituksia tehtyä per watti(sähkö maksaa) ja onko konesalissa riittävä virransyöttä ja jäähdytys. 1000W voi olla paras tuote koskaan, jos saadaan enemmän enemmän laskentatehoa per watti pienempään tilaan versus h200 ja toki myös päinvastoin. Uskoisin, että virrankulutusta saadaan tarvittaessa alaspäin kelloja laskemalla. Konesalin omistaja säätänee kellot yms. niin, että asennuksen tuotto/arvo optimoituu.

Huhuissa on ollut, että B200 koostuisi useammasta gpu piiristä yhdessä paketissa. 18.3 gtc messujen keynotessa julkaistaan b100:en.

Linkinpäässä yhden h200:sta myyvän tahon speksit(700W 1gpu, 5.6kW 8gpu laatikko) SunbirdDCIM Blog Jos en ihan väärin käsitä niin riippuen millainen asennus on niin tuohon 5.6kW luvusta puuttuu cpu(t), verkkokortit yms. virrankulutus.
 
Viimeksi muokattu:
Näinhän se on. AMD:n prosessoreissa sitten toki riesana x86 dekooderi että siellä on osia jotka toimivat nopeammilla kelloilla että ehtii purkaa tavaraa liukuhihnoille.

Kehitysvauhti vaan on hidastunut yli 10v ajan, mutta ei se mihinkään ole pysähtynyt. Mielenkiinnolla odotan milloin dumppaavat x86:n että pystyvät jatkamaan nopeuden hakemista. Tai sitten tämä AMD:n tapa laittaa pienistä sirun palasista sitä piiriä kasaan, että jospa vaikka onnistuisivat tuolla tavalla tekemään huomattavan isoja "paketteja" missä tietotekniikkaa integroitu.

Epäilemättä kehitystä tapahtuu jatkossakin softapuolella optimoimalla virrankulutusta. Tarkoittaen sitä, että jos laitteessa kovat wattilukemat maksimikuormalla niin pitää keksiä miten sitä ajetaan menemättä sinne maksimikuormalle.

Tämähän ollut pitkään arkea pelinäytönohjaimien kanssa kun tehoa on niin pirusti, että kannattaa rajoittaa vähän piirtonopeutta yms. säätöjä tehdä ettei turhaan joku 600W GPU paahda täysillä.
Muitakin , kuin X86 prossuja on ollut kokoajan...
Eivät nekään ole mitenkään ihmeellisiä, lopulta..
---------------
Näissä AI laskentapiireissä armoton virrankulutua tulee osaltaa suuresta rinnakkuudesta. Toki voidaan tiputtaa kelloja ja jännitteitä, jolloin tehonkulutus tippuu tai optimoida piirin aluekohtaisesti, mutta jokatapauksessa virtaa kuluu ja seuraava valmistus-sukupolvi auttaa hyvinvähän tai joidenkin piirien tapuksissa ei olenkaan..
 
Muitakin , kuin X86 prossuja on ollut kokoajan...
Eivät nekään ole mitenkään ihmeellisiä, lopulta..
---------------
Näissä AI laskentapiireissä armoton virrankulutua tulee osaltaa suuresta rinnakkuudesta. Toki voidaan tiputtaa kelloja ja jännitteitä, jolloin tehonkulutus tippuu tai optimoida piirin aluekohtaisesti, mutta jokatapauksessa virtaa kuluu ja seuraava valmistus-sukupolvi auttaa hyvinvähän tai joidenkin piirien tapuksissa ei olenkaan..


No, minun ymmärtääkseni tämä parantaisi parhaiten muistin laittamista sinne. Eli ihan vielä ei lopu kehitys.
 
Siis komponenttien pinoaminen päällekkäin sirulla. Onhan siellä cachea. Sitten tietenkin on myös SoC koneet mitkä voivat hyötyä tästä hyvinkin paljon.
Kun ei niitä oikein saada siihen päälle monia kerroksia okipa siellä joku X86 dekooderi tai ei. Kuumeneminen vain on ongelma. Pii ei ole mitenkään erinomainen lämmönjohde eikä kestä kuumuutta kovasti. Tämä pinoamiskehityssuunta on hyvin rajallinen juttu mm cpu, gpu ja vastaavilla piireillä...
------------
Se olisi mielenkiintoista tietää, miten suuri osa tehosta kuluu itse laskentayksiköissä ja miten suuri osa muistiohjain + cachet jne puolella..
 
Kun ei niitä oikein saada siihen päälle monia kerroksia okipa siellä joku X86 dekooderi tai ei. Kuumeneminen vain on ongelma. Pii ei ole mitenkään erinomainen lämmönjohde eikä kestä kuumuutta kovasti. Tämä pinoamiskehityssuunta on hyvin rajallinen juttu mm cpu, gpu ja vastaavilla piireillä...
------------
Se olisi mielenkiintoista tietää, miten suuri osa tehosta kuluu itse laskentayksiköissä ja miten suuri osa muistiohjain + cachet jne puolella..

Menee aika pitkälti kyseisen osan kellotaajuuden mukaan. Eihän siellä kaikki osat toimi samalla nopeudella. Ja sitten tietenkin se, että kuinka paljon pystyy sammuttamaan niitä osia, kuten laskentaytimiä joita ei juuri nyt tarvitse. Kellotaajuuksiakin voi vaihdella tilanteen mukaan.

Muisteissa sitten tämä että onko SRAM vai DRAM. DRAM:ssa virkistys vie sähköä, SRAM:ssa virta kulkee jatkuvasti.

Noin pääpiirteissään, kyllä tuosta varmasti lukemista löytää.
 
Kun ei niitä oikein saada siihen päälle monia kerroksia okipa siellä joku X86 dekooderi tai ei. Kuumeneminen vain on ongelma. Pii ei ole mitenkään erinomainen lämmönjohde eikä kestä kuumuutta kovasti. Tämä pinoamiskehityssuunta on hyvin rajallinen juttu mm cpu, gpu ja vastaavilla piireillä...
------------
Se olisi mielenkiintoista tietää, miten suuri osa tehosta kuluu itse laskentayksiköissä ja miten suuri osa muistiohjain + cachet jne puolella..
Kyllähän nandiakin pinotaan kerroksiin, niin pistetään se prossu kanssa kymmeniin kerroksiin...

Ei taida ihan toimia näin yksin kertaisesti. Ja chat gpt antoi ihan pätevän oloisen vastauksen

chatgptt.me sanoi:
You:
Why you can stack nand by layers but not example cpu

AI:
Stacking NAND flash memory cells in layers is a common technique used in solid-state storage devices to increase storage capacity without significantly increasing the physical footprint. This is possible because NAND flash memory cells are designed to be stacked vertically, allowing for more storage capacity in a smaller space.

On the other hand, stacking components in a CPU, such as transistors, is not as straightforward. CPUs are designed with intricate architectures and precise layouts to ensure efficient data processing and communication between components. Stacking components in a CPU could introduce challenges related to heat dissipation, signal interference, and overall performance.

While advancements in technology may eventually lead to stacked components in CPUs, the current design and functionality of CPUs do not easily lend themselves to stacking components in the same way NAND flash memory cells can be stacked. Each type of technology has its own unique design considerations and limitations that dictate how components can be stacked and integrated.
 
Kyllähän nandiakin pinotaan kerroksiin, niin pistetään se prossu kanssa kymmeniin kerroksiin...

Ei taida ihan toimia näin yksin kertaisesti. Ja chat gpt antoi ihan pätevän oloisen vastauksen
Kyllähän nandiakin.... On selkeä argumentointivirhe, koska kyseessä on radikaalisti erilaiset piirit.

1 kerros nandia ei esimerkiksi lämpene juuri ollenkaan. Lisäksi kerroksia voidaan varmasti hyödyntää paljon paremmin, kun nandi on vain etupäässä sitä samaa, hyvin yksinkertaista rakennetta, eikä siinä ole juurikaan hotspotteja VS esim prossut..

Huom "kerros" voidaan myös ymmätää monella tavalla.. Mutta puhun nyt perinteisestä kokonaisuudesta, joka muodostaa kerroksen.
 
Viimeksi muokattu:
Kyllähän nandiakin.... On selkeä argumentointivirhe, koska kyseessä on ragikaalisti erilaiset piirit.
Noh, se oli puoliksi huumorilla tehty heitto ja heti alkuun tunnistin ettei asiat taida mennä ihan noin suoraviivaisesti.
 
Jos pinotut muistit yms. kiinnostaa niin nvidian tutkimuspuolen vetäjältä on kiinnostava esitys youtubessa. Linkki aikaleimalla. Laitoin muutaman mutta en kaikkia slaideja videon esityksestä postaukseen sisään. Videolla on myös todella mielenkiintoista chiplet asiaa,...
1709682683911.png


1709682744327.png


1709682771282.png



B200:sta vaikea spekuloida. Mitä jos B200 on 2xgpu piiri paketissa ja 1000w versus h200 1 gpu piiri paketissa 700W? Virrankulutus per paketti kasvoi 300W mutta virrankulutus per gpu piiri laski?
 
Saa nähdä, missä vaiheessa nuo tutkimukset tuottavat ehkä sitten tuloksia.. Melko iso ongelma, jos GPU:n pinta pitää pitää MAX 50 asteisena..
 
Saa nähdä, missä vaiheessa nuo tutkimukset tuottavat ehkä sitten tuloksia.. Melko iso ongelma, jos GPU:n pinta pitää pitää MAX 50 asteisena..
Varmaan aika kaukana tulevaisuudessa. On nvidia tosin tehnyt testipiirejä.

Cachen erottaminen omiksi piireikseen varmaan lähempänä (lähi)todellisuutta. Päällepäin ainakin hyvin samankaltainen ajatus kuin mikä amd:lla on jo tuotannossa 3d vcache prossuissa. Kuva, lainaus ja linkki yhteen nvidian tutkimuspaperiin. Paperi julkaistu joulukuussa 2021 eli melko vanhaa kamaa.

1709686508876.png


We argue that a Composable On-PAckage GPU (COPA-GPU) architecture to provide domain-specialized GPU products is the most practical solution to these diverging requirements. A COPA-GPU leverages multi-chip-module disaggregation to support maximal design reuse, along with memory system specialization per application domain. We show how a COPA-GPU enables DL-specialized products by modular augmentation of the baseline GPU architecture with up to 4× higher off-die bandwidth, 32× larger on-package cache, and 2.3× higher DRAM bandwidth and capacity, while conveniently supporting scaled-down HPC-oriented designs.
 
Cachen erottaminen omiksi piireikseen varmaan lähempänä (lähi)todellisuutta. Päällepäin ainakin hyvin samankaltainen ajatus kuin mikä amd:lla on jo tuotannossa 3d vcache prossuissa.
Niin siis Navi 31 (RX 7900 -sarja) ja Navi 32 (7800 XT, 7700 XT) ovat kirjaimellisesti tuollaisia. Tai no, ei HBM-muisteilla, mutta muuten. GPU keskellä ja 4 tai 6 muistiohjain + infinity cache -sirua sivuilla.
 
Varmaan aika kaukana tulevaisuudessa. On nvidia tosin tehnyt testipiirejä.

Cachen erottaminen omiksi piireikseen varmaan lähempänä (lähi)todellisuutta. Päällepäin ainakin hyvin samankaltainen ajatus kuin mikä amd:lla on jo tuotannossa 3d vcache prossuissa. Kuva, lainaus ja linkki yhteen nvidian tutkimuspaperiin. Paperi julkaistu joulukuussa 2021 eli melko vanhaa kamaa.

1709686508876.png



Jaa, liekkö tuohon varaa, kun AI jutut ja mm rt on ilmeisesti pahasti kaista /latenssi rajotteisia ja tuollainen vieressä oleva asia on todella paljon hitaampi vs on die,, Sen takiahan noita yritetään saada dien päälle ja muisti vielä numa tyyliin per suoritusyksikko, jotta data olisi aina ihan lähellä..
 
Jaa, liekkö tuohon varaa, kun AI jutut ja mm rt on ilmeisesti pahasti kaista /latenssi rajotteisia ja tuollainen vieressä oleva asia on todella paljon hitaampi vs on die,, Sen takiahan noita yritetään saada dien päälle ja muisti vielä numa tyyliin per suoritusyksikko, jotta data olisi aina ihan lähellä..
Paperi väittää halvemmaksi ja paremman suorituskyvyn ratkaisuksi kuin monoliitti. Ne jo ketjussa aikaisemmin mainitut sramin skaalautumiset esim. 3nm prosessissa.

Pari lainausta. Koko paperin lukemalla saa paremman kuvan asiasta
A large L3 reduces the number of DRAM accesses, more than offsetting the additional cost of the UHB link traversal and L3 accesses. Figure 4 shows that the 960MB and 1.9GB L3 configurations reduce overall DRAM traffic by up to 94% and 98%, respectively. We estimate that fetching a cache line from an SRAM-based COPA-GPU L3 into the GPM will consume approximately 4× less energy than accessing HBM memories.
Even though both COPA-GPU approaches introduce 4% to 6% area overhead due to new MCM communication interfaces, this area (and thus cost overhead) will be more than offset by the savings in the HPC-oriented variants by not carrying forward the unnecessary and expensive DL-oriented memory subsystem. Moreover, we believe that in the future even non-composable GPU designs will turn to MCM organizations due to looming reticle limitations, effectively introducing similar MCM link overheads into all GPU designs.
We show that when compared to a converged GPU design, a DL-optimized COPA-GPU featuring a combination of 16× larger cache capacity and 1.6× higher DRAM bandwidth scales per-GPU training and inference performance by 31% and 35%, respectively, and reduces the number of GPU instances by 50% in scale-out training scenarios.

Jos erillistä cache piiriä ei ole blackwellissä niin uskon sen johtuvan paketoinnista. Hopperin myynti on tällä hetkellä paketointirajotteinen. Voi olla, että paras piiri on se mitä saadaan eniten valmistettua eikä se joka on teoriassa nopein. Vajaa kaksi viikkoa niin tiedetään, kun b100:en julkaistaan gtc messujen keynotessa. Toki nvidia on kiihdyttänyt roadmappiaan niin joka vuosi tulee uusi tuote versus aikaisempi 2v sykli konesalituotteissa.
 

Statistiikka

Viestiketjuista
264 781
Viestejä
4 582 007
Jäsenet
75 506
Uusin jäsen
milo09

Hinta.fi

Back
Ylös Bottom