NVIDIA julkaisi uuden Blackwell-arkkitehtuurin järeään tekoälylaskentaan

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 436
nvidia-blackwell-gpu-b200-20240319.jpg


Kaotik kirjoitti uutisen/artikkelin:
NVIDIAn nahkatakkinen toimitusjohtaja Jensen Huang on käynnistänyt Kalifornian San Josessa kevään 2024 GTC- eli GPU Technology Conference -tapahtuman keynote-esityksellään. Kuten odotettua oli, julkistettiin tapahtumassa uusi Blackwell-arkkitehtuuri ja siihen perustuvat järeät laskentapiirit.



NVIDIAn diojen mukaan TSMC:n 4NP-prosessilla valmistettava 104 miljardin transistorin Blackwell olisi suurin mahdollinen siru, mitä voidaan valmistaa. Se ei kuitenkaan ole yhtiölle riittänyt, vaan piirejä on ladottu kuhunkin paketointiin kaksin kappalein. Piirit toimivat diojen mukaan yhtenä GPU:na ja ne ovat keskenään välimuistikoherentteja, joten yhdessä B200:ssa on kaksi sirua ja yhteensä kahdeksan 24 Gt:n HBM3e-muistipinoa. 192 Gt:n muistiin on yhteensä jopa 8 Tt/s muistikaistaa, kun molempien sirujen kaistat ynnätään yhteen. NVIDIA on päivittänyt Blackwellissä myös yhdysväylän uuteen NVLink 5 -versioon, mikä 18 linkillä tarjoaa nyt 1800 Gt/s kaistaa, kun Hopper-sukupolvessa sitä oli vain 900 Gt/s.

NVIDIA ei ole hiiskunut B200:n tarkemmasta konfiguraatiosta, kuten CUDA- ja Tensor-ytimien määristä tai kellotaajuuksista vielä mitään. Se mitä tiedetään, on teoreettinen suorituskyky tensorilaskennassa, perinteisistä vektorilaskennoista ei hiiskuttu mitään. Merkinnöissä suluissa Hopper-sukupolven H100:n vastaavat lukemat.
  • B200 FP64: 40 TFLOPS (H100 67 TFLOPS)
  • B200 TF32: 1100 TFLOPS (H100 495 TFLOPS)
  • B200 FP16: 2250 TFLOPS (H100 990 TFLOPS)
  • B200 INT8/FP8: 4500 T(F)LOPS (H100 1980 TOPS)
  • FP4: 9 PFLOPS

[gallery link="file" columns="2" size="medium" ids="95618,95619"]

Blackwellistä tulee saataville kolme varianttia sekä kaksi HGX-palvelinversiota: B100, B200, GB200 ja HGX B100 sekä B200. Yllä listatut suorituskykylukemat ovat 1000 watin B200:lle, kun B100:ssa kulutus on rajattu 700 wattiin, mikä syö samalla neljänneksen suorituskykyä. GB200:n kulutukseksi kerrotaan parhaimmillaan peräti 2700 wattia, mutta se on varustettu kahdella B200-versiolla sekä Grace-prosessorilla. HGX-palvelimissa on tuttuun tapaan kahdeksan B100:aa tai B200:aa. Lisäksi yhtiö esitteli uuden GB200 NVL72:n, mikä on käytännössä palvelinräkki yhteensä 36 GB200:lla.

Samaan syssyyn julkaistiin myös uusi NVLink Switch -piiri, jota ei sitäkään voi turhan pieneksi haukkua. Se rakentuu jopa 50 miljardista transistorista ja valmistetaan samalla TSMC 4NP -prosessilla kuin Blackwell. Se on varustettu yhteensä 72-porttisella Dual 200 Gb/s SerDes -kytkimellä ja neljällä 1,8 Tt/s NVLinkillä. Se tarjoaa jopa 7,2 Tt/s yhteiskaistaa ja osaa vielä päälle tarjota SHARP In-Network Compute -laskentakykyä 3,6 TFLOPSin edestä FP8-tarkkuudella. Se mahdollistaa yhtiön mukaan kaikkien siihen kytkettyjen piirien toimimisen kuin ne olisivat yksi suuri GPU.

Suosittelemme arkkitehtuurista lähemmin kiinnostuneille esimerkiksi AnandTechin syväluotaavampaa artikkelia.

Lähde: NVIDIA

Linkki alkuperäiseen juttuun
 
Näistä spekseistä näkee selkeästi, miten käyttötarve on suuntautumassa tieteellisestä laskennasta (FP64) enemmän AI-laskennan suuntaan:
FP64 -suorituskyky on jopa heikentynyt H100:een verrattuna, mutta alemman tarkkuuden laskentateho (nVidian omat TF32 'Tensor Flopsit' FP16 ja FP8) suorituskyky on kasvanut selvästi.
  • B200 FP64: 40 TFLOPS (H100 67 TFLOPS)
  • B200 TF32: 1100 TFLOPS (H100 495 TFLOPS)
  • B200 FP16: 2250 TFLOPS (H100 990 TFLOPS)
  • B200 INT8/FP8: 4500 T(F)LOPS (H100 1980 TOPS)
  • FP4: 9 PFLOPS
Jos (ja arvioni mukaan kun) AI-kupla jossakin vaiheessa puhkeaa, niin sitten joudutaan uudelleen miettimään tieteelliseen laskentaan optimoituja piirejä.
Ja tokihan nVidia sellaisia sitten lähtee tarjoamaan, mutta kilpailijat saattavat vähän päästä karkuun tuon tieteellisen laskennan saralla.

Ja voi toki tässä välissä tulla enemmän FP64 -painotteisiakin piirejä.
 
Keynotessa esiteltiin muutakin kuin AI:ta. Omniverse työkalu ja sen käyttäminen simulointiin, robotiikkaan, digitaalisten kaksosten luomiseen yms. Useampi merkittävä taho myös julkaisi integroivansa omia simulointi yms. ratkaisuja omniverseen. Suurin osa keynotesta oli erilaisista softa ja palvelupalikoiden esittelyä. Kauas on tultu siitä ajasta kun nvidia teki pelkkiä piirejä







 
Viimeksi muokattu:
Blackwellin toimitukset alkavat loppuvuodesta 2024. Volyymitoimitukset menee 2025 puolelle. Meta ja microsoft mainuttu eri lähteissa alkuvaiheen asiakkaiksi.


Nvidian GTC menossa. GTC videot ilmaisia mutta vaatii rekisteröitymisen. Ainakin linkattu esitys kovaa kamaa. Nvidian tutkimuspuolen jutut hyvin heijastelleet tulevaisuutta mihin mennään. Tällä kertaa bill dally puhui erittäin virtapihistä always on lohkosta neuroverkkopohjaiseen videokäsittelyyn. Toki muutakin esityksessä. Always on juttu vaikutti teknologialta mikä tulee oikeasti tapahtumaan kameroissa yms.

About kaikilta merkittäviltä pilvi/softa/... toimijoilta esityksiä tuolla GTC-messuilla. Hyvää tavaraa.
We'll share some insights from NVIDIA Research for the past year. These will include a power-efficient “always-on” AI accelerator, a diffusion model that improves the resolution of weather predictions, a large language model-powered embodied agent, and a foundation model for autonomous vehicle scene reconstruction.
Bill Dally

Kilpailu noissa konesaliratkaisuissa taitaa nyt olla 72gpu asennuksissa. Nvidian referenssiblackwell skaalaa nvlinkin läpi muistikoherentisti 72gpu pönttöön asti. Tuota isommat ratkaisut tarvii nitoa yhteen infinibandin/ethernetin läpi. Kaukana on ne ajat kun myytiin pelkkää piiriä, nyt myydään tuollasia isompia pömpeleitä.
nvidia-blackwell-dgx-gb200-nvl72-rack.jpg
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
257 551
Viestejä
4 476 676
Jäsenet
73 955
Uusin jäsen
Laiska007

Hinta.fi

Back
Ylös Bottom