NVIDIA esitteli HotChips 34 -tapahtumassa Hopper H100:n yksityiskohtia

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 436
nvidia-hopper-h100-block-diagram-20220825.jpg


Kaotik kirjoitti uutisen/artikkelin:
NVIDIA on kertonut HotChips 34 -tapahtumassa yksityiskohtaisempaa tietoa aiemmin tänä vuonna esitellystä Hopper-arkkitehtuuriin perustuvasta H100-laskentasirusta. Yhtiö on lisäksi varmistanut hiljattain osavuosikatsauksessaan H100-kiihdytinten olevan tuotannossa ja niiden toimitusten alkavan tämän vuoden aikana.



H100 on TSMC:n 4N-prosessilla valmistettu monoliittinen, peräti 80 miljardista transistorista rakentuva piiri. Sen sisään on mahdutettu 132 SM-yksikköä, joiden luvataan tarjoavan kaksinkertaista nopeutta samalla kellotaajuudella A100:n verrattuna. Uudet 4. sukupolven tensoriytimet lisäävät tuen uudelle FP8-tarkkuudelle ja kaksinkertaistaa muiden tarkkuuksien suorituskyvyn. Tuettuna on myös uusi DPX-käskykanta sekä Tensor Memory Accelerator -yksikkö asynkroniseen datan siirtoon.



Laskentapiirin sisällä rakenne sisältää aiempien SM, GPC ja uuden Thread Block Clusters -ryhmittelyn, jossa neljä SM-yksikköä pääsevät kommunikoimaan aiempaa suoremmin keskenään SM-to-SM network -vaihteen kautta. Eri Thread Block Clustereiden välinen kommunikaatio tapahtuu yhteensä 50 megatavuisen L2-välimuistin kautta. NVIDIAn mukaan uusi taso vaadittiin yksinkertaisesti jättimäiseksi kasvaneen koon vuoksi.

H100:n kaverina on mallista riippuen 80 Gt joko HBM3 (OAM) tai HBM2e (PCIe) muistia. HBM-pinoja on kuusi yhteensä 6144-bittisen muistiväylän takana, mutta saantojen vuoksi yksi muistipinoista on aina pois käytöstä. Ulkoiseen kommunikaatioon piiristä löytyy NVLink- ja PCI Express 5.0 -tuet.

Suosittelemme syvemmin aiheesta kiinnostuneille esimerkiksi Serve the Homen kattavampaa lähdeartikkelia.

Lähde: Serve the Home

Linkki alkuperäiseen juttuun
 
Kevään gtc-messuilta katsoin hopper sessioit. Tnsor memory accelerator ominaisuus sivuosumineen on mielenkiintoinen, mutta vaatii työtä ohjelmoijalta. Sen avulla saa näppärästi valmisteltua datan liikuttelun niin, että gpu teoriassa pystyy murskaamaan dataa ilman odottelua. Liittyy paljon siihen, että miten saadaan skaalattua laskenta todella monelle gpu:lle isoilla dataseteillä. Tuo ominaisuus on toki monimutkaisempu kuten gtc-sessiosta näkee. Datan hakemisen lisäksi on synkronointia ja laskentaa mitä suoritetaan ennen kuin data on haettu jne.

Tuntuu, että tieteellinen laskenta/koneoppiminen vaatii nopean raudan lisäksi paljon ohjelmointityötä, jos halutaan mahdollisimman suorituskykyinen ratkaisu. Mielenkiintoista nähdä miten tämä vaikuttaa siihen, että onko moni laskenta enää niinkään rauta vai softaongelma? ts. puhtaat flopsit kertovat yhä vähemmän reaalimaalman suorituskyvystä, kun mietitään monimutkaisempaa laskemista benchmarkkien ulkopuolelta.

Nvidian kvartaaliraportissa sanottiin, että hopper on nyt massatuotannossa ja kuluttajien käsissä q4:lla.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
257 549
Viestejä
4 476 629
Jäsenet
73 955
Uusin jäsen
Laiska007

Hinta.fi

Back
Ylös Bottom