Nvidia valmistautuu Grace-ARM-suorittimen julkaisuun julkaisemalla aloitusopppaan ARM suorituskykyiseen laskentaan(HPC)

finWeazel

Chief Karpfen - ruoKalan C&R
Liittynyt
15.12.2019
Viestejä
8 998
Nvidia on julkaisemassa ARM-pohjaista Grace-suoritinta alkuvuodesta 2023 suorituskykyiseen(HPC) ja tieteelliseen laskentaan. Nvidia on hiljattain julkaissut aloitusoppaan ARM HPC käyttöä varten. Opas on yleinen ja toimii muidenkin valmistajien ARM-suorittimien kanssa. Referenssinä, jolla opasta voi testata on Ampere Altra Q80-30 suoritin. Opas ei vaadi GPU:ta. Oppaan mukaan GPU:n käyttö X86 ja ARM-alustoilla ei eroa toisistansa. Iso osa X86 vs. ARM eroista vaikuttaisi olevan ohjelmistojen kääntämistä lähdekoodista ARM-alustalle ja muuta suoritinriippuvaista asiaa.

ARM-suorittimet ovat mielenkiintoinen lisä pilviympäristöön, jossa X86-suorittimet AMD:lta ja Inteliltä ovat merkittäviä tekijöitä. Spekuloida voi esimerkisi ARM suorituskyvystä ja virrankulutuksesta versus X86-suorittimet. Spekuloida voi myös Nvidian referenssiratkaisuista, joissa käytettiin yksinoikeudella X86 piirejä aikaisemmin. Ampere aikakaudella Nvidian referenssialusta käytti AMD:n suoritinta. Hopper referenssit käyttävät Intelin X86-suoritinta ja Nvidian omaa Grace-ARM-suoritinta.

Oppaan on ilmeisesti kirjoittanut/julkaissut John Linford


Linkki oppaaseen:
The NVIDIA Arm HPC Developer Kit (simply "DevKit" in this guide) is an integrated hardware and software platform for creating, evaluating, and benchmarking HPC, AI, and scientific computing applications on a heterogeneous GPU- and CPU-accelerated computing system. The kit includes an Arm CPU, dual NVIDIA A100 Tensor Core GPUs, and the NVIDIA HPC SDK suite of tools. See the product page for more information.


Kooste Nvidian Grace-suorittimen pääominaisuusista.

NVIDIA Grace CPU Superchip uses the NVLink-C2C technology to deliver 144 Arm® v9 cores and 1 TB/s of memory bandwidth.

  • High performance CPU for HPC and cloud computing
  • Super chip design with up to 144 Arm v9 CPU cores
  • World’s first LPDDR5x with ECC Memory, 1TB/s total bandwidth
  • SPECrate®2017_int_base over 740 (estimated)
  • 900 GB/s coherent interface, 7X faster than PCIe Gen 5
  • 2X the packaging density of DIMM-based solutions
  • 2X the performance per watt of today’s leading CPU
  • Runs all NVIDIA software stacks and platforms, including NVIDIA RTX, HPC, NVIDIA AI, and NVIDIA Omniverse

Introducing Grace
grace-cpu-superchip-2c50-l.jpg
 
Viimeksi muokattu:
Tämäkin on taas mielenkiintoinen tuulahdus menneestä. Aikaisemmin HPC on tarkoittanut GPGPU rautaa mutta nyt käytetään isoa määrää GPCPU ytimiä klusterissa. Missäs moinen aikaisemmin ... niin juu Xeon Phi - Wikipedia
 
Tämäkin on taas mielenkiintoinen tuulahdus menneestä. Aikaisemmin HPC on tarkoittanut GPGPU rautaa mutta nyt käytetään isoa määrää GPCPU ytimiä klusterissa. Missäs moinen aikaisemmin ... niin juu Xeon Phi - Wikipedia

Mielenkiintoista on myös, että amd, intel ja nvidia kaiki ovat tekemässä jonkinlaista versiota chipletistä/mcm/??:sta. CPU:t, GPU:t ja muut kiihdyttimet samaan pakkaukseen ja nopeata väylää väliin + yhtenäinen muistinosoitus. Elämme mieleniintoisia aikoja. Voi olla, että parhaan suorituskyvyn&hinnan tulevaisuudessa saa sijoittamalla yhden valmistajan ratkaisuun sen sijaan, että ottaisi yhdeltä cpu:n, toiselta gpu:n ja kolmannelta muut kiihdyttimet(verkkortti esim). Tämä olisi tavallaan sääli, koska sitten rakennettaisiin aikalailla valmistajaspesifisiä aidattuja puutarhoja.

Nvidian gpu(hopper)+cpu(grace) näyttää about allaolevalta(tai samalla tapaa 2xgrace yhteen)
hopper-h100-grace-hopper-2c50-l.jpg
 
Viimeksi muokattu:
Tämäkin on taas mielenkiintoinen tuulahdus menneestä. Aikaisemmin HPC on tarkoittanut GPGPU rautaa mutta nyt käytetään isoa määrää GPCPU ytimiä klusterissa. Missäs moinen aikaisemmin ... niin juu Xeon Phi - Wikipedia
Miten tämä tuulahdus mistään menneestä on? HPC ei ole missään vaiheessa tarkoittanut vain GPGPU-rautaa ja kutakuinkin kaikista superkoneista löytyy GPU-noodien lisäksi pelkkiä CPU-noodeja. Xeon Phi on GPU-johdannainen projekti eikä millään tapaa verrattavissa tähän (IMO). J
os ydinmääriä mietit, ei tuossa ole kuin 6 ydintä enemmän, kuin AMD:n Epyceissä tai 16 enemmän, kuin Intelin Xeoneissa. 144 on kahden prosessorin ydinmäärä, ei yhden.

Mielenkiintoista on myös, että amd, intel ja nvidia kaiki ovat tekemässä jonkinlaista versiota chipletistä/mcm/??:sta. CPU:t, GPU:t ja muut kiihdyttimet samaan pakkaukseen ja nopeata väylää väliin + yhtenäinen muistinosoitus. Elämme mieleniintoisia aikoja. Voi olla, että parhaan suorituskyvyn&hinnan tulevaisuudessa saa sijoittamalla yhden valmistajan ratkaisuun sen sijaan, että ottaisi yhdeltä cpu:n, toiselta gpu:n ja kolmannelta muut kiihdyttimet(verkkortti esim). Tämä olisi tavallaan sääli, koska sitten rakennettaisiin aikalailla valmistajaspesifisiä aidattuja puutarhoja.

Nvidian gpu(hopper)+cpu(grace) näyttää about allaolevalta(tai samalla tapaa 2xgrace yhteen)
Toki kaikilla on työn alla vaikka ja mitä, mutta Gracella tai Grace/Hopperilla ei ole käytännössä mitään tekemistä asian kanssa (poislukien se että Hopper itsessään on tietenkin MCM, kiitos HBM-muistien). Tuota on ihan emolevyyn tai samalle laajennuskortille asentamista, poikkeuksellista on vain väylän nopeus niiden välillä piirilevyn halki. Nuo eivät siis ole samassa pakkauksessa.
 
Toki kaikilla on työn alla vaikka ja mitä, mutta Gracella tai Grace/Hopperilla ei ole käytännössä mitään tekemistä asian kanssa (poislukien se että Hopper itsessään on tietenkin MCM, kiitos HBM-muistien). Tuota on ihan emolevyyn tai samalle laajennuskortille asentamista, poikkeuksellista on vain väylän nopeus niiden välillä piirilevyn halki. Nuo eivät siis ole samassa pakkauksessa.

viittasin siihen nvlink:iin joka on grace-hopperin välissä + paketoitu yhteen pakkaukseen cpu+gpu sen sijaan, että olisi erillisiä kortteja kytketty yhteen pcie väylän kautta. En osaa valitettavasti sanoa mitä nimeä mistäkin amd(chipletit?), intel(tiilet? emib?) ja nvidia nvlink(?) ratkaisuista pitäisi käyttää. Nuo kolme ehkä merkittävintä tahoa kaikki ovat tekemässä saman paketin sisälle cpu+gpu+mahdolliset muut kiihdyttimet ratkaisua.
 
viittasin siihen nvlink:iin joka on grace-hopperin välissä + paketoitu yhteen pakkaukseen cpu+gpu sen sijaan, että olisi erillisiä kortteja kytketty yhteen pcie väylän kautta. En osaa valitettavasti sanoa mitä nimeä mistäkin amd(chipletit?), intel(tiilet? emib?) ja nvidia nvlink(?) ratkaisuista pitäisi käyttää. Nuo kolme ehkä merkittävintä tahoa kaikki ovat tekemässä saman paketin sisälle cpu+gpu+mahdolliset muut kiihdyttimet ratkaisua.
Siis nimenomaan niitä ei ole paketoitu samaan pakkaukseen, vaan tuo on ihan emolevy tai laajennuskortti (toteutuksesta riippuen), missä on kaksi erillistä piiriä ihan omine paketointeineen. MI250X:ssä esimerkiksi on kaksi piiriä (+ HBM:t) samassa paketoinnissa, kuva alla auttaa hahmottamaan eron.

1658414153328.png


NVLink on leveän sarjaliitännän nimi, se menee ihan piirilevyä pitkin kuten vaikka yksi versio AMD:n Infinity Architecturesta (Infinity Fabricista).
 
Siis nimenomaan niitä ei ole paketoitu samaan pakkaukseen, vaan tuo on ihan emolevy tai laajennuskortti (toteutuksesta riippuen), missä on kaksi erillistä piiriä ihan omine paketointeineen. MI250X:ssä esimerkiksi on kaksi piiriä samassa paketoinnissa, kuva alla auttaa hahmottamaan eron.

1658414153328.png


NVLink on leveän sarjaliitännän nimi, se menee ihan piirilevyä pitkin kuten vaikka yksi versio AMD:n Infinity Architecturesta (Infinity Fabric).

En kai minä ole pakottamisesta mitään kirjoittanut? Kirjoitin siitä, että tuon yhteenpakkaamisen parissa työskennellään. Sen jälkeen spekuloin, että yhteenpakkaamisesta voi olla etuja versus perinteinen ratkaisu. Spekulointi on vain mun oletus, asiat voi olla tai olla olematta niin kuin spekuloin.

Spekulointi siis allaoleva pätkä minkä kirjoitin. Oletin, että olisi itsestään selvää, että erillinen cpu, gpu ja muut kiihdyttimet ratkaisu säilyy noiden integroidumpien paketointien rinnalla. Ehkä se ei sitten ollut niin selvää vaikka mainitsin x86+hopper referenssistä ja grace+hopper referenssistä. Kyllähän nvidiakin on suoraan sanonut, että X86 säilyy eivätkä he ole menossa grace only ratkaisuihin. Ostaja saa valita mitä legoja/integroituja ratkaisuja haluaa ostaa.
Voi olla, että parhaan suorituskyvyn&hinnan tulevaisuudessa saa sijoittamalla yhden valmistajan ratkaisuun sen sijaan, että ottaisi yhdeltä cpu:n, toiselta gpu:n ja kolmannelta muut kiihdyttimet(verkkortti esim). Tämä olisi tavallaan sääli, koska sitten rakennettaisiin aikalailla valmistajaspesifisiä aidattuja puutarhoja.
 
Viimeksi muokattu:
En kai minä ole pakottamisesta mitään kirjoittanut.
Mistä ihmeen pakottamisesta kukaan on puhunut?
Kirjoitin siitä, että tuon yhteenpakkaamisen parissa työskennellään. Sen jälkeen spekuloin, että yhteenpakkaamisesta voi olla etuja versus perinteinen ratkaisu. Spekulointi on vain mun oletus, asiat voi olla tai olla olematta niin kuin spekuloin.

Spekulointi siis tämä pätkä minkä kirjoitin
En nyt pysy yhtään kärryillä ajantuksenjuoksusi kanssa, sinun viestisi antoivat kuvan kuin Grace, Grace/Hopper tai NVLink liittyisi jotenkin chipletteihin/MCM-piireihin/tileihin/jne. Siinä ei ole mitään spekuloitavaa, ei liity.
Grace ja Grace/Hopper eivät eroa nykyisistä toteutuksista, missä on useampi piiri samalla levyllä. Kuten vaikka kannettavissa ja konsoleissa. Piirien välinen piirilevyä kulkeva väylä on nopea, mutta siinä ei ole mitään poikkeuksellista, kehitys kehittyy ja väylät nopenee, muitakin aikaisiksiin nopeita väyliä on käytetty täysin samaan tapaan.
Chipleteissä / MCM-piireissä / Tileissä / jne puhutaan nimenomaan samassa paketoinnissa olevista useista siruista. Tähän kategoriaan putoaa esimerkiksi yllä oleva MI250X. Periaatteessa myös kaikki HBM-muisteilla varustetut piirit voidaan laskea tähän, jolloin Hopper kuuluisi joukkoon, mutta muisteja harvemmin on puhuttaessa MCM-piireistä laskettu mukaan.
 
Mistä ihmeen pakottamisesta kukaan on puhunut?

En nyt pysy yhtään kärryillä ajantuksenjuoksusi kanssa, sinun viestisi antoivat kuvan kuin Grace, Grace/Hopper tai NVLink liittyisi jotenkin chipletteihin/MCM-piireihin/tileihin/jne. Siinä ei ole mitään spekuloitavaa, ei liity.
Grace ja Grace/Hopper eivät eroa nykyisistä toteutuksista, missä on useampi piiri samalla levyllä. Kuten vaikka kannettavissa ja konsoleissa. Piirien välinen piirilevyä kulkeva väylä on nopea, mutta siinä ei ole mitään poikkeuksellista, kehitys kehittyy ja väylät nopenee, muitakin aikaisiksiin nopeita väyliä on käytetty täysin samaan tapaan.
Chipleteissä / MCM-piireissä / Tileissä / jne puhutaan nimenomaan samassa paketoinnissa olevista useista siruista. Tähän kategoriaan putoaa esimerkiksi yllä oleva MI250X. Periaatteessa myös kaikki HBM-muisteilla varustetut piirit voidaan laskea tähän, jolloin Hopper kuuluisi joukkoon, mutta muisteja harvemmin on puhuttaessa MCM-piireistä laskettu mukaan.

Yritin sanoa, että grace-hopper tuo ratkaisun tarjolle missä on cpu ja gpu nvidia spesifisellä väylällä pultattu yhteen ja sirut ovat samalla kortilla/ehkä jopa saman paketoinnin sisällä. Tuo on yksi mahdollinen konfiguraatio monesta. Tuo nvidia spesifinen linkki cpu+gpu välissä voi olla parempi tai sitten ei kuin kytkeä gpu ja cpu yhteen pcie väylän läpi. Siitä voi sitten väitellä onko allaoleva nvidian väitepatteristo mitenkään tosi tai relevantti jne.


  • CPU+GPU designed for giant-scale AI and HPC
  • New 900 gigabytes per second (GB/s) coherent interface, 7X faster than PCIe Gen 5
  • 30X higher aggregate system memory bandwidth to GPU compared to DGX A100

Se miksi toin amd:n ja intelin mukaan postaukseeni oli, että en halunnut luoda kuvaa missä nvidia olisi ainoa taho, joka miettii omaa tapaansa pultata cpu+gpu+kiihdyttimet settiä yhdelle kortille/paketille. Esimerkkinä vaikka amd:n chipletit(sekä cpu, että gpu tulevaisuudessa, ei pelkät gpu-chipletit)tai intelin meteor lake tiiliensä kanssa. Kai amd:n chipletit ja intelin tiilet päätyvät myös HPC-ratkaisuihin.

jos/kun en käytä oikeita termejä niin olisi ystävällistä edes yrittää ymmärtää ja sitten kysyä tarkentava kysymys sen sijaan, että päädytään vääntämään lillukanvarsista. Esimerkiksi se "pakottaminen" väite, en minä sellaista mihinkään kirjoittanut
 
Viimeksi muokattu:
Yritin sanoa, että grace-hopper tuo ratkaisun tarjolle missä on cpu ja gpu nvidia spesifisellä väylällä pultattu yhteen ja sirut ovat samalla kortilla/ehkä jopa saman paketoinnin sisällä. Tuo on yksi mahdollinen konfiguraatio monesta. Tuo nvidia spesifinen linkki cpu+gpu välissä voi olla parempi tai sitten ei kuin kytkeä gpu ja cpu yhteen pcie väylän läpi. Siitä voi sitten väitellä onko allaoleva nvidian väitepatteristo mitenkään tosi tai relevantti jne.

Se miksi toin amd:n ja intelin mukaan postaukseeni oli, että en halunnut luoda kuvaa missä nvidia olisi ainoa taho, joka miettii omaa tapaansa pultata cpu+gpu+kiihdyttimet settiä yhdelle kortille/paketille. Esimerkkinä vaikka amd:n chipletit(sekä cpu, että gpu tulevaisuudessa, ei pelkät gpu-chipletit)tai intelin meteor lake tiiliensä kanssa. Kai amd:n chipletit ja intelin tiilet päätyvät myös HPC-ratkaisuihin.
Se "juttu" tässä on juuri se, että Gracella tai Grace/Hopperilla nimenomaan ei ole mitään erikoista yhteistä tai uutta, se ei vertaudu chipletteihin (oli ne mitä chiplettejä tahansa) tai tileihin eikä ne ole MCM:iä (jos HBM:iä ei Hopperissa lasketa). Omia väyliä on ollut läpi koko historian samalle piirilevylle asennettujen piirien välillä. Ehkä asia on helpommin lähestyttävä vaikka 2S-emojen kautta. Ajattele että tuo lankku on emolevy, jossa on kaksi prosessorikantaa. Voit asentaa kumpaankin Gracen tai toiseen Gracen ja toisen Hopperin. Piirit kommunikoivat piirilevyn läpi. Tätä on tehty niin kauan kuin on ollut 2S-emoja, joissa prosessorit voivat keskustella keskenään suoraan eli iänkaiken. Tässä tapauksessa piirit vain juotetaan sille emolevylle eikä asenneta kantaan.
MCM-piireissä taas on se yksi paketointi, johon on asennettu useita siruja. AMD:lla on näitä, Intelillä on näitä ja NVIDIAkin kehittää näitä, mutta ei ole vielä saanut mitään valmista. MCM-piireissä kommunikaatio tapahtuu joko paketoinnin, interposerin tai siltapiirin (tai jopa suoraan piirit yhdistämällä, Applen M1 Ultrassa muistaakseni piirit on kirjaimellisesti kyljistään fyysisesti toisiinsa yhteydessä) kautta.
AMD:n MCM:t ovat jo HPC-ratkaisuissa (Epycit, Instinct MI250X, tuleva MI300 yhdistää CPU- ja GPU-chipletit samaan MCM-piiriin), samoin Intelin (osa Xeon Scalableista, pian Sapphire Rapidsit ja Ponte Vecchiot)
jos/kun en käytä oikeita termejä niin olisi ystävällistä edes yrittää ymmärtää ja sitten kysyä tarkentava kysymys sen sijaan, että päädytään vääntämään lillukanvarsista. Esimerkiksi se "pakottaminen" väite, en minä sellaista mihinkään kirjoittanut
Ei kyse ole lillukanvarsista, nimenomaan yritin sinulle osoittaa miksi käyttämäsi termit ovat vääriä Gracelle ja Grace/Hopperille. Sinä olet ainut joka on puhunut mistään "pakottamisesta" yhtään mitään, siksi sitä ihmettelin. Ehkä luit aiemman viestini väärin?

Edit: Lisätty Apple-pätkä
 
Viimeksi muokattu:
Se "juttu" tässä on juuri se, että Gracella tai Grace/Hopperilla nimenomaan ei ole mitään erikoista yhteistä tai uutta, se ei vertaudu chipletteihin

Eli sun mielestä tuo grace-hopper välissä oleva linkki ei tuo mitään etua verrattuna nvidian a100-x86 cpu tai h100-x86 ratkaisuissa käytettyyn pcie väyläpohjaiseen toteutukseen? Vai ymmärränkö väärin sun kirjoituksen?

Mä myönsin jo käyttäneeni väärää termiä. Yritetään päästä siitä yli ja keskittyä siihen mitä uutta grace-hopper välissä oleva väylä tarjoaa tai ei tarjoa. Väylän nopeuskin on erittäin merkittävää, kun mietitään joustavaa HPC/tieteellistä laskentaa missä kuormaa jaetaan erinäisistä syistä cpu:n ja gpu:n välillä. GPU:lle nopea pääsy myös cpu:n isompaan keskusmuistiin voi olla erittäin merkittävä asia, jos datasetit ovat isompia kuin mitä gpu:n muistiin mahtuu.
 
Eli sun mielestä tuo grace-hopper välissä oleva linkki ei tuo mitään etua verrattuna nvidian a100-x86 cpu tai h100-x86 ratkaisuissa käytettyyn pcie väyläpohjaiseen toteutukseen? Vai ymmärränkö väärin sun kirjoituksen?
Ymmärrät väärin. Etua PCIe verrattuna tietenkin löytyy, mutta se ei tee tästä mitenkään uutta tai mullistavaa eikä edes ensimmäistä tapausta, jossa NVLinkiä käytetään näin. Viimeksi se tapahtui Power9 tai 10 prossujen kanssa, en nyt tähän hätään muista kumman ja olivat erillisillä piirilevyillä, mutta NVLinkin vanhempi versio se silti oli.
Mä myönsin jo käyttäneeni väärää termiä. Yritetään päästä siitä yli ja keskittyä siihen mitä uutta grace-hopper välissä oleva väylä tarjoaa tai ei tarjoa. Väylän nopeuskin on erittäin merkittävää, kun mietitään joustavaa HPC/tieteellistä laskentaa missä kuormaa jaetaan erinäisistä syistä cpu:n ja gpu:n välillä. GPU:lle nopea pääsy myös cpu:n isompaan keskusmuistiin voi olla erittäin merkittävä asia, jos datasetit ovat isompia kuin mitä gpu:n muistiin mahtuu.
Ilman muuta nopeus on merkittävää, samoin muistikoherentit väylät, mutta siinäkään ei ole mitään uutta tai mullistavaa (ainakin AMD:n Infinity Architecture/Fabric tarjoaa samaa ja nopeudet kasvaa käytännössä joka sukupolvi).
 
Ymmärrät väärin. Etua PCIe verrattuna tietenkin löytyy, mutta se ei tee tästä mitenkään uutta tai mullistavaa eikä edes ensimmäistä tapausta, jossa NVLinkiä käytetään näin. Viimeksi se tapahtui Power9 tai 10 prossujen kanssa, en nyt tähän hätään muista kumman ja olivat erillisillä piirilevyillä, mutta NVLinkin vanhempi versio se silti oli.

Ilman muuta nopeus on merkittävää, samoin muistikoherentit väylät, mutta siinäkään ei ole mitään uutta tai mullistavaa (ainakin AMD:n Infinity Architecture/Fabric tarjoaa samaa ja nopeudet kasvaa käytännössä joka sukupolvi).

En ole yrittänytkään väittää mitään konkreettista mullistavasta tai jos olen niin suora lainaus olisi kiva? Me taidetaan puhua ihan eri aiheista ja asioista ja sen takia ei ymmärretä puolin tai toisin toisiamme.

Joskus ei keksitä uutta vaan tehdään parempi toteutus olemassaolevista legoista. Lopputulos voi mahdollistaa jotain mikä ei edellisellä tuotteella olisi toiminut reaalimaailmassa järkevästi. Esimerkkinä vaikka isomman datasetin käyttäminen, joka avaa uusia mahdollisuuksia tai joustavampi työnjakaminen cpu/gpu välillä joka voi mahdollistaa esimerkisi paljon paremman suorituskyvyn tai uuden algoritmin. Syvät neuroverkot ovat radikaali esimerkki ideasta minkä toteuttaminen reaalimaailmaan kesti kymmeniä vuosia, koska tarvittavia laskentaresursseja ei ollut olemassa.

Toki turing-vahva ohjelmointikieli/kone voi laskea kaiken mahdollisen kunhan muistia on tarjolla. Oikea täyte on siinä mikä on reaalimaailman suorituskyky.
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
257 517
Viestejä
4 475 360
Jäsenet
73 945
Uusin jäsen
JsKK

Hinta.fi

Back
Ylös Bottom