Universaalia Prodigy-prosessoria kehittävä Tachyum lähtee supertietokonekilpaan

  • Keskustelun aloittaja Keskustelun aloittaja Kaotik
  • Aloitettu Aloitettu

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 747
Tachyum ilmoittaa jättäneensä oman tarjouksensa Yhdysvaltain energiaministeriölle eli DOE:lle, joka on aloittanut tarjouskilpailun uudesta supertietokoneesta.
Tachyumin tarjous perustuu sen omiin Prodigy-prosessoreihin pohjautuvaan supertietokoneeseen, joka tarjoaisi yhteensä 20 eksaFLOPSia suorituskykyä ja mahtuisi DOE:n asettamaan 20-60 megawatin kulutushaarukkaan.
DOE:n tavoitteena on saada supertietokone käyttöön jo vuonna 2025, mutta supertietokoneita haetaan laajemminkin vuosille 2025-2030.

Lähde: Tachyum Submits Bid for 20-Exaflop Supercomputer to U.S. Department of Energy Advanced Computing Ecosystems | Tachyum
 
Eikös tämä ollut se vitsiyhtiö, joka lupasi että heidän prossunsa ovat parempia, kuin AMD:n 64 ytimiset dual socet epycit?
 
Mikä tässä nyt ei täsmää?
20E15 FLOPS / 90E12 FLOPS/CPU = 222,2 CPU
223 * 950 W = 211 850 W = 0,2 MW

DOE haluaa 20 eksaflopsia laskentatehoa 20-60 MW kulutuksella. Yksi 128-ytiminen Prodigy tarjoaa 90 teraflopsia FP64-suorituskykyä-> tarvitaan 223 prosessoria. Tehonkulutus 950 Wattia per prosessori -> tehonkulutus yhteensä 0,2 megawattia.
Tehonkulutuksen pitäisi olla luokkaa 20-60 MW, joten mihin ne loput 19,8-59,8 megawattia menee? Onhan siellä muitakin komponentteja kuin pelkät prosessorit, mutta ei kai se supertietokoneen muu infra nyt noin isoa osaa tehobudjetista haukkaa? Enkä usko että prosessoreja pitää laittaa 100-kertainen määrä siihen niiden teoreettiseen suorituskykyyn nähden jotta päästään 20 eksaflopsin todelliseen suorituskykyyn.
Vaikka jäähdytys ja muut komponentit hörppäisi saman verran tehoa kuin itse prosessorit ja virtalähteiden hyötysuhde olisi 90% niin silti jäädään alle 0,5 megawattiin (0,212 MW * 2 / 0,9 = 0,47 MW).

Prodigyn suorituskyvyn pitäisi olla 1-2 sadasosaa siitä mitä Tachyum lupaa, jotta päästäisiin tuohon DOEn antamaan tehonkulutusbudjettiin.

Selittäkää tyhmälle :confused:
 
Mikä tässä nyt ei täsmää?
20E15 FLOPS / 90E12 FLOPS/CPU = 222,2 CPU
223 * 950 W = 211 850 W = 0,2 MW

En oo satavarma näin aikaisin aamusta, mutta menisikö näin:

90^12 / 20^15 ~= 8619 prosessoria
8619 * 950W = 8 188 112 W ~= 8 MW

Eli tarvittais n. 8600 prossua, jotka kuluttais n. 8 megawattia tehoa. Muut osat ja infra vois sit kuluttaa loput ~12-52 MW

Ja tietysti sillä oletuksella, minkä olit tehnyt, että tarkoitus olisi käyttää juuri tuota aiemmin hypetettyä prossua.
 
Millä perusteella lupaukset ovat epärealistisia?

Luvataan että sama ydin pärjäisi erinomaisesti sekä sarjallisessa koodissa että olisi myös energiatehokas hyvin rinnakkaistuvalla koodilla.

Ja ylipäätän se, että luvataan, että olisi hyvä sarjallinen suorituskyky ilman käskyjen uudelleenjärjestelyä.

Lisäksi noiden hype esim. siitä että "sillä voidaan ajaa mitä tahansa käskykantaa" perustuu ihan vaan binäärikäännökseen qemulla.
Ja binäärikäännöksessä on omat ongelmansa(osa suoria suorituskykyongelmia, osa taas toiminnallisia ongelmia joiden ratkaiseminen käytännössä syö suorituskykyä lisää). Vähän tuntuisi siltä, että tuon kehittäjät ovat kuvitelleet että binäärikäännös on joku silver bullet perehtymättä sen ongelmiin, siinä missä Apple on taas lisännyt prossuihinsa ylimääräisiä ominaisuuksia juuri näiden ongelmien ratkomiseksi/helpottamiseksi (tosiasiassahan ainoa silver bullet mitkä tietokonearkkitehtuureissa on on se speculative suoritus+käskyjen uudelleenjärjestely-kombo mikä tuosta nimenomaan puuttuu)

Lisäksi noiden lupaamat kellotaajuudet ovat epärealistisia arkkitehtuuri huomioonottaen. Tuossa on seitsemän kellojakson haarautumishutiviive, kun esim. reilulle kolmelle GHz:lle suunnitellussa Neoverse N1:ssä se on 9-11 kellojaksoa, tosin OoOE lisää pari liukuhihnaavihetta N1lle joten käytännössä tuon perusteella liukuhihnavaiheet voi olettaa aika lailla yhtä pitkiksi.

Joku muu kirjoitellut aika hyvän kirjoituksen tuosta:

 
Viimeksi muokattu:
Mikä tässä nyt ei täsmää?
20E15 FLOPS / 90E12 FLOPS/CPU = 222,2 CPU
223 * 950 W = 211 850 W = 0,2 MW

DOE haluaa 20 eksaflopsia laskentatehoa 20-60 MW kulutuksella. Yksi 128-ytiminen Prodigy tarjoaa 90 teraflopsia FP64-suorituskykyä-> tarvitaan 223 prosessoria. Tehonkulutus 950 Wattia per prosessori

Mistä tämä luku "950 wattia per prosessori" on peräisin?

Itse en tuollaista lukua mistään löydä.
 
En oo satavarma näin aikaisin aamusta, mutta menisikö näin:

90^12 / 20^15 ~= 8619 prosessoria
8619 * 950W = 8 188 112 W ~= 8 MW

Eli tarvittais n. 8600 prossua, jotka kuluttais n. 8 megawattia tehoa. Muut osat ja infra vois sit kuluttaa loput ~12-52 MW

Ja tietysti sillä oletuksella, minkä olit tehnyt, että tarkoitus olisi käyttää juuri tuota aiemmin hypetettyä prossua.

Ei mene. Tuossa sun laskukaavassa ei ole päätä eikä häntää. 90^12 on täysin eri asia kuin 90E12, eikä ensinmainitulla ole mitään tekemistä 90 teraflopin kanssa. Sama pätee noihin vaadittuihin eksafloppeihin. Myös koko jakolasku on väärinpäin.

Mistä tämä luku "950 wattia per prosessori" on peräisin?

Itse en tuollaista lukua mistään löydä.

Tuolla linkatussa Tom's Hardware jutussa.

Jollekin Epycille oli listattuna luokkaa 3 Tflops ja 240W, ja noillakin luvuilla päästään vain 1-2 MW kulutuksiin. Niinpä itseänikin kiinnostaisi että mihin tuo annettu energiabudjetti oikein kuluisi...
 
Mikä tässä nyt ei täsmää?
20E15 FLOPS / 90E12 FLOPS/CPU = 222,2 CPU
223 * 950 W = 211 850 W = 0,2 MW

DOE haluaa 20 eksaflopsia laskentatehoa 20-60 MW kulutuksella. Yksi 128-ytiminen Prodigy tarjoaa 90 teraflopsia FP64-suorituskykyä-> tarvitaan 223 prosessoria. Tehonkulutus 950 Wattia per prosessori -> tehonkulutus yhteensä 0,2 megawattia.
Tehonkulutuksen pitäisi olla luokkaa 20-60 MW, joten mihin ne loput 19,8-59,8 megawattia menee? Onhan siellä muitakin komponentteja kuin pelkät prosessorit, mutta ei kai se supertietokoneen muu infra nyt noin isoa osaa tehobudjetista haukkaa? Enkä usko että prosessoreja pitää laittaa 100-kertainen määrä siihen niiden teoreettiseen suorituskykyyn nähden jotta päästään 20 eksaflopsin todelliseen suorituskykyyn.
Vaikka jäähdytys ja muut komponentit hörppäisi saman verran tehoa kuin itse prosessorit ja virtalähteiden hyötysuhde olisi 90% niin silti jäädään alle 0,5 megawattiin (0,212 MW * 2 / 0,9 = 0,47 MW).

Prodigyn suorituskyvyn pitäisi olla 1-2 sadasosaa siitä mitä Tachyum lupaa, jotta päästäisiin tuohon DOEn antamaan tehonkulutusbudjettiin.

Selittäkää tyhmälle :confused:

Eksa on 1E18, 1E15 on peta. Tosin sitten taas kulutuksen pitäisi olla 200 MW luokkaa, mikä on paljon yli tavoitteen. Mahdollisena selityksenä Tom's Hardware spekuloi, että supertietokoneessa saatettaisiin käyttää seuraavan sukupolven Prodigy-prosessoria.
 
Eksa on 1E18, 1E15 on peta. ...
Ei näköjään pitäisi koittaa laskeskella asioita yhden aikaan yöllä kun edellisenä yönä on saanut nukuttua pari tuntia... :facepalm:
Noh mielenkiintoista keskustelua viesti taisi herättää kuitenkin.
 
hkultala sanoi:
Mistä tämä luku "950 wattia per prosessori" on peräisin?

Tuolla linkatussa Tom's Hardware jutussa.

Kiitos.

Mutta kun kyse on hyvin rinnakkaistuvista workloadeista, kannnattaa ottaa se energiatehokkain malli tuolta, eli 4.5 GHz @300W

Tosin itse tosiaan suhtaudun hyvin epäilevästi noihin lukuihin.

Vähän kommenteja tompan artikkelista vielä

tomshardware.com sanoi:
He also re-emphasized that the Prodigy instruction set architecture can achieve a very high instruction level parallelism with software using so-called poison bits.

"very high" in-order-prossulle. Silti vain lähestyy sitä mihin OoOE (käskyjen uudelleenjärjestely) pystyy, tietyissä tilanteissa joissa tuo mekanismi toimii. Ja niissä tilanteissa, missä tuo mekanismi ei toimi, OoOE kiertää kehää tuon ympärillä.

These cores run native code written and explicitly optimized for Prodigy (where VLIW architecture promises to shine)

Tähän asti vaan VLIW on aina sukannut CPU-käytössä, ollut ihan ok/hyvä signaalinkäpistelyssä. Lähimmäs käyttökelpoista on päässyt joku nVidian Denver. Ja nVidialla on ehkä tämän planeetan paras kääntäjätiimi.

as well as x86, Arm, and RISC-V binaries using software emulation and without performance degradation, according to the company.

Pelkkä binäärikäännös ei tähän riitä. Jos halutaan ajaa myös multisäikeistettyä softaa, niin hyvän suorituskyvyn saavuttamiseksi pitäisi käytännössä olla tuettuna vähintään yhtä tiukka konsistenttiusmalli kuin mitä kaikissa emuloitavissa arkkitehtuureissa (Applen macox Xää ajavissa ARMeissa on toimintamoodi jossa muistin konsistenttiusmalli on sama kuin x86ssa) jotta ei tarvi lisätä suurta määrää synkronointikäskyjä tietyissä tilanteissa.

Ja lisäksi pitää olla tuettuna sama virtuaalimuistin sivukoko jotta joku mmap()yms. jutut toimii (tässä Apple ottaa hiukan x86 emuloinnissa takkiin koska 4 kiB sivukoko on Applella kyllä tuettuna yhtensopivuussyistä mutta "toisen luokan kansalaisena" huonommalla suorituskyvyllä).

Ja jos se vuoden 1985 80386sta peräisin oleva 4kiB virtuaalimuistin sivukoko taas on "ensimmäisen luokan kansalainen" Prodigyssa aivan kuten moderneissa x86-64ssa, se laittaa rajoitteita L1D-välimuistille. (oleellinen syy, miksi AMDn ja Intelin L1D-kakut on paljon pienempiä kuin Applen)

Mutta pikaisesti en löytänyt dataa siitä, millainen tuon prodigyn muistin konsistenttiusmalli on ja millaisia virtuaalimuistisivukokoja se tukee.

The head of Tachyum admits that Qemu binary translation degrades performance by 30% to 40% (without disclosing any baselines) but hopes that real-world performance will still be high enough to be competitive. Meanwhile, some programs are already supported natively.

Oletan, että tämä pätee yhdellä säikeellä kun muistin konsistenttiudesta ei tarvi piitata. Sitten kun mennään moneen säikeeseen tilanne voi olla selvästi pahempi.

Ja oletus että 4-leveä VLIW voisi jotenkin haastaa OoOE-prossuja jossa 4-6 käskyä leveä frontend ja luokkaa 8-10 käskyä leveä backend on aika optimistinen, kun käytännössä nyky-OoOE-prossut on sekä leveämpiä että lisäksi OoOE mahdollistaa vielä käytännössä paljon paremman utilisaation. Ja tosiaan Intelillä, Applella ja AMDllä on aika paljon paremmat haarautumisenennustukset prossuissaan.

Radoslav Danilak sanoi:
"We are a CPU replacement and not an AI accelerator company, we are targeting cloud/hyperscalers and telcos," said Danilak. "Over time we plan to win some supercomputer customers, so we doubled the width of the vector/MAC units from 512 bits to 1,024 bits [which also brings in necessary data paths for the 4,096-bit matrix operations for artificial intelligence]."

Siinä, että samalla sekä hypetetään 5.7 GHz kellotaajuuksia (jotka siis vaikuttaa melko epärealistisilta sen perusteella mitä tuosta arkkitehtuurista tiedetään) että levennetään SIMD 1024 bittiin ja targetoidaan HPC-workloadeja haiskahtaa melkoinen suuruudenhulluus. 1024-bittinen SIMD on järkevä jossain <3 GHz taajuuksilla pyörivässä rinnakkaiseen laskentaan erikoistuneessa prossussa (kuten Fujitsu A64FX) mutta 5.7 GHz taajuuksiin kykenevä liukuhihna(*) ja energiatehokas rinnakkaislaskenta ei vaan (vielä tällä vuosikymmenellä) millään mahdu samaan ytimeen. Mitä enemmän liukuhihnavaiheita, sitä enemmän liukuhihnarekistereitä joihin pitää jokaisen käskyn suorittamiseksi kirjoittaa tilapäisdataa. Ja sitten kirjoitusten tiheys myös kasvaa kellotaajuuden mukana. Käytännössä liukuhihnaa pidentämällä liukuhihnarekisterien tehonkulutus kasvaa n. toiseen potenssiin kun kellotaajuus ja sen mukana suorituskyky kasvaa vain ensimmäiseen potenssiin.

Käytännössä (esim. sen julkaistun 7 kellojakson haarautumishutiviiveen pohjalta) vaikuttaa siltä, että tuon liukuhihna on liian pitkä siihen että sillä saavutettaisiin erinomaista energiatehokkuutta järeässä SIMD-laskennassa, mutta silti suhtaudun hyvin skeptisesti siihen että sillä voitaisiin saavuttaa tuota luvattua 5.7 GHz kellotaajuutta - liukuhihna ei silti meinaa olla tarpeeksi pitkä tuollaisiin taajuuksiin ja kriittisten polkujen optimointi tuollaisiin kelloihin on vaan hyvin vaikeaa ja AMDn ja Intelin insinöörit ovat tehneet hyvin paljon työtä että ovat sinne 5 GHz luokkaan päässeet.

(*) Toki siis joskus 10 vuoden päästä kun valmistustekniikat on kehittyneet ja 5.7 GHz voi saavuttaa lyhyemmällä liukuhihnalla, niin että silloin yhdistelmässä 1024-bittinen SIMD ja 5.7 GHz kello voikin olla jo jotain järkeä.
 
Viimeksi muokattu:
Tämä kuulostaa jonkinlaiselta välimallilta rinnakkaislaskentakortista ja yleiskäyttöisestä suorittimesta. Luulis että HPC ja tietoliikenne kuormat olisivat lähempänä eräajosuoritusta kuin työpöytäkäyttöä. Vielä jos liukuhihnan rakenne on in-order niin ei kait tuossa ole niitä perinteisiä esteitä nopealle mutta lyhyelle liukuhihnalle? Kuulostaa konseptina myös siitä että Itaniumin pelikirjaa on käyty pyyhkimässä pölystä.
 
Tästä onkin tullut nyt aika paljon uutta tietoa, ja arkkitehtuuri on muuttunut merkittävästi tässä versioiden välillä, ja n. puolet edellisen viestini kritiikistä perustui vanhentuneeseen tietoon

Tachyum’s Revised Prodigy Architecture (huom: tuolla on virhe cache-subsystem-kuvassa, tavut ja bitit sekaisin tämän osalta, 1024 bittiä=128 tavua, ei 1024 tavua)

Eli tämä uusi versio ei olekaan enää VLIW vaan käskykanta on ihan yksittäisiin käskyihin perustuva ja tässä on jo jonkinlainen OoOE.

Ja virtuaalimuistisivut on 64 kiB - oikein hyvä yleisen suorituskyvyn kannalta natiivisoftilla, mutta hidastaa x86n emulointia systeemikoodilla selvästi.
Ja lisäksi tuolla tosiaan on applen ARMien tavoin toteutettu x86n emulointiin moodi jossa muistin konsistenttiussäännöt ovat tiukemmat.

Tosin edelleen suhtaudun hyvin skeptisesti siihen että tuolla voitaisiin oikeasti saavuttaa tuo hypetetty 5.7 GHz kellotaajuus.


Yleispäätelmät nyt yhdellä rivillä: Voi ollakin ihan pätevä tieteellisen laskennan prossu, mutta x86n/ARMin emulointi ei silti suju systeemikoodilla nopeasti. Ja 5.7 GHz kellot unelma joka ei tule toteutumaan.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
264 581
Viestejä
4 590 027
Jäsenet
75 453
Uusin jäsen
Kalakissa

Hinta.fi

Back
Ylös Bottom