AMD: Zen 2:n DKERN +RSA IPC jopa 29 % korkeampi kuin Zen 1:n

  • Keskustelun aloittaja Keskustelun aloittaja Kaotik
  • Aloitettu Aloitettu

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 741
Monelta taholta meni huomaamatta AMD:n alkuperäiseen Zen 2 -lehdistötiedotteeseen piilotettu yksityiskohta arkkitehtuurin suorituskyvystä.
Lopulta ainakin Expreviewin huomaama yksityiskohta lupaa hyvää arkkitehtuurin IPC:lle, vaikka kyse on luonnollisesti vain yhdestä testirutiinista.
AMD:n mukaan kokonais- ja liukulukusuorituskykyä mittaavilla DKERN +RSA -testeillä Zen 2 -arkkitehtuurin IPC olisi 4,53, kun alkuperäisen Zenin kohdalla luku oli 3,5. Tämä tarkoittaisi peräti 29 % parempaa suorituskykyä kellojaksoa kohden. DKERN +RSA -testit perustuvat kryptografiaan liittyviin tehtäviin. Ainakin osa erosta selittynee pelkästään 256-bittisiksi kasvaneilla liulukuyksiköillä.

Lähteet: AMD Takes High-Performance Datacenter Computing to the Next Horizon | AMD, 7nm的Zen 2架构IPC性能原来提升了29%?AMD早就公布出来了 - 超能网
 
4.53 on aivan järkyttävän suuri IPC. Usein tosimaailman ohjelmilla on hyvä jos päästään edes vähän reiluun puoleen "teoreettisesta".

Zenin käskydekooderikin dekoodaa vain 4 käskyä kellojaksossa, tosin micro-op-välimuistista päästään kuuteen.

Eli joko micro-op-välimuisti on näillä koodeilla aika kovalla käytöllä, tai zen2 on leventänyt käskydekooderia. (veikkaan ensimmäistä).

Välimuistihuteja ei näillä koodeilla taida juuri tulla.
 
4.53 on aivan järkyttävän suuri IPC. Usein tosimaailman ohjelmilla on hyvä jos päästään edes vähän reiluun puoleen "teoreettisesta".

Zenin käskydekooderikin dekoodaa vain 4 käskyä kellojaksossa, tosin micro-op-välimuistista päästään kuuteen.

Eli joko micro-op-välimuisti on näillä koodeilla aika kovalla käytöllä, tai zen2 on leventänyt käskydekooderia. (veikkaan ensimmäistä).

Välimuistihuteja ei näillä koodeilla taida juuri tulla.

Osaatko kertoa, miten tällainen muutos vaikuttaa ns arkisiin ohjelmiin (pelit, hyötyohjelmat yms)? Minulla on sellainen olettamus että tuo tilanteessa X nähty IPC parannus ei siirry sellaisenaan em arkipäivisiin ohjelmiin. Lisäksi kellotaajuudet ovat vielä suuri kysymysmerkki. Itse veikkaan että kellotaajuuksia nostetaan hieman ylöspäin että uudemmat tuotteet näyttävät paljon paremmilta kuin aiemmat. Toivottavasti ei kuitenkaan energiatehokkuuden kustannuksella
 
"As we demonstrated at our Next Horizon event last week, our next-generation AMD EPYC server processor based on the new “Zen 2” core delivers significant performance improvements as a result of both architectural advances and 7nm process technology. Some news media interpreted a “Zen 2” comment in the press release footnotes to be a specific IPC uplift claim. The data in the footnote represented the performance improvement in a microbenchmark for a specific financial services workload which benefits from both integer and floating point performance improvements and is not intended to quantify the IPC increase a user should expect to see across a wide range of applications. We will provide additional details on “Zen 2” IPC improvements, and more importantly how the combination of our next-generation architecture and advanced 7nm process technology deliver more performance per socket, when the products launch."

AMD claims Zen 2 has 29% higher IPC than Zen 1 in certain workloads
 
"As we demonstrated at our Next Horizon event last week, our next-generation AMD EPYC server processor based on the new “Zen 2” core delivers significant performance improvements as a result of both architectural advances and 7nm process technology. Some news media interpreted a “Zen 2” comment in the press release footnotes to be a specific IPC uplift claim. The data in the footnote represented the performance improvement in a microbenchmark for a specific financial services workload which benefits from both integer and floating point performance improvements and is not intended to quantify the IPC increase a user should expect to see across a wide range of applications. We will provide additional details on “Zen 2” IPC improvements, and more importantly how the combination of our next-generation architecture and advanced 7nm process technology deliver more performance per socket, when the products launch."

AMD claims Zen 2 has 29% higher IPC than Zen 1 in certain workloads
Nyt on ihan pakko ihmetellä että mikä tämän pointti oli? Johan se ihan meidänkin uutisessa sanotaan että kyse on vain yhdestä kryptografiaan liittyviä tehtäviä testaavasta testirutiinista
 
Osaatko kertoa, miten tällainen muutos vaikuttaa ns arkisiin ohjelmiin (pelit, hyötyohjelmat yms)? Minulla on sellainen olettamus että tuo tilanteessa X nähty IPC parannus ei siirry sellaisenaan em arkipäivisiin ohjelmiin. Lisäksi kellotaajuudet ovat vielä suuri kysymysmerkki. Itse veikkaan että kellotaajuuksia nostetaan hieman ylöspäin että uudemmat tuotteet näyttävät paljon paremmilta kuin aiemmat. Toivottavasti ei kuitenkaan energiatehokkuuden kustannuksella
Huhujahan oli että "tieteellisessä laskennassa" keskimäärin 13% parempi, mutta perusohjelmissa ja peleissä alle sen. Eli peleissä tuskin edes 10% parempaa ipc:tä vs. zen1. Tarkkoja arvoja sitten kun tuotteet julkaistaan.
 
Huhujahan oli että "tieteellisessä laskennassa" keskimäärin 13% parempi, mutta perusohjelmissa ja peleissä alle sen. Eli peleissä tuskin edes 10% parempaa ipc:tä vs. zen1. Tarkkoja arvoja sitten kun tuotteet julkaistaan.

Se 13% oli keskiarvo jostain epämääräisestä testisetistä jonka joku oli päässyt ajamaan. Sisälsi kai vähän erityyppisiä ohjelmia, ei pelkästään eikä tieteellistä laskentaa, mutta ilmeisesti ei sisältänyt pelejä. Joten aika lähellä keskimääräistä yleistä pitäisi tuo kuvata.

Tieteellisessä laskennassa eron pitäisi olla kyllä selvästi suurempi johtuen SIMD-yksiköiden leventämisestä.
 
Se 13% oli keskiarvo jostain epämääräisestä testisetistä jonka joku oli päässyt ajamaan. Sisälsi kai vähän erityyppisiä ohjelmia, ei pelkästään eikä tieteellistä laskentaa, mutta ilmeisesti ei sisältänyt pelejä. Joten aika lähellä keskimääräistä yleistä pitäisi tuo kuvata.

Tieteellisessä laskennassa eron pitäisi olla kyllä selvästi suurempi johtuen SIMD-yksiköiden leventämisestä.
Epämääräisiä tuloksia yhtä kaikki. Katsotaan sitten kun oikeita tuloksia oikeilla tuotteilla. :)
 
Kuoluttakaa tyhmempää nyt kun tuo ZEN 2:n levennetty SIMD on niin kova JUTTU, niin kertokaa mulle missä siitä täyden leveyden AVX2:sta on hyötyä? Tai siis kuinka paljon?

Olen yrittänyt löytää testejä peleistä missä siitä on merkittävää hyötyä, mutta en vaan löydä. Ainoastaan jotain linpak testejä löytyy missä myös näkyy merkittävä nopeusetu, mutta ihan vaan pelkkä rendaus ja video enkoodaus ei näytä hyötyvän läheskään niin mittavasti kuin annetaan ymmärtää. Ja aina noistakin ohjelmista joku tulee sanoon jotain tyyliin, että ei se vielä kunnolla tuo xyz ominaisuutta jolloin annetaan ymmärtää että vielä olis parantamisen mahdollisuutta AVX2:lla mutta koskaan ei valmista.
 
Kuoluttakaa tyhmempää nyt kun tuo ZEN 2:n levennetty SIMD on niin kova JUTTU, niin kertokaa mulle missä siitä täyden leveyden AVX2:sta on hyötyä? Tai siis kuinka paljon?

Olen yrittänyt löytää testejä peleistä missä siitä on merkittävää hyötyä, mutta en vaan löydä. Ainoastaan jotain linpak testejä löytyy missä myös näkyy merkittävä nopeusetu, mutta ihan vaan pelkkä rendaus ja video enkoodaus ei näytä hyötyvän läheskään niin mittavasti kuin annetaan ymmärtää. Ja aina noistakin ohjelmista joku tulee sanoon jotain tyyliin, että ei se vielä kunnolla tuo xyz ominaisuutta jolloin annetaan ymmärtää että vielä olis parantamisen mahdollisuutta AVX2:lla mutta koskaan ei valmista.
Sen kummemmin asiaan perehtymättä, tuo AVX on yleisesti liukulukulaskentaa, joka on verrattain raskasta, mutta tehokasta. Markkinoille hyötysovelluksiin tuota ei varmaan hirveästi yritetä survoa juurikin sen takia, että ko. operointi vaatii tehoa melko paljon ja tukea ei välttämättä löydy työkoneista. Kovassa laskennassahan AVX 512 on ilmeisesti melko ylivoimainen, mutta taitaa olla kovin käyttö jossain tieteellisen laskennan puolella toistaiseksi.
 
Sen kummemmin asiaan perehtymättä, tuo AVX on yleisesti liukulukulaskentaa, joka on verrattain raskasta, mutta tehokasta. Markkinoille hyötysovelluksiin tuota ei varmaan hirveästi yritetä survoa juurikin sen takia, että ko. operointi vaatii tehoa melko paljon ja tukea ei välttämättä löydy työkoneista. Kovassa laskennassahan AVX 512 on ilmeisesti melko ylivoimainen, mutta taitaa olla kovin käyttö jossain tieteellisen laskennan puolella toistaiseksi.
Intel on päättänyt tuoda AVX512 tukea laajempaan käyttöön 10nm-prosessin myötä, jos intelin sivun tiedot ainoasta 10nm-kivestä pitää paikkaansa Intel® Core™ i3-8121U Processor (4M Cache, up to 3.20 GHz) Product Specifications
 
Sen kummemmin asiaan perehtymättä, tuo AVX on yleisesti liukulukulaskentaa, joka on verrattain raskasta, mutta tehokasta.
Markkinoille hyötysovelluksiin tuota ei varmaan hirveästi yritetä survoa juurikin sen takia, että ko. operointi vaatii tehoa melko paljon ja tukea ei välttämättä löydy työkoneista.

Ensinnäkin, AVX2 tukee myös 256-bittisillä kokonaislukuvektoreilla laskemista; Vaikka softa ei tekisi mitään liukuluvuilla, se voi hyötyä AVX2sta huomattavasti.

Toisekseen, ajattelet asiaa täysin väärinpäin.

Ohjelmakoodin pitää toteuttaa joko algoritmi, jotta ohjelma tekee sen mitä sen halutaan tekevän.

Ja se algoritmi pitää toteuttaa laskien jollain lukutyypillä, jotta tarkkuus on riittävä.

Jos lasketaan jotain järeätä fysiikkasimulaatiota, pitää käyttää kaksoistarkkuuden(64b = 52b+11b+S) liukulukuja(double) että tarkkuus riittää. Jos lasketaan pelin 3d-geometriaa, tai käsitellään ääntä tai kuvaa, yksöistarkkuuden liukuluku (32b = 23b+8b+S) yleensä riittää. Ja kuvankäsittelyyn voi usein riittää jopa puolen tarkkuuden liukuluvut(16b = 10b+5b+S). Jos taas käsitellään indeksejä ja osoitteita, pitää käyttää kokonaislukua jne.


x87, AVX ja SSE on sitten työkaluja joita käyttäen saadaan laskettua se, mitä ohjelman täytyy laskea. Ei siten että "jos AVX otetaan käyttöön niin ohjelman laskentamäärä kasvaa".


Jos ohjelman pitää suorittaa 100 miljardia liukulukuoperaatiota siihen itse laskentaan kuluu joka tapauksessa joku määrä sähköä riippumatta siitä, lasketaanko se x87lla(yksi operaatio/käsky), SSEllä(4 operaatiota/käsky, AVXllä(8 operaatiota/käsky) vai AVX-512lla (16 operaatiota/käsky.

Leveämmillä vektoreilla se laskenta vaan saadaan tehtyä nopeammin. Mutta, jotta niitä voidaan käyttää, laskennan pitää tapahtua (lähde)koodissa tarpeeksi "järjestelmälliselllä" tavalla. Jos koodi laskee asioita liian "sekaisessa järjestyksessä", sitä ei voida vektoroida, tai kääntäjä ei sitä osaa vektoroida, eikä näistä hyödytä.


Mutta, mutta leveämpi vektorikäskykanta on käytössä, sitä vähemmän sitä sähköä kuluu kokonaisuudessaan samaan määrään laskentaa, koska käskyjen hakemiseen, dekoodaamiseen ja niiden skedulointiin ja kirjanpitoon prosessorin liukuhihnalla kuluu tällöin vähemmän sähköä. Leveämmän vektorit ovat siis energiatehokkaampia kuin ei vektoreita tai kapeammat vektorit.

Ja tätä leveiden vektorien energiansäästöä vielä lisää se, että kun leveämmillä vektoreilla suorituskyky on parempi, samaan suorituskykyyn pääsemiseksi voidaan prosessori kellottaa matalammalle kellotaajuudelle ja ajaa sitä pienemällä jännitteellä. (tai kelloa ja jännitettä voidaan pudottaa hiukan, ja saada sekä skaalariversiota tai kapeaa vektoria parempi suorituskyky ETTÄ selvästi pienempi energiankulutus)


Kovassa laskennassahan AVX 512 on ilmeisesti melko ylivoimainen, mutta taitaa olla kovin käyttö jossain tieteellisen laskennan puolella toistaiseksi.

Melkein mikä tahansa kuvan- tai videonkäsittely tai pelien 3d-kordinaattien pyörittely olisi juuri sellaista laskentaa, missä AVX-512sta saataisiin todella suuri hyöty, jos sitä käytettäisiin.

Mutta tällä hetkellä vielä ei AVX-512sta käytetä, koska markkinoilla ei ole yhtään AVX-512aa tukevia kuluttajaprosessoreita. Ei kun siis, on tasan yksi malli, 2-ytiminen halpa cannon lake-i3-8121U joka käy melko matalilla kelloilla ja jota ei valmisteta kovin suuria määriä.



Ja edes AVXää ei kovin monessa pelissä hyödynnetä, koska pelien halutaan toimivan myös vanhemmilla prosessoreilla, jotka eivät AVXää tue (nehalem, phenom), ja olisi ylimääräistä vaivaa lisätä koodiin erilliset polut vanhoille ja uusille prosessoreille, ja kun pelin optimointien päätarkoitus on kuitenkin että peli pyörisi siedettävästi mahdollisimman vanhalla ja hitaalla raudalla, ja pelin optimoiminen käyttämään uusia käskykantoja ei tätä tavoitetta tue. Ja vaikka esim. zen1 ja bulldozer tukevat AVXää, ne eivät hyödy siitä, joten jos peliä on niillä rajoilla että pyöriikö se bulldozerilla siedettävästi vai ei, ja peliä halutaan optimoida jotta se toimisi bulldozerilla siedettävästi, AVX ei tätä ongelmaa ratkaise, vaan pelistä pitää optimoida aivan muita juttuja.
 
Viimeksi muokattu:
Ensinnäkin, AVX2 tukee myös 256-bittisillä kokonaislukuvektoreilla laskemista; Vaikka softa ei tekisi mitään liukuluvuilla, se voi hyötyä AVX2sta huomattavasti.

Toisekseen, ajattelet asiaa täysin väärinpäin.

Ohjelmakoodin pitää toteuttaa joko algoritmi, jotta ohjelma tekee sen mitä sen halutaan tekevän.

Ja se algoritmi pitää toteuttaa laskien jollain lukutyypillä, jotta tarkkuus on riittävä.

Artikuloin ehkä viestini hieman huonosti. Softatasolla ymmärrän kyllä perusalgoritmien toiminnan sekä niiden merkityksellisyyden. Ainut mistä en tiedä on itse AVX, sen käyttö ja mitä ko. termi pitää sisällään.

Jos lasketaan jotain järeätä fysiikkasimulaatiota, pitää käyttää kaksoistarkkuuden(64b = 52b+11b+S) liukulukuja(double) että tarkkuus riittää. Jos lasketaan pelin 3d-geometriaa, tai käsitellään ääntä tai kuvaa, yksöistarkkuuden liukuluku (32b = 23b+8b+S) yleensä riittää. Ja kuvankäsittelyyn voi usein riittää jopa puolen tarkkuuden liukuluvut(16b = 10b+5b+S). Jos taas käsitellään indeksejä ja osoitteita, pitää käyttää kokonaislukua jne.
Tämä avasikin asiaa itsellenikin.

x87, AVX ja SSE on sitten työkaluja joita käyttäen saadaan laskettua se, mitä ohjelman täytyy laskea. Ei siten että "jos AVX otetaan käyttöön niin ohjelman laskentamäärä kasvaa".
Tämänkin tiesin etukäteen. Kuten jo totesin en tiedä miten tuota tarkalleen käytetään ja missä tilanteissa sitä kannattaa käyttää.
Jos ohjelman pitää suorittaa 100 miljardia liukulukuoperaatiota siihen itse laskentaan kuluu joka tapauksessa joku määrä sähköä riippumatta siitä, lasketaanko se x87lla(yksi operaatio/käsky), SSEllä(4 operaatiota/käsky, AVXllä(8 operaatiota/käsky) vai AVX-512lla (16 operaatiota/käsky.

Leveämmillä vektoreilla se laskenta vaan saadaan tehtyä nopeammin. Mutta, jotta niitä voidaan käyttää, laskennan pitää tapahtua (lähde)koodissa tarpeeksi "järjestelmälliselllä" tavalla. Jos koodi laskee asioita liian "sekaisessa järjestyksessä", sitä ei voida vektoroida, tai kääntäjä ei sitä osaa vektoroida, eikä näistä hyödytä.


Mutta, mutta leveämpi vektorikäskykanta on käytössä, sitä vähemmän sitä sähköä kuluu kokonaisuudessaan samaan määrään laskentaa, koska käskyjen hakemiseen, dekoodaamiseen ja niiden skedulointiin ja kirjanpitoon prosessorin liukuhihnalla kuluu tällöin vähemmän sähköä. Leveämmän vektorit ovat siis energiatehokkaampia kuin ei vektoreita tai kapeammat vektorit.

Ja tätä leveiden vektorien energiansäästöä vielä lisää se, että kun leveämmillä vektoreilla suorituskyky on parempi, samaan suorituskykyyn pääsemiseksi voidaan prosessori kellottaa matalammalle kellotaajuudelle ja ajaa sitä pienemällä jännitteellä. (tai kelloa ja jännitettä voidaan pudottaa hiukan, ja saada sekä skaalariversiota tai kapeaa vektoria parempi suorituskyky ETTÄ selvästi pienempi energiankulutus)


Melkein mikä tahansa kuvan- tai videonkäsittely tai pelien 3d-kordinaattien pyörittely olisi juuri sellaista laskentaa, missä AVX-512sta saataisiin todella suuri hyöty, jos sitä käytettäisiin.

Mutta tällä hetkellä vielä ei AVX-512sta käytetä, koska markkinoilla ei ole yhtään AVX-512aa tukevia kuluttajaprosessoreita. Ei kun siis, on tasan yksi malli, 2-ytiminen halpa cannon lake-i3-8121U joka käy melko matalilla kelloilla ja jota ei valmisteta kovin suuria määriä.
Tuon "huonon" vektoroinnin osalta taitaa olla myös syynä se, että koodareille se on verrattain työlästä eikä sillä saada firmalle tarpeeksi katetta *. Tilanne olisi toki toinen, jos vain kysyntää olisi markkinoilla enemmänkin.


*Viittaan esimerkkinä kuvankäsittelysovelluksiin ym.


Ja edes AVXää ei kovin monessa pelissä hyödynnetä, koska pelien halutaan toimivan myös vanhemmilla prosessoreilla, jotka eivät AVXää tue (nehalem, phenom), ja olisi ylimääräistä vaivaa lisätä koodiin erilliset polut vanhoille ja uusille prosessoreille, ja kun pelin optimointien päätarkoitus on kuitenkin että peli pyörisi siedettävästi mahdollisimman vanhalla ja hitaalla raudalla, ja pelin optimoiminen käyttämään uusia käskykantoja ei tätä tavoitetta tue. Ja vaikka esim. zen1 ja bulldozer tukevat AVXää, ne eivät hyödy siitä, joten jos peliä on niillä rajoilla että pyöriikö se bulldozerilla siedettävästi vai ei, ja peliä halutaan optimoida jotta se toimisi bulldozerilla siedettävästi, AVX ei tätä ongelmaa ratkaise, vaan pelistä pitää optimoida aivan muita juttuja.

Tästä tulikin mieleeni: Toimiiko tuo AVX offset siis sillä periaatteella, että prosessori tarkkailee siis tuota vektorikäskykantojen määrää, leveyttä ja liukuluvun pituutta ja alentaa kellotaajuutta sen mukaan? Osassa peleistähän (mm. BF1) kellotaajuus seilaa monesti tuon offsetin ja maksimikellotaajuuden väliä, joten millä tavoin tuo aktivoituu.


Tämä keskustelu toki menee alkuperäisen aiheen kanssa ristiin, mutta jospa tästä olisi joku muukin oppisi kuin pelkästään minä.
 
Tästä tulikin mieleeni: Toimiiko tuo AVX offset siis sillä periaatteella, että prosessori tarkkailee siis tuota vektorikäskykantojen määrää, leveyttä ja liukuluvun pituutta ja alentaa kellotaajuutta sen mukaan? Osassa peleistähän (mm. BF1) kellotaajuus seilaa monesti tuon offsetin ja maksimikellotaajuuden väliä, joten millä tavoin tuo aktivoituu.

Ilmeisti noin. Yksi toteutus AVX2 prosessoreilla on seuraava: normaalisti käytössä on (virransäästön nimissä) AVX-rekistereistä ja suoritusyksiköistä vain puolet päällä, eli 128-bittiä. Kun tulee 256-bittinen AVX käsky, toinen puoli AVX-rekistereistä ja suoritusyksiköistä laitetaan päälle. Tässä yksiköiden ja rekisterien laittamisessa päälle kestää prosessorista riippuen enemmän tai vähemmän aikaa, ilmeisesti kellotaajuus laskee samalla kun yksiköt ovat täydellä teholla. Sitä ennen 256-bit AVX käskyt "kierrätetään" 128-bittisinä koska 256-bit "kone" ei ole käynnissä.

Jossakin vaiheessa (ei 256-bit AVX käskyjä tarpeeksi pitkään aikaan) palataan normaaliin. Yksiköt ja rekisterit pois päältä, kellotaajuus takaisin ei-AVX kelloihin.

AVX-512:a tukevien prosessorien käytännöstä en tiedä.
 
Ja edes AVXää ei kovin monessa pelissä hyödynnetä, koska pelien halutaan toimivan myös vanhemmilla prosessoreilla, jotka eivät AVXää tue (nehalem, phenom), ja olisi ylimääräistä vaivaa lisätä koodiin erilliset polut vanhoille ja uusille prosessoreille, ja kun pelin optimointien päätarkoitus on kuitenkin että peli pyörisi siedettävästi mahdollisimman vanhalla ja hitaalla raudalla, ja pelin optimoiminen käyttämään uusia käskykantoja ei tätä tavoitetta tue. Ja vaikka esim. zen1 ja bulldozer tukevat AVXää, ne eivät hyödy siitä, joten jos peliä on niillä rajoilla että pyöriikö se bulldozerilla siedettävästi vai ei, ja peliä halutaan optimoida jotta se toimisi bulldozerilla siedettävästi, AVX ei tätä ongelmaa ratkaise, vaan pelistä pitää optimoida aivan muita juttuja.

No Intel jostain syystä segmentoi prosessorinsa niin että AVX-tuki alkaa I3:sta uusillakin prosessoreilla. Eli uusista prosessoreista AMD:n kivet ja Intelit I3:sta ylöspäin tukevat AVX:ää, varmaan puolet Intelin myymistä prosessoreista ei ko. käskykantaa tue vieläkään.
 

Statistiikka

Viestiketjuista
264 123
Viestejä
4 572 195
Jäsenet
75 382
Uusin jäsen
Pn2025

Hinta.fi

Back
Ylös Bottom