AMD:n uusi Zen x86-arkkitehtuuri ja clock-to-clock-suorituskyky

  • Keskustelun aloittaja Keskustelun aloittaja Sampsa
  • Aloitettu Aloitettu
Kyllä tämä nyt kieltämättä alkaa näyttämään siltä, että Ryzen tulee kesällä. Nykyinen 2500K toimii hyvin, ei siinä mitään - mutta onhan tämä jo sen 7v vanha rossu. Itselläni ollut vuodesta 2011 lopusta, joten tutuksi on kaveri tullut. Nyt ajelen @ 4.2GHz ilmalla noprob. Säikeitä kaipaisin lisää, minä kun hukka-aikanani haluan lämmittää asuntoa, siispä ajan Seti@homea, Rosetta@homea, Enigma@homea ja sitä rataa - näitä vaan voisi ajaa montakin kappaletta useampia kerrallaan, jos säikeitä piisaisi.

Onko tuleva R5 vai R7, en tiedä. Mutta jos ei rahallisesti katastrofia jostakin syystä aiheudu, niin AMD on taas tervetullut tässä taloudessa. Edellisen kerran olikin Athlon XP2400+, minkä jälkeen ollaan Inteliä huudatettu - Pentium D 320:stä Core2Duo e6400:aan josta juoksuloikkaa i5 2500k:hon.
 
Vastaan itselleni käyttäen tämän artikkelin tuloksia.

Vertaan Piledriver 4GHz tuloksia Ryzen 4GHz tuloksiin kertomalla ensin mainitun pisteet 1.53 (eli +53%). Laskin myös pistekasvun todellisen prosentin.
Käytin vain single thread testejä/tuloksia, jottei SMT häiritse vertailua:

Cinebench R15 - Single thread:
Piledriver: 96 (x 1.53 = 147)
Ryzen tulos: 157 (+63.5%)

Geekbench 4 single thread:
Piledriver: 2709 (x 1.53 = 4145)
Ryzen tulos: 4363 (+61.1%)

7-Zip single thread:
Piledriver: 18844 (x 1.53 = 28831)
Ryzen tulos: 30452 (+61.6%)

GTA V:
Piledriver: 86,6 (x 1.53 = 132,5)
Ryzen tulos (SMT off): 137 (+58.2%)

=> kaikissa verratuissa tuloksissa IPC on parantunut yli 53% verrattuna Piledriveriin!

Edit:
AMD mainostikin +52% eikä +53%, en jaksa laskea uudelleen. :)

Vastaan vielä lisää vanhaan viestiini...

Tuolla mainitaan että Zen vs. Excavator ero olisi ollutkin +64% ja tuo +52% olisi ollut verrattuna Piledriveriin. Eli Sampsan tulokset hyvin lähellä "parasta". :hail...jne: :tup:
 
Osaatko valistaa tietämätöntä, että miksi L3-cachen nopeus paranee nopeampien muistien myötä? Ja voisiko olettaa nopeuslisäyksen peleissä johtuvan juuri cachen nopeutumisesta?
Ryzenissähän on iso osa prossun sisuksista lukittu muistipuolen nopeuteen. Tätä on oletettu jossain syypääksi muistituen ongelmiin.
 
Olisiko mahdollista saada myös vaikka parilla eri testiohjelmalla ajetut virrankulutusvertailut näihin clock to clock testeihin? Näkisi mikä on noin samanlaisessa tilanteessa eri kokoonpanojen kokonaiskulutus. Ihan vaan mielenkiinnosta.

Tuo eri kokoonpanojen sopivuus asunnonlämmitykseen rasituksessa mietityttää ja kertoisi myös paljon kellojen noston/laskun vaikutuksista.
 
Olisiko mahdollista saada myös vaikka parilla eri testiohjelmalla ajetut virrankulutusvertailut näihin clock to clock testeihin? Näkisi mikä on noin samanlaisessa tilanteessa eri kokoonpanojen kokonaiskulutus. Ihan vaan mielenkiinnosta.

Tuo eri kokoonpanojen sopivuus asunnonlämmitykseen rasituksessa mietityttää ja kertoisi myös paljon kellojen noston/laskun vaikutuksista.

Ne on näissä clock-to-clock-testeissä tehonkulutusmittaukset ovat vähän hankalia kun kerran prosessorit eivät toimi vakiotaajuudella eli käyttöjännite on jotain muuta kuin vakiona ja kaikilla on käytössä eri emolevyt niin miten noita sitten vertaa järkevästi keskenään?
 
Olisiko mahdollista saada myös vaikka parilla eri testiohjelmalla ajetut virrankulutusvertailut näihin clock to clock testeihin? Näkisi mikä on noin samanlaisessa tilanteessa eri kokoonpanojen kokonaiskulutus. Ihan vaan mielenkiinnosta.

Tuo eri kokoonpanojen sopivuus asunnonlämmitykseen rasituksessa mietityttää ja kertoisi myös paljon kellojen noston/laskun vaikutuksista.

Ne on näissä clock-to-clock-testeissä tehonkulutusmittaukset ovat vähän hankalia kun kerran prosessorit eivät toimi vakiotaajuudella eli käyttöjännite on jotain muuta kuin vakiona ja kaikilla on käytössä eri emolevyt niin miten noita sitten vertaa järkevästi keskenään?

Hyvä pointti. Kokonaiskulutuksen mittaus ainakin olisi hieman mitään sanomaton kun emolevyillä on keskenään kovasti eroja. Jos seinä tehoja haluaisi vertailla, voisi toki yrittää keksiä pari liitin valikoimaltaan yms todella samanlaista Intel vs Amd kokoonpanoa ja siitä saisi jonkunlaisen tuloksen + ihan loputtoman foorumiväännön. =)

Lastuja voisi sinänsä keskenään vertailla jos mittaisi virransyötöstä tjsp. itse lastun kulutusta ja viitsisi hakea jokaiselle staattiselle kellotaajuudelle minimi jännitteen jolla se suostuu vielä vakaasti läpäisemään testit. Mielestäni ei maksa vaivaa.. jos joku suosessa sentäs on halpaa se on sähkö.
 
Voisiko pelit käyttää jotain vanhaa kirjastoa joka on käännetty vuosikymmen sitten Intelin kääntäjällä silloin kuin se vielä sabotoi koodia AMD:n prosessoreille?
 
Voisiko pelit käyttää jotain vanhaa kirjastoa joka on käännetty vuosikymmen sitten Intelin kääntäjällä silloin kuin se vielä sabotoi koodia AMD:n prosessoreille?

Käytännössä ei.

Suurin ongelma on nyt käyttöjärjestelmän skeduleri, tai oikeastaan koodi, joka kertoo sille millaiset ytimet prosessorilla on käytettävissä, ja joka tunnistaa päin honkia sen, mitkä ytimet on oikeita fyysisiä ytimiä ja mitkä SMT:n myötä tulevia virtuaaliytimiä. Ja tämä johtuu siitä, että näiden "oikeaan" tunnistamiseen ei ole mitään "oikeaa virallista varmaa tapaa" vaan näitä joudutaan tunnistamaan purkkakoodilla jossa nimenomaan pitää pitää kirjaa siitä että millainen rakenne minkäkin CPU-valmistajan missäkin mallissa on.

Zenin osalta oikeaa tietoa ei win10n skeduleria tehdessä ollut saatavilla niin sitten analysoidaan väärin, ilmeisesti bulldozin mukaisesti (hassua kyllä, win7:lla ilmeisesti ongelmaa ei ole, siellä ehkä zenille käytetään munkilla samaa tunnistuslogiikkaa kuin core i7lle tms, ilmeisesti tuen lisääminen bulldozerin tunnistamiselle rikkoi zenin oikean tunnistamisen win8ssa ja win10ssä)

Nyt sitten odotellaan pari viikkoa että microsoftilta tulee korjaus tuohon.

Mutta 256-bittisillä vektoreilla laskevilla AVX-/AVX2-käskyillä Intelillä on kaksinkertainen kaistanleveys (sekä laskennassa, että lataus-tallennusyksiköissä) Zeniin nähden; Zenillä leveimmät datapolut on 128-bittisiä, intelillä liukuluku-SIMD-laskentayksiköt on Sandy Bridgestä lähtien 256-bittisiä(8*float) ja lataus-tallennusyksiköt Haswellista lähtien 256-bittisiä(ja samalla taisi tulla myös tuki 256-bittisille kokonaislukuvektoreille)
 
Viimeksi muokattu:
Ne on näissä clock-to-clock-testeissä tehonkulutusmittaukset ovat vähän hankalia kun kerran prosessorit eivät toimi vakiotaajuudella eli käyttöjännite on jotain muuta kuin vakiona ja kaikilla on käytössä eri emolevyt niin miten noita sitten vertaa järkevästi keskenään?
Ei kai niitä voikaan suoraan verrata keskenään. Olisi vaan mielenkiintoista nähdä monen eri prossusukupolven tehonkulutus jollain tietyillä kelloilla ja siihen vertailupalkiksi tuo clock-to-clock-testitulos niilä kelloilla (vaikka joku 3,5GHz). Ei kai emolevyjen virrankulutus ole niin korkea nykyään että se juurikaan vaikuttaisi tulokseen, jos kaikki emolle kytketyt laitteet (paitsi muistit) olisivat samat kaikille kokoonpanoille
 
Ihmisethän aina haluaa että windows ei asentele mitään kysymättä lupaa. Nyt voivat ilmeiseti edelleen asentaa KBxxxxxx.msi paketit, mutta suoraan windows update ei toimi.
Väittäisin, että todella harva oikeasti Windowsinsa noin suostuisi päivittämään. Harva edes tietää, että ne saa myös tuolla tavalla. Tosin ei tavallinen käyttäjä kyllä edes asentele tuota Ryzeniä Windows 7:lle.
 
Väittäisin, että todella harva oikeasti Windowsinsa noin suostuisi päivittämään. Harva edes tietää, että ne saa myös tuolla tavalla. Tosin ei tavallinen käyttäjä kyllä edes asentele tuota Ryzeniä Windows 7:lle.
Juu. Tavallinen käyttäjä ei saa asennettua windows seiskaa Ryzenille koska sillä hetkellä kun asennusohjelma käynnistyy nousee seinä vastaan kun hiiri ja näppis on pimeänä.
 
Kauanko menee että joku vääntää "Windows update for old processor" -ohjelman, joka ehdottelee mitä uusia päivityksiä olisi tarjolla ja suorat linkit kaikkiin? Saa toteuttaa. :)
 
Juu. Tavallinen käyttäjä ei saa asennettua windows seiskaa Ryzenille koska sillä hetkellä kun asennusohjelma käynnistyy nousee seinä vastaan kun hiiri ja näppis on pimeänä.
Tähän viestiin olisi voinut vielä laittaa syyn, minkä takia näppäimistö ja hiiri eivät toimi, koska joku kuitenkin tulee Googlen kautta tänne etsiessään vikaa. Syyhän on siis USB3-ajureiden puute Windows 7 käyttöjärjestelmässä. PS/2 näppäimistö ja hiiri toimivat normaalisti, mutta USB-laitteet lakkaavat toimista välittömästi Windowsin asennusohjelmaan saavuttaessa. Joissain harvoissa emolevyissä on PS/2 simulaatiotila, jolla USB hiiri/näppis toimivat. Helekutin ärsyttävä homma...
 
Tähän viestiin olisi voinut vielä laittaa syyn, minkä takia näppäimistö ja hiiri eivät toimi, koska joku kuitenkin tulee Googlen kautta tänne etsiessään vikaa. Syyhän on siis USB3-ajureiden puute Windows 7 käyttöjärjestelmässä. PS/2 näppäimistö ja hiiri toimivat normaalisti, mutta USB-laitteet lakkaavat toimista välittömästi Windowsin asennusohjelmaan saavuttaessa. Joissain harvoissa emolevyissä on PS/2 simulaatiotila, jolla USB hiiri/näppis toimivat. Helekutin ärsyttävä homma...
Tämä nyt on ollut ihan yleinen ongelma monen läppärin kanssa jo pitkään. Puhtaalta pöydältä windows 7:n asennus ei meinaa onnistua kovin helposti kun koneissa ei ole kuin USB3 portteja ja ei optista asemaa.

Mutta miksi taviskäyttäjän pitäisi Windows 7:aa laittakaan, kun 10 toimii helposti ja harvassa on tapaukset joissa 7 on pakollinen jonkun softatuen takia. 99.9% asioista toimii kybälläkin.
 
Tämä nyt on ollut ihan yleinen ongelma monen läppärin kanssa jo pitkään. Puhtaalta pöydältä windows 7:n asennus ei meinaa onnistua kovin helposti kun koneissa ei ole kuin USB3 portteja ja ei optista asemaa.
Jep. Itse tuli siirryttyä Windows 10:een ainoastaan tämän ongelman takia. Muuten ei olisi ollut mitään tarvetta.
 
Tämä nyt on ollut ihan yleinen ongelma monen läppärin kanssa jo pitkään. Puhtaalta pöydältä windows 7:n asennus ei meinaa onnistua kovin helposti kun koneissa ei ole kuin USB3 portteja ja ei optista asemaa.
Ja tähän kun lisätään että monen läppärin biosista ei saa usb tai sata ohjainta enään legacy tilaan niin on kovin hauskaa tämä elämä.
 
Tämä nyt on ollut ihan yleinen ongelma monen läppärin kanssa jo pitkään. Puhtaalta pöydältä windows 7:n asennus ei meinaa onnistua kovin helposti kun koneissa ei ole kuin USB3 portteja ja ei optista asemaa.

Mutta miksi taviskäyttäjän pitäisi Windows 7:aa laittakaan, kun 10 toimii helposti ja harvassa on tapaukset joissa 7 on pakollinen jonkun softatuen takia. 99.9% asioista toimii kybälläkin.
Kyllähän ton asennus onnistuu jos pistää ne ajurit sinne asennustietostoihin.Itse kyllä käyttäsin win7:tä vieläkin mutta aika alkaa menemään sen ohi jo kun ajureita ei tule eri laitteille,ei tukea dx12:lle ja ms:nkin lopettaa sen tukemisen.:/
 
Kyllä tämä nyt kieltämättä alkaa näyttämään siltä, että Ryzen tulee kesällä. Nykyinen 2500K toimii hyvin, ei siinä mitään - mutta onhan tämä jo sen 7v vanha rossu. Itselläni ollut vuodesta 2011 lopusta, joten tutuksi on kaveri tullut. Nyt ajelen @ 4.2GHz ilmalla noprob. Säikeitä kaipaisin lisää, minä kun hukka-aikanani haluan lämmittää asuntoa, siispä ajan Seti@homea, Rosetta@homea, Enigma@homea ja sitä rataa - näitä vaan voisi ajaa montakin kappaletta useampia kerrallaan, jos säikeitä piisaisi.

Onko tuleva R5 vai R7, en tiedä. Mutta jos ei rahallisesti katastrofia jostakin syystä aiheudu, niin AMD on taas tervetullut tässä taloudessa. Edellisen kerran olikin Athlon XP2400+, minkä jälkeen ollaan Inteliä huudatettu - Pentium D 320:stä Core2Duo e6400:aan josta juoksuloikkaa i5 2500k:hon.
Jos 1500X saa pistettyä siihen 4Ghz niin itse ajattelin sellaisen ostaa ainakin väliajaksi koska eipä noi pelit taida noista lisäcoreista vielä oikein hyötyä(ja samalla saa sen varaosan jolla voi tulevaisuudessa testata emoja,tai se siirtyy toiseen käyttöön).Itse en oikeasti tarvitse kuin ton 4c8t.Tulevaisuutta ajatellen kannattanee ostaa suoraan joku 16GB 2666Mhz muisti?.Hyötyykös noi ddr4 dual dimmeistä paljonkin?.
 
Väitetään, että Microsoft veti jo ensimmäisen scheduler päivityksen ulos fast ring käyttäjille:


Kuvan perusteella tulokset olisivat varsin hyviä, vaikka se ei vieläkään ole optimaallinen toiminnan suhteen
 
Ensimmäinen Ryzen pohjainen pelipäivitys:

Dota 2 Update - March 20th, 2017
- Fixed the display of particles in the portrait window.
- Fixed Shadow Fiend's Demon Eater (Arcana) steaming while in the river.
- Fixed Juggernaut's Bladeform Legacy - Origins style hero icons for pre-game and the courier button.
- Improved threading configuration for AMD Ryzen processors.
- Workshop: Increased head slot minimum budget for several heroes.

News - Dota 2 Update - March 20th, 2017
 
Olen odotellut mielenkiinnolla Agnerin käskylatenssi- ja throughput-mittauksia Ryzenille, eikä tarvinne enää kauan odottaa.
Author: Agner

Date: 2017-04-12 00:52
The single-thread instructions per clock rate of Ryzen is higher than for any Intel processor, except for 256-bit vector code. I am testing the Ryzen right now and the test results are coming soon. Please be patient.
 
Nyt Agner on saanut testit tehtyä.
Author: Agner

Date: 2017-05-02 04:22
The new Ryzen processor from AMD represents a complete redesign of the CPU microarchitecture. This is the first of a series of "Zen" architecture processors. I must say that this redesign is a quite successful one which puts AMD back in the game after several years of lagging behind Intel in performance.
Näemmä AMD:lla on nyt eri latenssin omaava vaddpd (3) ja vmulpd (4), juuri kun Intel Skylakessa luovutti yhden syklin vaddpd:ssa (4) (4).

Jakolaskin ja neliöjuuri ovat vauhdikkaampia kuin toivoin, vdivpd throughput per käsky 9 sykliä ja vsqrtpd per käsky 16 sykliä. Skylaken Broadwellistä massiivisesti nopeutetun 128 bittiä leveän yksikön vastineet on 8 ja 12. Ryzenissä syklin pienempi latenssi.

Vgather on mukana vain AVX2 tickboxin takia, throughput näyttää olevan selvästi pienempi kuin edes Haswellissa.

Kokonaislukuvektoreissa näyttäisi olevan Ryzenissa 2-4 kertaa huonompi throughput kuin Skylakessa, jos katsoo vpadd, vpsadbw, vpmadd ja vpmul. Ryzenin latenssi vpmadd ja vpmul kuitenkin pienempi.
 
Nyt Agner on saanut testit tehtyä.

Näemmä AMD:lla on nyt eri latenssin omaava vaddpd (3) ja vmulpd (4), juuri kun Intel Skylakessa luovutti yhden syklin vaddpd:ssa (4) (4).

Tosin FMAn viive on sitten 5 kellojaksoa ryzenilla.

Salliikohan tuo FMA-toteutus tuon yhteenlaskettavan arvon saapumisen myöhässä, jos ei, niin sitten FMAn käyttö verrattuna erillisiin kerto- ja yhteenlaskuihin usein vaan hidastaa ryzenilla, kun latenssi kasvaa eikä throughputissakaan ole merkittävää parannusta.

Jakolaskin ja neliöjuuri ovat vauhdikkaampia kuin toivoin, vdivpd throughput per käsky 9 sykliä ja vsqrtpd per käsky 16 sykliä. Skylaken Broadwellistä massiivisesti nopeutetun 128 bittiä leveän yksikön vastineet on 8 ja 12. Ryzenissä syklin pienempi latenssi.

Vgather on mukana vain AVX2 tickboxin takia, throughput näyttää olevan selvästi pienempi kuin edes Haswellissa.

vgather on aika hankala toteuttaa joten ihan ymmärrettävää, että se on hidas. Se on kuitenkin intelilläkin niin hidas, että sillonkin yleensä hidastaa enemmän kuin hyödyttää.

Kokonaislukuvektoreissa näyttäisi olevan Ryzenissa 2-4 kertaa huonompi throughput kuin Skylakessa, jos katsoo vpadd, vpsadbw, vpmadd ja vpmul. Ryzenin latenssi vpmadd ja vpmul kuitenkin pienempi.


Mikäs noiden p* ja vp*-käskyjen ero on? vp* on AVX2sta vex-koodauksella ja sallii 256-bittiset operaatiot kokonaisluvuille ja kohderekisterin olevan eri kuin kumpikaan lähderekistereistä? vai jotain ihan muuta

Eihän tuolla edes ole mainittu vp*-käskyistä mitään skylakelle.


Ja nämä 1.5 käskyä/kello throughputit ryzenillä esim. vpaddille ovat 256-bittisille AVX2-vektoreille (ymm).
128-bittisillä xmm-vektoreilla paddillä 3 käskyä/kellojaksoa,
 
Tosin FMAn viive on sitten 5 kellojaksoa ryzenilla.

Salliikohan tuo FMA-toteutus tuon yhteenlaskettavan arvon saapumisen myöhässä, jos ei, niin sitten FMAn käyttö verrattuna erillisiin kerto- ja yhteenlaskuihin usein vaan hidastaa ryzenilla, kun latenssi kasvaa eikä throughputissakaan ole merkittävää parannusta.
Niin meinaat kuten naiivissa fir-suodattimessa, toisistaan riippumattomat mullit ja yksi akku? Luulen, että fma Ryzenillä hidastaisi tässä tapauksessa, koska pitempi riippuvuusketju, Skylakella mul+add ja fma pyörisi yhtä nopeasti (hitaasti).
Kun akku unrollataan Ryzen vetäisi mul+add ja fma yhtä nopeasti ja Skylake fma:lla 2x verrattuna add+mulliin. Unrollatulla akulla laskenta joka tapauksessa lentäisi kummallakin verrattuna naiiviin versioon (Tosin, jos kummatkin kerrottavat tulevat välimuistista, kaista loppuu kummallakin ennen laskentaresursseja).

Ryzenissäkin fma hyödyttää, jos mul ja add molemmat ovat osa koodin riippuvuusketjua ja rajoittava tekijä.

Mikäs noiden p* ja vp*-käskyjen ero on? vp* on AVX2sta vex-koodauksella ja sallii 256-bittiset operaatiot kokonaisluvuille ja kohderekisterin olevan eri kuin kumpikaan lähderekistereistä? vai jotain ihan muuta
p* on SSE-sarjan kokonaisluku-käskyjä (2 operandia ja 128 bittiä leveä) ja vp* on AVX-sarjan vastine (kolme operandia ja 128 tai 256 bittiä leveä). VEX-prefixin 128 bit leveä käsky nollaa implisiittisesti yläosan rekisteriä, välttäen väärät riippuvuudet.

Eihän tuolla edes ole mainittu vp*-käskyistä mitään skylakelle.


Ja nämä 1.5 käskyä/kello throughputit ryzenillä esim. vpaddille ovat 256-bittisille AVX2-vektoreille (ymm).
128-bittisillä xmm-vektoreilla paddillä 3 käskyä/kellojaksoa,
Jätetty vain pois kun SSE- ja AVX-käskyjen välillä ei ole eroja.
Skylaken listauksen yläosassa sanoi:
Name of instruction. Multiple names mean that these instructions have the same data.
Instructions with or without V name prefix behave the same unless otherwise noted.

Esim.
Koodi:
PADD/SUB(S,US)
B/W/D/Q                 v,v / v,v,v
Vain AVX-versiolla on kolme operandia
 

Statistiikka

Viestiketjuista
261 843
Viestejä
4 548 924
Jäsenet
74 855
Uusin jäsen
Nåksuu

Hinta.fi

Back
Ylös Bottom