AMD kertoi lisätietoja Zen 5 -arkkitehtuurista ja siihen perustuvista prosessoreista

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 495
amd-zen-5-family-20240726.jpg


Kaotik kirjoitti uutisen/artikkelin:
AMD piti hiljattain Tech Day 2024 -tapahtuman, jossa se kertoi lisää yksityiskohtia tulevista Zen 5 -prosessoreistaan. Kaikkea ei kerrottu kuitenkaan vielä tuolloin, vaan nyt yhtiö on julkaissut joukon lisädioja kertomaan lisää prosessoreidensa sielunelämästä.

AMD:n uusissa dioissa käydään läpi koko yhtiön tulevaa Zen 5 -tuoteperhettä ja pureudutaan tarkemmin työpöydälle tulevien Granite Ridge- ja mobiilipuolelle suunnattujen Strix Point -prosessoreiden ominaisuuksiin. Edellä mainittujen piirien lisäksi markkinoille ovat tulossa Zen 5 -arkkitehtuurin Turin-koodinimelliset Epyc-prosessorit. Zen 5 -arkkitehtuuria on suunniteltu käytettäväksi sekä 3 että 4 nanometrin luokan prosesseilla.

[gallery link="file" columns="2" size="medium" ids="99657,99654"]

Kuten viime sukupolvessa opittiin, AMD lähestyy energiatehokkaita ja pienempiä ytimiä eri lähestymiskulmasta Inteliin verrattuna. AMD:n ”Zen Dense” eli c-merkinnällä varustetut versiot tarjoavat samat ominaisuudet ja IPC:n, kuin järeämmät Zen 5 -ytimetkin, mutta pienemmällä välimuistilla ja kellotaajuudella, mitkä auttavat pienentämään ydintä. Siinä missä Zen 4c -ytimet olivat jopa 35 % pienempiä kuin Zen 4 -ytimet, Zen 5c -ytimissä kokoa on saatu kutistettua vain 25 % ainakin tällä haavaa. AMD:n edustaja on kuitenkin varmistanut Tom’s Hardwarelle, että Zen 5c:tä saadaan kutistettua entisestään prosessoreille, joissa on pelkkiä Zen 5c -ytimiä ja että nykyiseen kokoon päädyttiin, koska se sopii käyttökohteeseen eli Strix Point -mobiiliprosessoreihin. Löydät yltä myös seikkaperäisen vertailun Zen 4- ja Zen 5 -arkkitehtuurien välillä.

[gallery link="file" columns="2" size="medium" ids="99653,99652"]

Strix Pointeissa käytössä olevasta RDNA 3.5 -arkkitehtuurin muutoksista on oltu varsin niukkasanaisia tähän asti. Nyt yhtiö on paljastanut, että RDNA 3.5:ssä on yksi aiempaa kookkaampi Shader Engine, johon kuuluu nyt 8 WGP:tä eli 16 CU:ta, neljä RB+ ROP-yksikköä ja ”2 Mt GL2 Engine”, joka ei valitettavasti ole allekirjoittaneelle tuttu ilmaisu. Teksturointiyksiköt pystyvät nyt kaksinkertaiseen samplausnopeuteen ja myös point samplingia on kiihdytetty. Varjostinyksiköissä interpolaatio ja vertailutehtävät onnistuvat nyt niin ikään kaksinkertaisella nopeudella ja Scalar ALU tukee nyt liukulukuja. Grafiikkaydin ei myöskään enää kirjoita kertakäyttöistä dataa VGPR-rekistereihin. Myös rasterointipuolen toimintaa on tehostettu ja muistiohjain on saanut paranneltuja pakkausominaisuuksia sekä tuen LPDDR5-muisteille.

Samasta sirusta löytyy myös XDNA 2 -NPU eli -tekoälykiihdytin. Strix Pointin tapauksessa käytössä on neljä kahdeksan AI Engine -ytimen paketti, jolla on käytössään 1,6 kertaisesti omaa muistia. Yhtiön mukaan se kykenee tukemaan parhaimmillaan 50 TOPSia INT8- ja 50 TFLOPSia Block FP16 -tarkkuudella. Samanaikaisesti suorituksessa voi olla nyt kaksinkertaisesti tehtäviä ja yksiköt tukevat uuden Block FP16:n ohella myös Sparsity-ominaisuutta. XDNA 2:n kerrotaan olevan parhaimmillaan kaksi kertaa niin energiatehokas, kuin ensimmäisen sukupolven XDNA.



Siinä missä Phoenixissa kaikki prosessoriytimet olivat yhdessä ryppäässä, siirrytään Strix Pointissa kahden CCX:n taktiikkaan; neljä Zen 5 -ydintä ja 16 Mt L3-välimuistia ovat yksi CCX ja kahdeksan Zen 5c -ydintä ja 8 Mt L3 -välimuistia toinen CCX. PCIe-linjoja on edelleen karsitusti yhteensä vain 16 ja ne tukevat PCIe Gen 4 -nopeuksia. Käytännössä tämä tarkoittaa, että mahdollinen rinnalle asennettava näytönohjain saa vain kahdeksan linjaa, koska osa linjoista menee NVMe SSD -asemille. Yhtiön mukaan aiemman 20 linjan neljä viimeistä jäivät niin vähälle käytölle, ettei sille nähty riittävästi tarvetta enää.



Työpöytäpuolen Granite Ridgessä on puolestaan yksinomaan Zen 5 -ytimiä jaettuna kahteen kahdeksan ytimen ja 32 Mt:n L3-välimuistin CCD-siruun. CCD:t ovat yhteydessä Ryzen 7000 -sarjasta tuttuun IO-siruun, joka sisältää joistain väitteistä poiketen edelleen RDNA 2 -arkkitehtuurin 2 Compute Unit -yksikön grafiikkaohjaimeen. PCIe 5.0 -linjoja on niin ikään edelleen tutut 28, joista osa on varattu piirisarjayhteydelle.

Lähde: AMD, Tom's Hardware

Linkki alkuperäiseen juttuun
 
Mikäs tuon Granite Ridgen muistien ns. sweet spot on? 7000-sarjallahan se oli 6000. Lienee kasvanut, mutta mihin lukemiin?
 
Mikäs tuon Granite Ridgen muistien ns. sweet spot on? 7000-sarjallahan se oli 6000. Lienee kasvanut, mutta mihin lukemiin?
Eiköhän tuohon saada selvyys kun prosessorit ovat testaajien käsissä.
 
Mielestäni helppo tapa lisätä pelinopeutta - eli cachen lisääminen on jätetty välistä Granite Ridgessä. X3D-mallia odotellessa..
 
Zen 5c -ytimissä kokoa on saatu kutistettua vain 25 % ainakin tällä haavaa
Vähän vaikea kyllä nähdä mitä järkeä noin pienessä kokoerossa on kun ytimet on jo muutenkin sen verran pieniä verrattuna muuhun tauhkaan mikä sitä piirin pinta-alaa syö.
 
Vähän vaikea kyllä nähdä mitä järkeä noin pienessä kokoerossa on kun ytimet on jo muutenkin sen verran pieniä verrattuna muuhun tauhkaan mikä sitä piirin pinta-alaa syö.

Tästä syystä näitä ei normi työpöydällä nähdäkään.

Mobiilissa ero 4 + 8 vs 10 ydintä on ihan merkittävä etu ilman oikeastaan mitään miinusta. Puhumattakaan sitten palvelinprossussa 8*8 vs 8*10 ydintä.

Lisäksi noissa c-ytimissä voi olla myös se etu, että vievät samalla taajuudella vähemmän tehoa, joka taas mobiilissa ja palvelinpuolella iso etu
 
Mielestäni helppo tapa lisätä pelinopeutta - eli cachen lisääminen on jätetty välistä Granite Ridgessä. X3D-mallia odotellessa..
On sinne välimuistia lisätty, vaikka L3-välimuistia onkin sama määrä kuin ennen. Välimuisti (SRAM) ei myöskään enää skaalaudu noilla prosesseilla käytännössä lainkaan, mikä tekee siitä suhteessa kallista.
 
Vähän vaikea kyllä nähdä mitä järkeä noin pienessä kokoerossa on kun ytimet on jo muutenkin sen verran pieniä verrattuna muuhun tauhkaan mikä sitä piirin pinta-alaa syö.

Ei tässä ole kyse pelkästä pinta-alasta vaan myös sähkönkulutuksesta. C-sarjan ytimet ovat selvästi energiatehokkaampia kuin suuren kellon ytimet.

Ja kun noilla C-ytimillä on vielä myös pienempi L3-välimuisti niin kokonaisuuden pinta-ala-säästö on selvästi suurempi kuin pelkkien ytimien pinta-ala-säästö.

Kun verrataan neljän ytimen Zen5-CCXää kahdeksan ytimen Zen5c-CCX:n, niin käytännössä noissa saadaan melkein samalla pinta-alalla ja melkein samalla virrankulutuksella tuplamäärä ytimiä ja säikeitä, luokkaa puolitoista kertaa parempi monen säikeen suorituskyky, puolitoista kertaa parempi energiatehokkuus.


Ihan turhaa sinne mobiilipiirille on tunkea kahdeksaa korkeaan kellotaajuuteen optimoitua ydintä, kun läppärin teho-/lämpöbudjetti ei kuitenkaan anna käyttää järkevästi niiitä kahdeksaa korkealle kellolle optimoitua ydintä yhtä aikaa sillä kellolla, mille ne on suunniteltu.

Ja raahattaville (joissa teho-/lämpöbudjettia on enemmän) on sitten eri piiri, Strix Halo.
 
Ei tässä ole kyse pelkästä pinta-alasta vaan myös sähkönkulutuksesta. C-sarjan ytimet ovat selvästi energiatehokkaampia kuin suuren kellon ytimet.

Ja kun noilla C-ytimillä on vielä myös pienempi L3-välimuisti niin kokonaisuuden pinta-ala-säästö on selvästi suurempi kuin pelkkien ytimien pinta-ala-säästö.

Kun verrataan neljän ytimen Zen5-CCXää kahdeksan ytimen Zen5c-CCX:n, niin käytännössä noissa saadaan melkein samalla pinta-alalla ja melkein samalla virrankulutuksella tuplamäärä ytimiä ja säikeitä, luokkaa puolitoista kertaa parempi monen säikeen suorituskyky, puolitoista kertaa parempi energiatehokkuus.


Ihan turhaa sinne mobiilipiirille on tunkea kahdeksaa korkeaan kellotaajuuteen optimoitua ydintä, kun läppärin teho-/lämpöbudjetti ei kuitenkaan anna käyttää järkevästi niiitä kahdeksaa korkealle kellolle optimoitua ydintä yhtä aikaa sillä kellolla, mille ne on suunniteltu.

Ja raahattaville (joissa teho-/lämpöbudjettia on enemmän) on sitten eri piiri, Strix Halo.
Joo, mutta voisi kuvitella että lähes sama efekti saadaan aikaan jos käytetään niitä perus zen-ytimiä alemmilla kellotaajuuksilla. Lähinnä mietityttää kuinka kannattavaa tuohon on ollut törkätä monien vuosien R&D kulut. Toki jos L3 kakkua on samalla leikattu niin sehän laskee jo aika reilusti sitä pinta-alaa.

Läppäreihin varmasti ihan päteviä vehkeitä.
 
Joo, mutta voisi kuvitella että lähes sama efekti saadaan aikaan jos käytetään niitä perus zen-ytimiä alemmilla kellotaajuuksilla. Lähinnä mietityttää kuinka kannattavaa tuohon on ollut törkätä monien vuosien R&D kulut. Toki jos L3 kakkua on samalla leikattu niin sehän laskee jo aika reilusti sitä pinta-alaa.

Läppäreihin varmasti ihan päteviä vehkeitä.
Miksi niitä käyttäisi matalammalla taajuuksilla kun voi käyttää C-ytimiä samalla matalammalla taajuudella selvästi pienemmällä kulutuksella häviämättä mitään suorituskyvyssä?
 
Joo, mutta voisi kuvitella että lähes sama efekti saadaan aikaan jos käytetään niitä perus zen-ytimiä alemmilla kellotaajuuksilla.

Jos ei sotkettaisi kuvittelua ja faktoja keskenään.

Nykyisillä high-end-CPUilla joudutaan käyttämään todella paljon virtasyöpömpiä transistorityyppejä yms. niiden 5.5 GHz kellotaajuuksien saavuttamiseksi, ja ne hyvin virtasyöpöt transistorityypit ovat nälkäisiä myös pienemmillä kelloilla.

Eikä kyse ole vain transistorityypeistä vaan myös algoritmeista joita rautakääntäjä valitsee perusopersatioiden(+,-,* yms) toteuttamiseen, samasta sisääntulevasta verilog-koodista tulee ulos selvästi eri määrä logiikkaa sen mukaan, millä nopeudella sen logiikan pitää toimia.

Kun luovutaan siitä 5.5 GHz tavoitteesta ja tähdätään jonnekin 3.5-4 GHz luokkaan, kaikki helpottuu todella paljon ja rautakääntäjä voi optimoida paljon paremmin virrankulutuksen suhteen.

Lähinnä mietityttää kuinka kannattavaa tuohon on ollut törkätä monien vuosien R&D kulut.

R&D-kulut siitä, että synteesityökalulle annetaan parametrina eri kellotaajuus ja vetäistään synteesi ja back-end-flow sillä läpi ovat melko pienet.

Ja tähän ei todellakaan mene monia vuosia.

Kyseessä on RTL-tasolla (raudan "lähdekooditasolla") ihan sama design kuin zen5, erona vaan kääntäjälle annetut parametrit.
 
Viimeksi muokattu:
Joo, mutta voisi kuvitella että lähes sama efekti saadaan aikaan jos käytetään niitä perus zen-ytimiä alemmilla kellotaajuuksilla. Lähinnä mietityttää kuinka kannattavaa tuohon on ollut törkätä monien vuosien R&D kulut. Toki jos L3 kakkua on samalla leikattu niin sehän laskee jo aika reilusti sitä pinta-alaa.

Läppäreihin varmasti ihan päteviä vehkeitä.

Perf/W on eritäin tärkeä palvelimissa. Valtaosassa servereitä halutaan paljon energia tehokkaita coreja, jotka ei tavoittele mitään järjettömiä kelloja. Ja niistä CPU:sta pyydetään ihan hävyttömiä hintoja vs jostain kuluttaja kamasta.

Kannattaa muistaa, että sen oman käytön lisäksi, että lähes koko ympäröivä maailma pyörii jollain tapaa palvelimien varassa.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
258 667
Viestejä
4 495 498
Jäsenet
74 270
Uusin jäsen
Jautio

Hinta.fi

Back
Ylös Bottom