AMD paljasti prosessorisirujen ja I/O-sirun käytön tuomat säästöt Ryzen- ja Epyc-prosessoreissa

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 630
amd-isscc-chiplet-iod-ryzen-20200225.jpg


Kaotik kirjoitti uutisen/artikkelin:
AMD on pitänyt International Solid-State Circuits Conference -tapahtumassa esityksen, jossa se on kertonut muun muassa Zen- ja Zen 2 -arkkitehtuurien eroista ja 7 nanometrin prosessin haasteista. Mukaan mahtui myös mielenkiintoista dataa pikkusirujen käytön taloudellisesta puolesta.

Kuluttajapuolella AMD:n esitys piti sisällään hinnat 8- ja 16-ytimisille Ryzen 3000 -sarjan prosessoreille ja niiden hypoteettisille yhden sirun versioille. AMD:n mukaan 8-ytimen prosessori toteutettuna 7 nanometrin prosessorisirulla ja 14 nanometrin I/O-sirulla on noin 26 prosenttia edullisempi valmistaa, kuin sama kokonaisuus yhtenä 7 nanometrin siruna. 16-ytimisen prosessorin kohdalla ero kuitenkin räjähtää käsiin. Yhtiön mukaan hypoteettisen 16-ytimisen Ryzen 3000 -sarjan prosessorin valmistaminen yhtenä 7 nanometrin siruna kustantaisi yli kaksinkertaisesti kahden 7 nanometrin prosessorisirun ja 14 nanometrin I/O-sirun versioon verrattuna. Lisäksi AMD saa lisähyötyä käyttämällä I/O-sirua myös X570-piirisarjana, mikä poisti tarpeen erillisen piirisarjan suunnittelulle.



Rome-koodinimellisten Epyc-prosessoreiden puolella 64-ytimen versiota ei AMD:n mukaan oltaisi voitu valmistaa lainkaan 7 nanometrin prosessilla yhtenä suurena siruna. 48- ja 32-ytimisiin Epyciin verrattuna hypoteettinen monoliittiversio olisi kustantanut vähän reilu kaksinkertaisesti, 24-ytiminen vähän alle kaksinkertaisesti ja 16-ytiminen noin 80 % enemmän prosessorisiruista ja I/O-sirusta rakentuvaan todelliseen versioon verrattuna. Epyceissä AMD saa lisäsäästöjä asentamalla prosessoreihin fyysisesti tarpeen mukaan joko kaksi, neljä, kuusi tai kahdeksan prosessorisirua. Myös prosessoreiden suorituskyvyn kerrotaan olevan parempi, kuin hypoteettisilla monoliittiversioilla olisi ollut mahdollista.

Arkkitehtuurien tarkemmista eroista sekä 7 nanometrin haasteista voi lukea lisää PC Watchin artikkelista japaniksi tai auttavasti kääntäjän avulla englanniksi. Artikkelin diat ovat kuitenkin kaikki englanniksi.

Päivitys: Myös WikiChip on julkaissut artikkelin 7 nanometrin haasteista.

Lähde: PC Watch

Linkki alkuperäiseen juttuun
 
Viimeksi muokattu:
Ottavatko nuo luvut jo huomioon saannot piikiekosta ja niiden huononemisen piirin koon kasvaessa?
 
Näyttää hyvin miksi Intelillä on ollut niin tuskaisaa vastata noihin isomman coremäärän siruihin, kun hinnat alkavat karata käsistä koon noustessa. Saisivat vaan nyt tuoda nämä multi chip ratkaisut näyttispuolelle, siellä jotain vastaavaa kaivattaisiin aika kipeästi.
 
Saisivat vaan nyt tuoda nämä multi chip ratkaisut näyttispuolelle, siellä jotain vastaavaa kaivattaisiin aika kipeästi.

Täähän se ois. Lähtis hinnat laskuun, jos AMD vois hyödyntää 7 nm piikiekoista isomman osan ja haastaa Nvidiaa myös monsterikorttiluokassa.
 
Näyttää hyvin miksi Intelillä on ollut niin tuskaisaa vastata noihin isomman coremäärän siruihin, kun hinnat alkavat karata käsistä koon noustessa. Saisivat vaan nyt tuoda nämä multi chip ratkaisut näyttispuolelle, siellä jotain vastaavaa kaivattaisiin aika kipeästi.
Täähän se ois. Lähtis hinnat laskuun, jos AMD vois hyödyntää 7 nm piikiekoista isomman osan ja haastaa Nvidiaa myös monsterikorttiluokassa.
Ensin pitäisi selvittää se pienenpieni ongelma miten ne sirut saataisiin toimimaan saumattomasti yhteen, kaikki tietävät miten "hyvin" multi-GPU-ratkaisut (SLI, CrossFire jne) toimivat
 
Ensin pitäisi selvittää se pienenpieni ongelma miten ne sirut saataisiin toimimaan saumattomasti yhteen, kaikki tietävät miten "hyvin" multi-GPU-ratkaisut (SLI, CrossFire jne) toimivat
Ottamalla GPU:sta shaderit irti ja pistämällä ne omille sirulleen. Chiplet -rakenne on näyttiksillä jopa yksinkertaisempi tehtävä kuin CPU:n kanssa, koska shadereiden ei tarvitse keskustella keskenään juuri millään tapaa ja käytännön suorituskyky skaalautuu liki lineaarisesti ydinten määrän kanssa. Ongelmana taitaa olla lähinnä näyttisten vaatima hillitön muistikaista, jota I/O lastu vääjäämättä kuristaisi.
 
Ottamalla GPU:sta shaderit irti ja pistämällä ne omille sirulleen. Chiplet -rakenne on näyttiksillä jopa yksinkertaisempi tehtävä kuin CPU:n kanssa, koska shadereiden ei tarvitse keskustella keskenään juuri millään tapaa ja käytännön suorituskyky skaalautuu liki lineaarisesti ydinten määrän kanssa. Ongelmana taitaa olla lähinnä näyttisten vaatima hillitön muistikaista, jota I/O lastu vääjäämättä kuristaisi.

Oikea termi "chipleteille" on MCM (multi-chip-module).

Ei CPUissakaan ole mitään käskyjä joilla ytimet "kommunikoivat keskenään"; Kaikki kommunikaatio CPU-ydinten välillä tapahtuu kirjoittamalla muistiin ja lukemalla samaa osoitetta toisilta ytimiltä.

Mutta koska ytimillä on omat välimuistinsa, rauta joutuu generoimaan välimuistien välistä välimuistikoherenttiusliikennettä, jotta accessit samoihin muistiosoitteihin tapahtuu koherentisti; Jotta yhden ytimen tekemät kirjoitukset näkyy muille ytimille.


Ja sitten niihin näyttiksiin:

Ensinnäkin, TMUt on käytännössä integroitu niiden shader-prosessorien kylkeen. TMUt pitäisi ottaa mukana (jotta TMUiden käyttö ei kävisi todella hitaaksi).

Ja sekä TMUt tarvitsevat suuren määrän kaistaa, että TMUilta ROPeille tarvitaan melko suuri määrä kaistaan, ja ROPeilta muistiin tarvitaan suuri määrä kaistaa.

Ja AMDn CPUissa tuo "chiplet"-rakenne toimii koska ne CPUt on SoCeja, siellä samassa paketissa on suuri määrä IO-ohjaimia, jotka kannattaa rakentaa vanhemmalla valmistustekniikalla.

Näyttiksissä taas on vähemmän IO-puolta, suurempi osa näyttiksestä kannattaa rakentaa pienemmällä mahdollisella valmistustekniikalla.

Näyttiksissä hyöty MCM-rakenteesta jäisi lähinnä siihen, että tarvii layouttata vain yksi piiri moneen erikokoisen tuotteeseen, säästö R&D-kustannuksissa.

Haitat yleensä suuremmat kuin hyödyt, tai siis ainoa näyttikselle järkevä MCM-rakenne on vaan laittaa ne muistit sinne samaan pakettiin (HBM/HBM2)
 
Hauska lukea näitä "haitat yleensä suuremmat" jne. Kyllä joo, jos pitäydytään siinä vanhassa rakenteessa ja ajattelutavassa. Olisiko aika mitettiä myös asiaa siltä kantilta että onko nykyinen tapa se ainoa oikea? Luulen että jossain vaiheessa tämä AMD:n prossuihin lanseerattu "pienet sirut" joita lätkitään kannalle useita siirtyy myös näyttiksiin. Olen melkein varma asiasta...ja nyt sitten sama veikkaus kun 16/32 Ryzen 3950:ssä:) Ei tule semmosta Amd:tä kun...näihän se meni tässä vuosi sitten. heh...
 
Hauska lukea näitä "haitat yleensä suuremmat" jne. Kyllä joo, jos pitäydytään siinä vanhassa rakenteessa ja ajattelutavassa. Olisiko aika mitettiä myös asiaa siltä kantilta että onko nykyinen tapa se ainoa oikea? Luulen että jossain vaiheessa tämä AMD:n prossuihin lanseerattu "pienet sirut" joita lätkitään kannalle useita siirtyy myös näyttiksiin. Olen melkein varma asiasta...ja nyt sitten sama veikkaus kun 16/32 Ryzen 3950:ssä:) Ei tule semmosta Amd:tä kun...näihän se meni tässä vuosi sitten. heh...
Siihen on ihan eri syyt miksi pikkusiruratkaisut toimivat prosessoripuolella mutta ei GPU-puolella, @hkultala niitä tuossa avasikin tuossa jo hyvin
3950X:n suhteen oltiin skeptisiä ihan muista syistä kuin chiplettien käytön vuoksi
 
Näyttiksissä hyöty MCM-rakenteesta jäisi lähinnä siihen, että tarvii layouttata vain yksi piiri moneen erikokoisen tuotteeseen, säästö R&D-kustannuksissa.

Haitat yleensä suuremmat kuin hyödyt, tai siis ainoa näyttikselle järkevä MCM-rakenne on vaan laittaa ne muistit sinne samaan pakettiin (HBM/HBM2)
Onhan siinä saannoissa iso ero n kpl pienempiä piirejä vs 1 monoliittinen, ihan samallatavalla kuin prosessoreissakin.
 
Onhan siinä saannoissa iso ero n kpl pienempiä piirejä vs 1 monoliittinen, ihan samallatavalla kuin prosessoreissakin.
Ei samalla tavalla, koska näytönohjainpiireissä on samanlaisia rakenteita hyvin monta rinnakkain, prosessoreissa ei ihan samassa määrin. Esim Geforce 2080 Ti on piiri, josta on kytketty noin 10% pois, joten ei tarvita täydellistä piiriä.
 
Ei samalla tavalla, koska näytönohjainpiireissä on samanlaisia rakenteita hyvin monta rinnakkain, prosessoreissa ei ihan samassa määrin. Esim Geforce 2080 Ti on piiri, josta on kytketty noin 10% pois, joten ei tarvita täydellistä piiriä.
Ohnan noita core tai cache disabloituja CPU:ta vaikka kuinka, ihan samalla tavalla. Kytkemällä pois piirien osia voidaan osittain kompensoida huonoja saantoja, mutta ei se mikään täydellinen ratkaisu ole, koska se pinta-ala maksaa, oli se käytössä tai ei.
 
Ohnan noita core tai cache disabloituja CPU:ta vaikka kuinka, ihan samalla tavalla. Kytkemällä pois piirien osia voidaan osittain kompensoida huonoja saantoja, mutta ei se mikään täydellinen ratkaisu ole, koska se pinta-ala maksaa, oli se käytössä tai ei.

Ihan yhtä lailla maksaa sen "kokonaan rikkinäisen" pois heitetyn pienen piirin pinta-ala.
Ratkaisevat kysymykset ovat, että kuinka suuri osa piiristä on sellaista, jossa ei ole yhtään redundanssia, ja kuinka paljon piiriä tarvitsee rampauttaa yksittäisen virheen takia.

Välimuisteista voi tyypillisesti kytkeä osan pois päältä.
Ytimistä voi osan kytkeä pois päältä.

Näyttiksissä kun jokainen ydin on tyypillisesti pienempi ja niitä on enemmän, virheen osuessa ytimeen pienempi osa koko piiristä on pilalla.

Piirin eri osia yhdistävissä väylissä oleva virhe tarkoittaa että koko piiri on pilalla.

SoC-piirissä (joita monet nykyaikaiset CPUt on) olevassa IO-ohjaimessa oleva virhe tarkoittaa joko että koko piiri on pilalla, tai sitten että pitää julkaista piiristä sellainen versio jossa kyseinen IO-toiminnallisuus on pois päältä ja sen kanssa pitää esim. käyttää ulkoista IO-piiriä.

Muistiohjaimessa oleva virhe tarkoittaa CPUlla tyypillisesti sitä, että koko piiri on pilalla, mutta joistain näyttiksistä voi osan muistikanavista kytkeä pois päältä, jolloin muistiohjaimessa oleva virhe ei tarkoita koko piirin menemistä pilalle.

Näyttiksessä TMDS-lähettimessä oleva virhe tarkoittaa sitä, että sen TMDS-lähettimen kautta ei saada kuvaa pihalle - sitä voidaan edelleen käyttää laskentakortissa, jossa ei ole näyttöulostuloja, tai sitä voidaan ehkä käyttää korteissa, joissa on vähemmän näyttöulostuloja.


Käytännössä näyttiksissä yksittäinen virhe aiheuttaa pienemmällä todennäköisyydellä koko piirin pilalle menemisen kuin CPUlla, ja kun se ei aiheuta koko piirin pilallemenoa, se tarkoittaa keskimäärin sitä, että pienempi osa piiristä tarvii kytkeä pois päältä ja sitä voidaan edelleen myydä hinnalla joka on lähempänä "täyden piirin" hintaa.
 
Ihan yhtä lailla maksaa sen "kokonaan rikkinäisen" pois heitetyn pienen piirin pinta-ala.
Ratkaisevat kysymykset ovat, että kuinka suuri osa piiristä on sellaista, jossa ei ole yhtään redundanssia, ja kuinka paljon piiriä tarvitsee rampauttaa yksittäisen virheen takia.

Välimuisteista voi tyypillisesti kytkeä osan pois päältä.
Ytimistä voi osan kytkeä pois päältä.

Näyttiksissä kun jokainen ydin on tyypillisesti pienempi ja niitä on enemmän, virheen osuessa ytimeen pienempi osa koko piiristä on pilalla.

Onko näin? Ei GPU:sta yleensä mitään yksittäisiä ytimiä taideta disabloida, vaan blockit joita kytketään pois ovat aikapaljon isompia. Esim tuossa ylempänä mainittiin että 2080 Ti on disabloitu ~10%, joka on about sama kuin 16 ytimisestä CPU:sta olisi 2 corea disabloitu. GPU:ssa on myös paljon enemmän painetta kasvattaa piirien pinta-alaa koska rinnakkaistuvista kuormista johtuen siitä saadaan tosi hyvällä suhteella lisää suorituskykyä, Nvidia tekee käytännössä niin isoja piirejä kuin vaan pystyvät, ja varmasti tekisivät isompia kuin nyt, jos se saantojen suhteen vain olisi mahdollista. Joten en kyllä ymmärrä tätä puhetta että saannoilla ei olisi GPU puolella niin paljon merkitystä.
 
Onko näin? Ei GPU:sta yleensä mitään yksittäisiä ytimiä taideta disabloida, vaan blockit joita kytketään pois ovat aikapaljon isompia. Esim tuossa ylempänä mainittiin että 2080 Ti on disabloitu ~10%, joka on about sama kuin 16 ytimisestä CPU:sta olisi 2 corea disabloitu. GPU:ssa on myös paljon enemmän painetta kasvattaa piirien pinta-alaa koska rinnakkaistuvista kuormista johtuen siitä saadaan tosi hyvällä suhteella lisää suorituskykyä, Nvidia tekee käytännössä niin isoja piirejä kuin vaan pystyvät, ja varmasti tekisivät isompia kuin nyt, jos se saantojen suhteen vain olisi mahdollista. Joten en kyllä ymmärrä tätä puhetta että saannoilla ei olisi GPU puolella niin paljon merkitystä.
Niitä kytketään pois sen verran kuin nähdään tuotesijoittelun kannalta sopivaksi, vaikka vähemmänkin voitaisiin.
 
Niitä kytketään pois sen verran kuin nähdään tuotesijoittelun kannalta sopivaksi, vaikka vähemmänkin voitaisiin.
Joo toki, samahan se on prossuissakin, ei taida olla mitään mikä varsinaisesti estäisi vaikka 15 core prosessorin. Mutta onko jossain dokumentaatiota montako yksittäistä blockkia esim juuri 2080 ti on disabloitu, tuskin se kovin montaa kuitenkaan on?
 
Onko näin? Ei GPU:sta yleensä mitään yksittäisiä ytimiä taideta disabloida, vaan blockit joita kytketään pois ovat aikapaljon isompia. Esim tuossa ylempänä mainittiin että 2080 Ti on disabloitu ~10%, joka on about sama kuin 16 ytimisestä CPU:sta olisi 2 corea disabloitu.

Esim. Ryzenistä ei ole mallia, jossa 16 ytimestä olisi 2 disabloitu, vaan hypätään heti 12aan. Koska jokaisesta CCXstä pitää disabloida yhtä monta ydintä.

Käytännössä ryzenistä voidaan siis ytimistä kytkeä pois päältä joko neljäsosa, puolet tai kolme neljäsosaa.

Tämä on todella paljon suurempi granulariteetti kuin näyttiksissä.

GPU:ssa on myös paljon enemmän painetta kasvattaa piirien pinta-alaa koska rinnakkaistuvista kuormista johtuen siitä saadaan tosi hyvällä suhteella lisää suorituskykyä, Nvidia tekee käytännössä niin isoja piirejä kuin vaan pystyvät, ja varmasti tekisivät isompia kuin nyt, jos se saantojen suhteen vain olisi mahdollista. Joten en kyllä ymmärrä tätä puhetta että saannoilla ei olisi GPU puolella niin paljon merkitystä.

Saannoilla on paljon merkitystä, mutta se, mitä saannoilla tarkoitetaan ei ole nykyaikana niin yksinkertainen asia kuin miten sen ajattelet; Se, kuinka suuri osa piireistä on täysin virheettömiä ei ole niin merkityksellistä, kun piiri jossa on kohtalaisen pieni määrä virheitä voidaan edelleen myydä oikein hyvällä katteella. Pitää ottaa huomioon koko jakauma eri tavalla virheellisistä piireistä, eikä tuijottaa yhtä yksinkertaistettua "saanto"-lukua.
 
Saannoilla on paljon merkitystä, mutta se, mitä saannoilla tarkoitetaan ei ole nykyaikana niin yksinkertainen asia kuin miten sen ajattelet; Se, kuinka suuri osa piireistä on täysin virheettömiä ei ole niin merkityksellistä, kun piiri jossa on kohtalaisen pieni määrä virheitä voidaan edelleen myydä oikein hyvällä katteella.
En ole tietääkseni missään vaiheessa puhunut täysin virheettömistä piireistä, vaan siitä että saannot asettavat ylärajan sille kuinka isoja piirejä voidaan järkevästi tuottaa, ja sitämyöten asettavat aika tiukan katon näytönohjainten suorituskyvylle. Jos niissä saataisiin käyttöön tekniikka jolla GPU voitaisiin valmistaa useammasta pienemmästä sirusta, tämä mahdollistaisi enemmän suoritusyksiköitä ja siten suorituskykyä koska GPU:n pinta-ala ei olisi enää sidottu siihen yksittäisen piirin ekonomiseen maksimikokoon.
 
Joo toki, samahan se on prossuissakin, ei taida olla mitään mikä varsinaisesti estäisi vaikka 15 core prosessorin. Mutta onko jossain dokumentaatiota montako yksittäistä blockkia esim juuri 2080 ti on disabloitu, tuskin se kovin montaa kuitenkaan on?
2080 Ti:lle on verrokki Titan RTX, jossa käytetään samaa piilastua (TU102). Useimpia juttuja 2080 Ti:ssä on yksi kahdeksastoistaosa vähemmän eli noin viisi ja puoli prosenttia puuttuu, mutta muistiväylä on vain 352-bittinen vs 384-bit, eli se on reilut 8 prosenttia kapeampi.
Kertonee siitä, että prosessi on aika hyvässä kondiksessa, kun myydään noin vähän leikattuja piirejä.
 
2080 Ti:lle on verrokki Titan RTX, jossa käytetään samaa piilastua (TU102). Useimpia juttuja 2080 Ti:ssä on yksi kahdeksastoistaosa vähemmän eli noin viisi ja puoli prosenttia puuttuu, mutta muistiväylä on vain 352-bittinen vs 384-bit, eli se on reilut 8 prosenttia kapeampi.
Kertonee siitä, että prosessi on aika hyvässä kondiksessa, kun myydään noin vähän leikattuja piirejä.
Jep, olisi kiva tietää paljonkohan saannot huononisivat jollain modernimmalla prosessilla. Toisaalta jos lasketaan, 754 mm2 piiristä 5% disabloituna olisi n. 37.7 mm2, joka on aikalähellä samaa kokoa kuin Zen core complex (vaikea verrata takasti kun eri prosessi, mutta 14nm zcc on 44mm2), eli puhutaan kuitenkin aika isoista paloista sinällään.
 
Iso monoliitti kellottuu tietyillä volteilla vain sen heikoimman kohdan mukaan. Pikkupiireillä taas voidaan erotella tarkemmin ne paremmin kulkevat piirit erilleen ja saada selvä kellotaajuusetu. Siksi noissa 64 ytimisissäkin on kovemmat kellot kuin Intelin isoissa monoliiteissä.
 
Hauska lukea näitä "haitat yleensä suuremmat" jne. Kyllä joo, jos pitäydytään siinä vanhassa rakenteessa ja ajattelutavassa. Olisiko aika mitettiä myös asiaa siltä kantilta että onko nykyinen tapa se ainoa oikea?

Ei ole mitään "nykyistä tapaa".

MCM-ratkaisuita on tehty vaikka millä mitalla viimeisen 30 vuoden aikana, mutta niitä on käytetty melko vähän koska melko harvoin ne ovat olleet järkeviä. Esimerkkejä vaikka
* Pentium Pro, jossa oli samassa paketissa yhdellä piilastulla ydin ja toisella piilastulla L2-kakku, vuonna 1995.
* Pentium Duo, kaksi P4sta samassa paketissa, 2000-luvulla
* Core 2 quad, kaksi core2duo:a samassa paketissa
* Clarkdale (ensimmäisen sukupolven core i5), ytimet yhdellä piilastulla ja muistiohjain ja IO-toiminnallisuus (sisältäen integroirun näyttiksen) toisella piilastulla, 2010
* Intel Iris Pro-näyttiksen sisältävät läppäriprossut; Uloimman tason eDRAM-välimuisti omalla piilastullaan (Crystall Well)
* Melkein kaikki Intelin viime aikojen läppäriprossut muutenkin; Eteläsiltapiiri omalla piilastullaan CPUn kanssa samassa paketissa.
* AMD Opteron 12-16 ydintä (Interlagos); 2 bulldozer-piilastua samassa paketissa
* AMD EPYC/Threadripper (4 zen-piilastua samassa paketissa)
* Melkein kaikki IBMn POWER-sarjan prosessorit, parinkymmenen vuoden ajalla hyvin monta eri prosessoria.


Ja Mooren lain mukaan kehitys on menossa pikemminkin siihen suuntaan, että MCM-ratkaisuista tulee normaaleissa kuluttajatuotteissa entistä harvemmin järkeviä, paitsi että se mitä tullaan näkemään enemmän on DRAMin tunkeminen samaan MCMään logiikkapiirin kanssa.

Se, että MCM rebrandatään "chipleteiksi" ei tee siitä uutta juttua eikä muuta sen hyödyllisyyttä millään tavalla.

"Chipleteissä" ei ole mitään uutta. Kyse on ikivanhasta jutusta.


Että kannattaisiko vähän edes yrittää ymmärtää asioita, joista kirjoittaa, sen sijaan että uskoo kaiken humpuukin ja ajattelee vaan naiivisti "uudempi parempi" asioista jotka onkin tosiasiassa ikivanhoja.
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
261 704
Viestejä
4 544 738
Jäsenet
74 833
Uusin jäsen
Kanadanhanhi

Hinta.fi

Back
Ylös Bottom