1usmus: Zen 3:sta 10-ytiminen versio, ydinkohtainen ylikellotus ja muita uudistuksia

Kaotik · 09.09.2020

BlackWolf sanoi:
Kyllä ne todellakin on tarkkaan varjeltuja salaisuksia, esim. tuossa 7nm+ vs 7nm ei kerrottu, että missä vaiheessa kehityskaarta eikä, että verrattuna miten. Esim. AMD:ltä on vuotanut, että yieldit olisi ollut 70% alussa. Kyllähän tuolla varmasti tuote markkinoille saadaan ja tuotantoon, mutta ei noi luvut ole mitään kummosia jos nyt vertaa matemaattisiin malleihin. Miksi näitä vuotaa sitten joku salainen tietolähde jos kerran täysin on julkisia?

AMD Zen 2: Production yields for Ryzen 3000 Dies at 70 percent

Whenever you fab a wafer with CPU/GPU dies (or whatever they are fabbing), there are always defects. So if a wafer has 200 CPUs dies and 50 are functional, your yield is 25%. Well, the yield of the Z...

www.guru3d.com

Koska tuollaisilla uutisilla saadaan klikkejä, eikä mikään sano että kyseinen väitetty vuoto olisi edes ikinä pitänyt paikkaansa, Bits'n'Chipsiltä on muitakin huuhaa"vuotoja" tilillään.
Noista kerrotaan tietyissä yhteyksissä ja tilaisuuksissa, se ei tarkoita että voit soitaa TSMC:lle ja kysyä mikä on sen ja sen asiakkaan sen ja sen piirin yieldit, mutta prosessin yieldeistä kerrotaan esimerkiksi alan tapahtumissa, firman lehdistötilaisuuksissa yms.
Mistä sinä nyt vielä N7+:n tähän soppaan revit?

hkultala · 09.09.2020

jive sanoi:
myönnetään ettei tuotantoteknisesti ole tolkkua toteuttaa kahden eri ydinmäärän piirisillä toteutettua suoritinta kun tasajaollakin voidaan mennä. Minusta on vain outoa että jos Windows osaa hyödyntää sekä AMD, että Intel prosessorilla nopeinta ydintä tai ytimiä jo nyt, mitä ongelmia se aiheuttaisi että ytimet ovat fyysisesti eri piirisissä. Olen tähän asti kuvitellut että suorittimen sisäinen rakenne on käyttöjärjestelmälle läpinäkyvä, mutta ilmeisesti olen sitten väärässä.

Kuinka vaikea se on ymmärtää, että tässä on kyse aivan eri tilanteesta?

Edelleen jatkat täysin rikkinäisiä vertailuita aivan eri tilanteeseen ja sotket asiaan vaikka mitä siihen täysin liittymätöntä.

Se, mitä sinä olet "ehdottamassa" ei sisällä mitään erinopeuksia ytimiä vaan tasan yhtä nopeita ytimiä.

Vaan tässä on kyse siitä, mitkä ytimet jakavat mitäkin välimuisteja keskenään.

Se, että windows ehkä jollain tavalla tukee "erinopeuksisa" ytimiä ei auta YHTÄÄN tämän kanssa kun kyse on TÄYSIN ERI ASIASTA.

hkultala · 09.09.2020

pomk sanoi:
Jep. Ainoa poikkeus on intel, jolla ei ole tarvetta markkinoida prosessiaan sillä se ei ole kyseisen firman tuote.

Intel kyllä tekee jonkun verran foundry-valmistusta kolmansien osapuolien custom-piireille, tosin usein kai siten että sinne piirille tulee sittne samalla myös aika paljon Intelin suunittelemaa logiikkaa mukaan, esim. Intelin prossuytimiä.

Mutta ilmeisesti neuvottelut näistä käydään sitten firmojen välillä tiukkojan NDA-sopimusten alaisina eikä näitä mainosteta samalla tavalla julkisesti kuin mitä TSMC ja Samsung mainostavat prosessejaan.

ratkakapu · 09.09.2020

hkultala sanoi:
Se, että windows ehkä jollain tavalla tukee "erinopeuksisa" ytimiä ei auta YHTÄÄN tämän kanssa kun kyse on TÄYSIN ERI ASIASTA.[/B]

Eikös tuossa olisi hyvinkin useissa skenaarioissa "kahden nopeuksisia ytimiä" jos yksi CCX ois 8 ydintä 32 megan L3 välimuistilla ja toinen CCX olisi 2 ydintä 32 megan L3 välimuistilla?

Toki CCX:t osaa lukea ristiin välimuistejaan mutta tätä pyritään aina välttämään

pomk · 09.09.2020

@BlackWolf sain nyt laskettua ton auki. Jotta 7 ytiminen siru ei olisi se todennäköisin muuten toimiva viallinen piiri, niin virheitä pitää tulla ytimiin sataa piiriä kohden vaatimattomat 106 kappaletta. Tällöin täysien piirien suhteellinen yieldi olisi huimat 34%. Jotta edes joka sadas muuten toimiva piiri olisi varustettu vain kolmella toimivalla ytimellä, niin täysien piirien suhteellinen yieldi olisi 32%. En yrittänyt laskuissa simuloida tilanteita joissa virheet osuvat jonnekkin missä on ydinmäärään vaikuttamatonta redundanssia tai joista chipletit vikaantuisivat niin että niitä ei voida ollenkaan käyttää. Tällä ei ole vaikutusta noihin toimivien prosessorien keskinäisiin suhteisiin, vaan se pelkästään kasvattaisi tuota '0 working cores' saraketta tasaisesti muiden sarakkeiden kustannuksella. N7 prosessilla virheitä tulee keskimäärin kuusi kappaletta sataa zen2 chiplettiä kohden, ja niistä virheistä osuu ytimiin noin puolet, eli kolme. Vaikka N7+ olisi kaksi kertaa huonompi virhetiheydessä kuin N7 (TSMC sanoo että se on jotakuinkin sama kuin N7 prosessilla), niin silloinkin taulukosta tulisi katsoa noin riviä kuusi verrattaessa muuten toimivien prosessorien suhteellisia toimivien prosessoriytimien määriä (olettaen että zen3 chipletit on jotakuinkin samankokoisia kuin zen2 chipletit).

tl,dr: jos AMD tuo 6 ytimiset mallit markkinoille 7 ytimisten sijaan tohon perus budjettiluokkaan, niin kyseessä on puhdas tuotesegmentointipäätös ja niistä noin 97% voisi avata 7 ytimen malleiksi. Lisäksi tossa 5+5 10core mallissa ei ole mitään järkeä kuin tuotesegmentointimielessä, vaikka saannot olisi ihan kauheat. Tuotantoteknisesti ainoat järkevät mallit on 7,8,14 ja 16 ytimiset mallit, joista jokaisesta pari eri kellontaajuuskategoriaa (esim. bottom 90% ja top 10% - tästä voi ihan hyvin väitellä). Lisäksi joku 6 ytiminen jämämalli voidaan tuoda markkinoille joskus myöhemmin kun niitä on ensin kerätty järkevä määrä. Periaatteessa todella huonosti kellottuvia ytimiä voisi disabloida ja siten saada kasvatettua noita '6 ytimisten' prosessorien suhteellista määrää, mutta jos tämänkin uutisen huhut pitävät paikkaansa, niin niitäkin voitaisiin hyödyntää juuri niillä kellontaajuuksilla kuin mihin ne pystyvät.

Tänne ei saa exceleitä upotettua, mutta alla vielä screenshotti ihmeteltäväksi, voin privassa heittää sen itse excelin ihmeteltäväksi jos käytetty matematiikka ihmetyttää:

hkultala · 09.09.2020

ratkakapu sanoi:
Eikös tuossa olisi hyvinkin useissa skenaarioissa "kahden nopeuksisia ytimiä" jos yksi CCX ois 8 ydintä 32 megan L3 välimuistilla ja toinen CCX olisi 2 ydintä 32 megan L3 välimuistilla?

Ei.

Kun molemmilla on ajossa yksi säie, ne toimivat tasan yhtä nopeasti.

Kun molemmilla on ajossa kaksi säiettä, ne toimivat tasan yhtä nopeasti.

Toiselle ainoastaan voidaan skeduloida enemmän säikeitä ja tilanteessa kun siellä on ajossa enemmän säikeitä, voi suorituskyky sitten hidastua kun usemapi säie käyttää sama L3-kakkua.

Mutta mikään "skeduloidaan eniten suorituskykyä tarvitseva säie nopeimmalle ytimelle"-logiikka ei toimi järkevästi kun ei ole mitään "nopeinta ydintä".

Ja logiikka "skeduloidaan eniten suorituskykyä tarvitseva säie yksinäiselle ytimelle" toimii vaan pessimointina, hidastaen pelien kaltaisilla workloadeilla joilla on yksi raskas säie joka kommunikoi melko paljon muutaman kevyemmän säikeen kanssa.

Toki CCX:t osaa lukea ristiin välimuistejaan mutta tätä pyritään aina välttämään

Ei suoraan, ainoastaan oman CCXn välimuistin kautta. Jos data löytyy toisen CCXn välimuistista, se pitää kopioida sieltä oman CCXn välimuistiin ennen kuin sitä voi käyttää. Jos molemmat CCXt käyttää samaa dataa, sen pitää olla molempien CCXien välimuisteissa.

Ja jonkun CCXn ydin ei voi koskaan "ladata dataa toisen CCXn välimuistiin". Se toisen CCXn L3-välimuisti ei toimi "L4-välimuistina CCXn välimuistille".

jive · 09.09.2020

hkultala sanoi:
Vaan tässä on kyse siitä, mitkä ytimet jakavat mitäkin välimuisteja keskenään.

Hyvä, voitko avata miten ne eroavat? Jokseenkin varmana kai pidetään että piirinen sisältää vain yhden kahdeksan ytimen CCXn, mutta loppu on kait vielä oletusta?
Voi olla että minulla on jotain mennyt ohi mutten nyt äkkiä löytänyt verkostakaan mitään varmistettua. Jos aikaisemmista viesteistäsi olen oikein poiminut niin ytimellä on oma L1, CCXn ytimien kesken jaettu L2 ja CCX ryhmien kesken jaettu L3. Mikä yksityiskohta tästä vielä puuttuu jotta ytimien näkemä kuva keskusmuistista olisi eri ytimien välillä joilla on eri määrä naapuriytimiä?
Edit:
Vai oliko L2 myös ydinkohtainen, jolloin ytimet voivat jakaa dataa vain L3 kautta riippumatta kummalla piirisellä ydin on?

hkultala · 10.09.2020

jive sanoi:
Hyvä, voitko avata miten ne eroavat?

Juuri selitin eilen, näkyy täällä EDELLISENÄ VIESTINä tuohon omaan viestiisi.

1usmus: Zen 3:sta 10-ytiminen versio, ydinkohtainen ylikellotus ja muita uudistuksia

Kyllä ne todellakin on tarkkaan varjeltuja salaisuksia, esim. tuossa 7nm+ vs 7nm ei kerrottu, että missä vaiheessa kehityskaarta eikä, että verrattuna miten. Esim. AMD:ltä on vuotanut, että yieldit olisi ollut 70% alussa. Kyllähän tuolla varmasti tuote markkinoille saadaan ja tuotantoon, mutta...

bbs.io-tech.fi

Jokseenkin varmana kai pidetään että piirinen sisältää vain yhden kahdeksan ytimen CCXn, mutta loppu on kait vielä oletusta?
Voi olla että minulla on jotain mennyt ohi mutten nyt äkkiä löytänyt verkostakaan mitään varmistettua. Jos aikaisemmista viesteistäsi olen oikein poiminut niin ytimellä on oma L1, CCXn ytimien kesken jaettu L2

Ei. Vaan joka ytimellä on oma L2-välimuistinsa.

ja CCX ryhmien kesken jaettu L3.

Et vielä sekavammin osaisi tätä sanoa?

Jokaisella CCXllä on oma, CCX eri ytimien jakama L3.

Mikä yksityiskohta tästä vielä puuttuu jotta ytimien näkemä kuva keskusmuistista olisi eri ytimien välillä joilla on eri määrä naapuriytimiä?
Edit:
Vai oliko L2 myös ydinkohtainen, jolloin ytimet voivat jakaa dataa vain L3 kautta riippumatta kummalla piirisellä ydin on?

L2 on zen-arkkitehtuurissa ydinkohtainen.

Tämä selviäisi ziljoonasta eri lähteestä todella nopeasti paikasta jos yhtään jaksaisi ottaa asiosta selvää sen sijaan että postaa cargo cult-speksejä ja mutua. Esim. googlen kuvahakuun "zen l2 cache" tuottaa ekana seuraavan osuman:

jive · 10.09.2020

Cargo cult oli outo termi. Ilmaisin itseäni huonosti, hain sitä takaa että millä tasolla ytimien välillä voi tietoa siirtyä. L3 tason kautta oli vastaus yhden CCX lohkon osalta mutta oliko L3 koherentti piiristen välillä vai pitääkö kiertää keskusmuistin kautta? Ja kyllä, Zen arkkitehtuurista löytyy juttua, mutta jos tämä Z3 nyt oikeasti on uusi mikroarkkitehtuuri kuten AMD mainostaa niin onko joku syy olettaa että välimuistihierarkia on sama kun kuitenkin jo tiedetään ettei piiristen rakenne ole?

pomk · 10.09.2020

jive sanoi:
oliko L3 koherentti piiristen välillä

Pitää olla, muuten tulee ongelmia. Tuon osalta tilanne tulee pysymään samana. Oletan nyt siis että tarkoitat sitä että jos sama tavu yritetään lukea muistista kahdelle eri CCX:lle, niin se joka lukee sitä vuorossa toisena joutuu tarkistamaan sen mahdollisen tilan muista L3 välimuisteista.

jive · 10.09.2020

pomk sanoi:
Pitää olla, muuten tulee ongelmia. Tuon osalta tilanne tulee pysymään samana. Oletan nyt siis että tarkoitat sitä että jos sama tavu yritetään lukea muistista kahdelle eri CCX:lle, niin se joka lukee sitä vuorossa toisena joutuu tarkistamaan sen mahdollisen tilan muista L3 välimuisteista.

Tarkemmin ottaen kun toinen muuttaa alkion sisältöä niin päivittyykö sama tieto vai merkitäänkö se vain likaiseksi. Jos ensimmäinen niin en näe että käyttöjärjestelmän puolelta katsottuna on mitään eroa millä piirisellä säie on ajossa. Jos jälkimmäinen niin sitten kyllä.

pomk · 10.09.2020

jive sanoi:
Tarkemmin ottaen kun toinen muuttaa alkion sisältöä niin päivittyykö sama tieto vai merkitäänkö se vain likaiseksi. Jos ensimmäinen niin en näe että käyttöjärjestelmän puolelta katsottuna on mitään eroa millä piirisellä säie on ajossa. Jos jälkimmäinen niin sitten kyllä.

MOESI protokollaa käyttää ihan normaalisti mikäli olen oikein ymmärtänyt.

1usmus: Zen 3:sta 10-ytiminen versio, ydinkohtainen ylikellotus ja muita uudistuksia

Kaotik

Banhammer

AMD Zen 2: Production yields for Ryzen 3000 Dies at 70 percent

hkultala

hkultala

ratkakapu

pomk

Liitteet

hkultala

jive

hkultala

1usmus: Zen 3:sta 10-ytiminen versio, ydinkohtainen ylikellotus ja muita uudistuksia

jive

pomk

jive

pomk

Uutiset

Uutisia lyhyesti

Uusimmat viestit

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi