Aivan järjetön ajatus.
Ensinnäkin, piiri josta lähtee ulos 8-kanavainen DDR-muisti ja sen lisäksi järkyttävä määrä pcie-väyliä ja muita IO-linkkejä ei voisi olla pieni. Siitä olisi pakko tehdä todella iso, että se IO saadaan järkevästi sen reunoille.
Toisekseen, Zenin ja sen johdannaisten rakenne on sellainen, että L3-kakku on siellä CCXssä hyvin lähellä ytimiä, tuo tarkoittaisi sitten L4-kakun tuomista mukaan.
Kolmannekseen, tuo lisäisi muistiviiveitä, kun mikään muisti ei olisi paikallista muistia
Jossain vähän tuontyylisessä (mutta yksityiskohdiltaan silti selvästi erilaisessa) olisi voinut olla järkeä silloin kun eDRAMissa oli vielä jotain järkeä, siten että siellä IO-piirillä olisi ollut iso eDRAM-pohjainen L4. IBMllä on ollut vähän tämäntyylistä ratkaisua Power-prossuissaan, mutta niissä näitä IO-piirejä on ollut monta per yksi prosessori, jolloin yhden IO-piirin IO-määrän ei ole täytynyt olla järkyttävän suuri.
Tämäkin olisi kuitenkin melko kallis ratkaisu, se ylimääräinen piiri olisi kuitenkin maksanut paljon ja esim. noiden powerien hintalaput on vielä ihan eri luokassa kuin EPYCien hintalaput.
Ja GFn "12nm" tekniikalla (eikä millään sitä kehittyneemmällä tekniikalla) ei tosiaankaan eDRAMia tehdä. eDRAM oli noiden yli "20"-nanometristen prosessien juttu.
Ja tosiaan mitään tuollaista ei yksinkertaisesti tarvita yhtään mihinkään. "7nm" valmistusprosessi on yli 2 kertaa tiheämpi kuin "14nm" prosessi jolloin jos vaikka jokainen "zen2"-ydin olisi hiukan isompi kuin zen-ydin, niitä saadaan silti melko helpolla kaksinkertainen määrä melko samanlaisella rakenteella, joko tuplaamalla ytimien määrä CCXssä tai CCXien määrä piilastulla. Ja noista aluksi tulevista 48-ytimisuistä saadaan siis helposti pienempi kuin nykyisistä 32-ytimisistä.
IBM zEnterprise-vehkeissä tuota eDRAMia on käytössä edelleen, vaikka viivanleveys on 14nm. L3-tasolla 128MB/CPU/10corea ja L4-tasolla erillisessä storage controllerissa (SC) 672MB/6CPU/60corea.
Kuusi CPU:ta muodostaa yhden kokonaisuuden ja noita kokonaisuuksia voi olla max. neljä. L2:sta on 2MB(instr.)+4MB(data)/core ja L1:stä 128+128KB/core. Mitä tuosta nyt sitten tulee...täyteen pumpattu z14 (24CPU/240corea) pitää sisällään prossuvälimuisteja jonkun 7GB. Normaaliin käyttöön saa kuitenkin max. 170corea, koska koneelle luvattu 99,999% käytettävyys vaatii varaprossujen dedikoimista + ilmeisesti sisäinen toiminta vaatii oman laskentatehonsa.
Kun tuota nyt tarkemmin tutki, niin tuon yhden kuuden CPU:n laskentakokonaisuuden välinen prossukommunikointi hoidetaan core-tasolla L3:lla ja prossujen välillä taas käyttäen tuota SC:tä/L4-tason välimuistia. Koneen sisäinen "äly" pyrkii pitämään toisiinsa liittyvän laskennan mahdollisimman lähellä nopeinta välimuistiporrasta eli max. 20 säiettä (1CPU/10corea+SMT) L3:lla ja jos menee yli, niin käytetään L4:sta 120 säikeeseen asti (6CPU/60core+SMT). Tuon yli jos mennään, niin kommunikointi prosessoriyksiköiden välillä hoidetaan SC:den/L4-puskureiden välillä, jotka kytketty toisiinsa mesh-arkkitehtuurilla. CPU:t (6,1mrd transistoria/CPU) toimivat 5,2GHz taajuudella ja SC (9,7mrd transistoria) puolella taajuudella eli 2,6GHz. Yhden CPU:n väyläkaista on 2,9Tb/sec ja yhden SC:n 5,5Tb/sec. Väylinä on jotain A-buseja ja X-buseja. Toki normimuistin kautta voidaan myös kommunikoida, mutta tiedä sitten niiden väylistä ja nopeuksista mitään. Näköjään max. 32TB ja jotain RAID-tyyliin varmistettua muistia.
https://ieeexplore.ieee.org/document/8310171/
IBM z14 (microprocessor) - Wikipedia
Intelillä näköjään myös joissain 14nm Skylakeissa eDramia käytössä:
Intel Adds Crystal Well-based Skylake-R Processors: 65W with 128MB eDRAM
IBM:n Power9:ssä näköjään kaksi versiota nykyään: pienemmät kokonaisuudet integroiduilla muistiohjaimilla ja isommilla CPU-määrillä taas prossujen ja muistin välissä puskurointia ja optimointeja hoitavat Centaur-piirit, joissa mm. L4-tason eDRAM-välimuistit. Varmaan jotain samanlaista kuin em. z-arkkitehtuurissa. Samoin Power9:n L3 (128MB/12core/SMT8 tai 128MB/24core/SMT4) on eDRAMia.
The Deal On Power9 Memory For Entry Servers - IT Jungle
POWER9 - Wikipedia
Ja takaisin aiheeseen eli eDRAM näyttäisi olevan edelleen ihan käytössä oleva teknologia, mutta on tietty kalliimpaa lystiä. Samoin kun prosessoriydinten lukumäärä kasvaa tietyn pisteen yli, niin näyttää siltä että L4-taso tai joku vastaava puskurointikerros on otettava mukaan tasaisemman skaalautuvuuden takia. eDRAM tarjonnee tähän parhaimman väliportaan hinta/nopeus/GB-suhteessa verrattuna esim. puhtaasen SRAMiin. Nyt kun näyttää palvelinpuolella säikeitten määrät kasvavan kovaa vauhtia, niin en ihmettelisi jos näitä ratkaisuja aletaan nähdä enemmän. Toki vain high-end-puolella, jossa toisistaan riippuvaisia säikeitä on törkeästi ja tarve myös pystyä skaalautumaan niihin tasaisesti. Tietty kun viivanleveys pienenee, niin samalle piirille saadaan enemmän ytimiä ja myös välimuisteja, mutta sitten taas niitä välimuisteja tarvitaan enemmän ja SRAM vie enemmän tilaa kuin eDRAM jajaja...
Edit. Anandtechiltä mielenkiintoinen blogi aiheesta:
Hot Chips: IBM's Next Generation z14 CPU Mainframe Live Blog (5pm PT, 12am UTC)
Sivun kommentit myös mielenkiintoisia. Jännä kuinka näitä monstereita kehitellään vähän kuin salaa suuren yleisön tietämättä.