No, sen sanoin jo murobbs aikaan.. Nyt mietin lähinnä sitä, että todellako pelit säikeistyvät edelleen noin huonosti? Ehkä AMD:n ja Intelin kannattaisi tehdä peliprossut, joissa olisi vain esim 8 ydintä, mutta cachea sitten kaikki vapautunut tila.. Huippumalli olisikin siis cachen mukaan, ei ytimien, Åniinkuin nykyään..
Nyt kun valmistustekniikan rajat tulevat kiihtyvällä vuahdilla vastaan, niin kannattaisi miettiä esim ne peliprossut uudestaan:
Integroitu näyttis:
- Ei käytetä, joten pois ja cachea tilalle.
- Suuri määrä ytimiä: Selkeä rajaus, esim 8:n kohdalle ja vapautunut tila cachea.
- Nopea muisti tuo hyötyä -> Prossuun tulisi integroida esim 16 gigaa hbm:ää 1-2:n normikanavan lisäksi. Tämä vaatisi pientä viilausta käyttis / ohjelmistopuolella, muttei ole mitenkään mahdoton homma..
Se HBM2 on viiveiltään selvästi
hitaampaa kuin DDR5.
Näyttiksellä HBM2 on hyvä kun kaista on paljon tärkeämpää kuin viive, mutta CPU-käytössä (erityisesti pelatessa) viive on tyypillisesti tärkeämpää, ja DDR5 voittaa.
HBM2-muistissa CPUn kanssa samassa paketissa on järkeä silloin kun joko
1) suurin osa siihen HBMään tulevista accessista on integroidun näyttiksen eikä CPUn tekemiä.
2) CPUssa on hyvin suuri määrä ytimiä joilla ajetaan hyvin rinnakkaistuvia workloadeja, joissa sekä paljon säikeitä että järeää SIMD-laskentaa.
Ja kyllä peleissäkin on tyypillisesti pelienginen puolella jonkin verran hyvin rinnakkaistuvaa raakaa laskettavaa joka on isoa CPUa-ydintä järkevämpää laskea joko
1) usealla pienellä CPU-ytimellä
2) näyttiksellä GPGPU-hommana.
Ja sitä mukaa kun esim. NPC-hahmojen tekoäly paranee, tämän määrä nousee.
Tosin näyttiksen käyttämisessä tällaiseen on huomattavasti softagappia, softat ei vaan hyödynnä kun GPGPU-koodaus on niin paljon vaikeampaa kuin pelkälle CPUlle koodaaminen.
Ja niistä valmistuskustannuksista: Jopa keskikokoiset prosessoriytimet on oikeasti todella halpoja.
Käytännössä yhden Golden Coven hinnalla saa melkein neljä Gracemonttia.
Ja välimuisteja kyllä kasvatetaan jatkuvasti, mutta sekään ei ole ongelmatonta.
Välimuistin kasvattaminen käytännössä tekee siitä, hitaampaa, eli jos L3-välimuistia aletaan suurentamaan selvästi, halutaan myös kasvattaa L2-välimuisteja, jotta L2-huteja tulee harvemmin. Mutta tämä taas tekee siitä L2sta myös hitaampaa, ja luo painetta kasvattaa myös L1-välimuisteja (joiden kasvattaminen alkaa sitten vielä helpommin mennä ongelmallisemmaksi niiden viiveen tai saavutettavien kellotaajuuksien kannalta)
Jos taas pidetään L3n määrä ennallaan ja sen sijaan lisätään uusi L4-välimuisti, sitten pitää tehdä yksi tarkastus enemmän ennen kuin varsinainen DRAM-access aloitetaan => sen kaikki välimuistit missaavan accessin kokonaisviive kuitenkin kasvaa => sen L4-välimuistin kannattaisi sitten olla taas reippaasti suurempi kuin L3, jotta niitä missejä on selvästi vähemmän, ja samalla saatetaan haluta jopa pienentää L3-välimuistia jotta toisaalta siellä säästetään pinta-alaa jonka voi käyttää L4lle ja toisaalta jotta se L3 on nopeampi että sen L4n osumantarkastuksen voi aloittaa mahdollisimman aikaisin (esim. Intelillähän L2-välimuisti putosi 6 MiB => N * 256 kiB) core2=>nehalem kun L3-välimuisti tuli).
Että välimuistien kasvattaminen järkevästi ei suju sillä että vaan speksataan paljon suurempi välimuisti vaan kannattaa miettiä kokonaisvaikutukset ja tasapainottaa arkkitehtuuri järkevästi. Ja sitten jos samaa mikroarkkihtehtuuria käytetään kuitenkin muissakin tuotteissa, pitää miettiä että miten saadaan tasapainoiset välimuistien viiveet ja koot koko tuotelinjan laajuisesti.
ja tosiaan viime vuosina SRAMin tiheys on uusissa valmistusprosesseissa skaalautunut huonommin kuin logiikan tiheys => välimuistien hinta/kapasiteetti on pysynyt melko ennallaan tai jopa kasvanut uusien valmistusprosessien myötä siinä missä ydinten logiikan hinta on hiukan laskenut.