Jos 5700XT:n laskennalliset (FP32) teraflopsit jäivät sinne alle 10 teraflopsin, niin eikö tuolla päästäisi (CUiden tuplaus + pieni kellolisä?) vasta vähän yli 20 teraflopsin. Tuolloin on toki aika lailla luvatun mukainen 50% laskennallinen teholisä 2080Tihin myös saavutettu (2080Ti n. 13.5Tflopsia eli se kertaa 1.5= 20.25). Laskennallisesti 3080 taitaa olla kuitenkin 30Tflops, joten siitä reilusti vielä jäädään. Tuo laskentakaava jättää joka tapauksessa tilaa RDNA1->2 optimoinneille ja jos 50% pitää lähellekään paikkaansa, niin silloin ollaan jo 3080 maastossa.
Ensinnäkin, AMD ei ole luvannut mitään" 50% suorituskykylisää" vaan
50% parannuksen energiatehokkuudessa mikä tarkoittaa esim. samaa suorituskykyä 33% pienemmällä sähkönkulutuksella.
Toisekseen, käytännössä mikään koodi mikä tekee mitään järkevää ei sisällä pelkkiä liukulukulaskuja.
Niiden lukujen tarvitsee tulla jostain, esim, muistista joko latauskäskyillä tai teksturisamplauskäskyillä, jotka pitää myös suorittaa
ja ne muisti- tai tekstuuriosoittet pitää myös jollain laskea.
Ja kun koodissa on loppi, pitää sen loopin laskuria laskea ja sen lopetusehtoa testata jne.
RDNA:lla SIMD-rakenteen takia monet osoitteen- tai indeksilaskennat on yhteisiä 32 tai 64 linjalle, ja siellä on yksi skalaariyksikkö 32 linjaa kohden, ja tätä voidaan (tietääkseni) käyttää näiden laskentaan samaan aikaan kuin lasketaan sitä varsinaista laskentaa SIMD-datapolulla.
Turing-sukupolvessa nVidialla oli jokaista SIMT-linjaa eli "CUDA curea" kohden omat kokonaislukuyksikkö sekä liukuluyksikkö. Samalla kun liukulukuyksikkö laski varsinaista laskentaa, kokonaislukuyksikkö laski osoitteita tai indeksejä ja näiden laskenta ei ollut pois varsinaisesta laskennasta.
Ampere-sukupolvessa tuota kokonaislukuyksiksikköä laajennettin siten että se pystyy laskemaan vaihtoehtoisesti myös liukulukulaskuja(mutta ei yhtä aikaa). Ja tämän jälkeen nämä kaksi yksiköä yhdessä laskettiinkin KAHDEKSI "cuda-ytimeksi".
Ja minkään muiden yksiköiden (latausyksiköt, tekstuurimappaysyksiköt jne) määrää ei myöskään tietääkseni nostettu samalla kun "cuda-ydin-määrää" nostettiin eli näiden määärä/"CUDA-ydin" putosi puoleen.
Eli siis, mikäli koodissa oli hyvin tasaisesti 50%-50% suhteessa liukuluku- ja kokonaislukulaskuja, Amperen nopeus/mainostettu CUDA-ydin tai per mainostettu terafloppi on tasan puolet Turingin nopeuteen nähden.
Käytännössä tyypillisellä koodilla (jossa liukulukulaskuja on enemmän kuin niitä kokonaislukulaskuja) hyöty siitä amperen "cuda-ytimien tuplaamisesta" on ehkä joku n. 30% suorituskykylisä, eli siis "cuda-ydintä kohden" Ampere tekee kellojaksossa tyypillisesti ehkä n. 65% siitä mitä Turing.