Pelien yleisimmin käyttämä FP32 on 24% parempi mitä V100 piirillä. Vastaavasti jos kertoo shaderytimet kellotaajudella ja vertaa sitä V100 piiriin, niin tulee myös tuo 24% ero. Sillä puolella ei vaikuttaisi olevan IPC parannusta.
Nämä luvut on
teoreettisia flopseja.
Tosilmaailman IPC-parannukset perustuvat tyypillisesti siihen, että piiri idlaa vähemmän ja pääsee todellisella koodilla
lähemmäs sitä teoreettista
eivätkä ne tällaisissa teoreettisissa luvuissa suoraa näy yhtään.
Näiden teoreettisten flopsien peruteella ei siis voi todellisesta IPCstä
suoraan päätellä mitään. Epäsuorasti kylläkin, tästä alempana:
FP16 laskuteho on tuplaantunut, jos korjataan tuo core/kello ero pois. Se on kova uudistus. Uudet pelit käyttää sitä jonkin verran, joten se alkaa jo näkyä pelisuorituskyvyssä.
Tämä ihmetyttää aika paljon, kun mitään selitystä tälle ei mainita.
Oma veikkaukseni on, että kokonaislukulaskuyksikköön on lisätty tuki Fp16-liukuluvuille; Voltassa ja Turinigssahan on siis rinnakkain kokonaislukyksikkö ja liukulukyksikkö, joita voi käyttää yhtä aikaa.
Se, että kokonaislukyksikköön olisi lisätty fp16-laskut ei lähellekään tuplaisi sitä tosimaailman fp16-suorituskykyä, koska tällöin sen (tuplanopean) fp16-laskennan kanssa rinnakkain ei voitaisi tehdä "ilmaiseksi" niitä looppien indeksien laskemisia, muistiaccessien osoitelaskuja, looppien ehtojen tarkastuksia, jne. jotka voltassa ja turingissa tai muilla tarkkuuksilla laskettaessa voidaan tehdä rinnalla "ilmaiseksi".
Ja kaikki tosimaailman koodi sisältää huomattavan määrän näitä kaikkia.
Eli käytännössä tämä tarkoittaisi sitä että se "tosimaailman" fp16-laskennan suorituskyky pikemminkin keskimäärin ehkä vain n. 1.4-kertaistuisi (mutta tämä parannus olisi hyvin riippuvainen siitä, millaista koodia sillä ajetaan)
Edelleen jos katsoo FP32 suorituskykyä, niin TDP kasvoi 33% ja teho 24%. Noin jos katsoo
videocardzin speksejä. Ainakin noiden perusteella Amperessa olisi todellakin laitettu ihan kaikki paukut konesalien kaipaamaan laskentakykyyn, joka on polttanut 7nm parannuksen. 2.5x transistoreita ja nuo konesalien kaipaamat laskentatavat on aika brutaaleja.
Eiköhän kuluttajaversio Amperesta ole aika rajusti leikattu versio tuosta arkkitehtuurista, ei tuota pelipuolen kannalta turhaa laskentakykyä kannata mukana kuljettaa. Tekevät piireistä kalliita tehoihin nähden ja ovat haitaksi perf/w vertailussa.
Sitä piiriä ei todennaköisesti saa kuluttamaan läheskään täyttä TDPtään pelkillä shader-ytimillä tehtävillä FTP32-laskuitoimituksilla, vaan se vaatii tensoriytimien käyttöä.
Jolloin näiden lukujen vertailussa ei ole mitään mieltä. Ne kellot on asetettu sen verran alas, että se sähköntuotto pysyy sen TDPn sisällä silloin, kun niitä (aiempaa järeämpiä) tensoriytimiä kuormitetaan täysillä.