RTX 4070 ti:ssä on 7680 CUDA corea, ja tuon mukaan 4060 ti:ssä on 4352. Koska 4070 ti:n raaka numeronmurskausteho on 40 tflops, voidaan laskea että 4060 to:llä se olisi 4352 / 7680 * 40 = 22,7.
Ei voida, koska piireillä on todenäköisesti eri kellotaajuudet.
Raaka numeronmurskausteho on laskentayksiköiden määrä * kellotaajuus (ja kun kyse on FMA-operaatiosta, vielä kerroin 2 päälle koska jokainen yksikkö laskee samalla kertolaskun ja yhteenlaskun)
7680 * 2.610 *2 = 40089
Siihen, että lasketaan 4060ti:n teoreettisia flopseja ei tarvi tietää mitään 4070ti:n flopseista.
Voidaan laskea vaan suoraan esim. että 4352 * 2.5 * 2 = 21760 jos oletetaan vaikka 2.5 GHz kellotaajuus , tai 4352 * 2.7 * 2 = 23500 jos oletetaan vaikka 2.7 GHz kellotaajuus.
Koska 3060 ti on 16 tflopsia, tuskin uusi kortti hitaampi on, mutta ero pienenee isommilla resoilla. 3070 taas on 20 tflops, joten 4060 ti voi oikeasti olla sitä hitaampi yhtään isommilla resoilla.
Juu.
Tosin, vaikka raakojen flopseien vertailu on hyvä suuntaa-antava indikaattori jos parempaa dataa ei ole, niitä ei voi/kannata myöskään aina verrata ihan suoraan. Todellisessa koodissa on aina paljon muitakin käskyjä kuin niitä varsinaisia laskentakäskyjä.
Ja jos verrataan kahta arkkitehtuuria, joista toisessa voi suorittaa yhden käskyn kellojaksossa, toisessa, yhden laskentakäskyn sekä jonkun muun käskyn sen kanssa rinnakkain, teoreettisef flopsit on samat, mutta toinen on selvästi nopeampi kaikella tosimaailman koodilla.
Turing-arkkitehtuurissa(2000-sarja) jokainen ydin pystyi laskemaan rinnakkain liukulukulaskentakäskyn sekä jonkun muun käskyn. Ja tämän takia ne "teoreettiset flopsit" saatin myös erinomaisesti käyttöön tosimaailman tilanteissa, kun ne muut käskyt eivät kilpailleet samosita resursseista liukulukukäskyjen kanssa.
Sitten Ampere-arkkitehtuurissa ytimiä kasvatettiin siten että joka ytimellä pystyttiin laskemaan rinnakkain myös kaksi laskentakäskyä(mutta näiden kanssa ei mitään kolmatta käskyä rinnakkain), ja samalla markkinamiehet alkoivat mainostaa tuplasti suurempaa cuda-ydin-määrää, koska teoreettiset flopsit oli tuplattu, vaikka todellista ydinmäärää tai linjamäärää ei ollut tuplattu, eikä tosimaailman suorituskyky ollut läheskään tuplattu (vaan pikemminkin luokkaa 1.3-1.5-kertainen), koska usein se liukulukuyksikkö ei voinut suorittaa varsinaista laskentakäskyä kun samassa slotissa piti suorittaa jotain muuta käskyä.
Mutta Amperen ja Adan välillä ei ole shader-prossujen arkkitehtuureissa yhtä suuria eroja kuin Turingin ja Amperen välillä, joten luvut näiden välillä on paremmin vertailukelpoisia kuin Turiningin ja Amperen välillä.