NVIDIA-spekulaatioketju (Lovelace ja tulevat sukupolvet)

Kaotik · 22.06.2020

Lepakomäyrä sanoi:
Rtx2070 = 12nm"16nm"
7.465 TFLOPS ja silti nopeampi

Rx5700 = 7nm
7.949 TFLOPS ja silti hitaampi

Valmistustekniikka ei edelleenkään vaikuta siihen nopeuteen mitenkään, 1 TFLOPS 5nm:llä on ihan saman verran teoreettista laskutehoa kuin 1 TFLOPS 130µm:lla.
Lisäksi vertailet teoreettisia lukemia, vaikka tiedetään esimerkiksi että RTX 2070 boostaa selvästi korkeammalle kuin mistä tuo 7.465 TFLOPSia on laskettu, kun AMD:lla se Boost-kello pyörii siellä maksimiboostin tuntumassa (mistä sen teoreettiset flopsit on taas laskettu)

Tällä ei myöskään ole mitään tekemistä sen @hese_e mainitseman testin kanssa.

Lepakomäyrä · 22.06.2020

hese_e sanoi:
Tuo computerbasen testi oli kellot vakioituna, eikä boosteilla. Jos lunttaat techpoweruppia, niin refukorteilla 5700:n mediaanikellot on 1689mhz ja 2070:n 1875mhz, kelloero on tarkalleen se perffiero joka napsahtaa performance summary sivulle noiden kahden välille. Eli sekin vahvistaa tuota computerbasen testiä, navi ja turing coret on yhtä tehokkaita, jos kellot vakioidaan.

Ynnä TFLOPS on teoreettinen arvo joka lasketaan ytimistä ja kelloista. Se ei kerro hyötysuhteesta mitään ja aina vain opportunistisemmat boostialgoritmit tekee sitä vielä epätarkemman. Nvidiakin boostaa speksejään korkeammalle.

Se miten korkealle kellot venyy niin on ihan Turingin vahvuuksiin lukeutuva ominaisuus.

Jos Ampere venyy esim 2.1Ghz niin vedetäänkö kellot alas jotta saadaan tasavertainen vertailu.
Joo tiedän että tarkoitit IPC joka on yhtä tyhjänkanssa, paitsi jos nyt haluaa nerfata esim. sen Rtx2070 alikellottamalla.

Jos sieltä tulee esim 50% nopeampi samalla IPC.llä niin mulle on sitten ihan sama koska en ole alikellottamassa.
Ja jos kilpailija ei veny niihin kelloihin niin se on sitten yksinkertaisesti siltä osin huonompi.

En mä intelin prossujen kellojakaan laske muuksi kuin vahvuudeksi, pystyy johonkin mihin kilpailija ei, aivan kuten Nvidia.
Onko sitten kovemmat kellot kiinni arkitehtuurista vai mistä mutta etua siitä on kuitenkin.

hese_e · 22.06.2020

Lepakomäyrä sanoi:
Se miten korkealle kellot venyy niin on ihan Turingin vahvuuksiin lukeutuva ominaisuus.

Jos Ampere venyy esim 2.1Ghz niin vedetäänkö kellot alas jotta saadaan tasavertainen vertailu.
Joo tiedän että tarkoitit IPC joka on yhtä tyhjänkanssa, paitsi jos nyt haluaa nerfata esim. sen Rtx2070 alikellottamalla.

Jos sieltä tulee esim 50% nopeampi samalla IPC.llä niin mulle on sitten ihan sama koska en ole alikellottamassa.
Ja jos kilpailija ei veny niihin kelloihin niin se on sitten yksinkertaisesti siltä osin huonompi.

En mä intelin prossujen kellojakaan laske muuksi kuin vahvuudeksi, pystyy johonkin mihin kilpailija ei, aivan kuten Nvidia.
Onko sitten kovemmat kellot kiinni arkitehtuurista vai mistä mutta etua siitä on kuitenkin.

Ei mulla ole tarvetta jatkaa tätä offtopicia. Pointti oli se, että AMD sai nvidian kiinni IPC:ssä ja on tuomassa myös isoa piiriä kisaan mukaan. Tämän ketjun kannalta sillä ei ole pahemmin väliä kumpi niistä on kovempi.

Sillä on merkitystä, että kun kilpailu siirtyy teholuokissa ylöspäin, niin Turingin tapaiset hivutetaan hintoja ylöspäin skenaariot ei ole enää niin todennäköisiä. Pikemminkin kumpikin kyräilevät ja haistelevat tilannetta. Oletettavasti Nvidia avaa pelin, AMD julkaisee sitten kaiketi kuukautta myöhemmin ja viilaa hintansa markkinatilanteen mukaan. Pelkkä odotus kilpailusta hillitsee ylihinnan pyyntihaluja pelin avaajalta.

Lepakomäyrä · 23.06.2020

hese_e sanoi:
Pointti oli se, että AMD sai nvidian kiinni IPC:ssä

Ja toinen pointti on 7nm vs 12nm"16nm"
Ja se Enegiatehokkuus tässä on tärkeää eikä niinkään IPC.

IPC on vain yksi tapa keksiä miten hitaampi on tasoissa/nopeampi.
Vertaillaan niitä todellisia suorituskykyjä eikä aleta alikellotteleen kilpailijaa vain koska arkitehtuuri mahdollistaa paremmin venyvät kellot.

Pitäskö Gtx980Ti vertailla myös Turingiin siten että alikellotetaan turingin kellot sinne 1076mhz.

hkultala · 23.06.2020

Requiem sanoi:
Jos nuo vuodot/arvaukset pitää paikkansa niin muistikaista olisi nousemassa noin 23%. Lisäksi kellojahan ei oikeasti tiedetä tai sitten on todella nopeat muistit.

Jos muistikaista nousisi (vain) 23% niin tämä tarkoittaisi sitä, että muisti olisi paljon pahempi pullonkaula kuin nykyisin. Eli jotta saataisiin X% nopeutusta (missä X > 23%), pitäisi kaiken laskennan itse pirillä nopeutua Y% missä Y > X.

Enemmän transistoreita+muistiväylä+kovemmat kellot.

... että muistiväylästä ei todellakaan voi laskea että "sen takia se on nopeampi vaan tismallen päin vastoin. Se pahempi muistipullonkaula pitää kompensoida muulla nopeutuksella.

Ja suurempi määrä transistoreja ei itsessään nopeuta yhtään mitään. Ne transistorit pitää käyttää johonkin arkkitehtuurilliseeen parannukseen tai ydinmäärän lisäämiseen.

hkultala · 23.06.2020

-Cone- sanoi:
Toki hyvä muistaa, että L1/L2 hit ratet ovat nykyään jo todella korkeat, ja siten myös kriittinen osa optimointeja. Noiden mittaaminen frametimeistä onnistuu näppärästi NVIDIAn Nsightilla. Katsoin joskus taannoin Unreal Enginen presentaation, jossa heidän tavoite hit rateille (L1(TEX)/L2) oli 90 % riippuen toki paljon siitä mitä renderöidään. Kertoo myös miksi kokonaisnopeus on kasvanut reilusti nopeammin kuin muistikaista.

Joo, välimuistien hitratet ovat hyvin korkeat mutta niin on myös se kaistaero mikä on sillä, paljonko ytimet tarvii kaistaa porskuttaakseen keskimääräistä peliä täysillä vs paljonko sitä kaistaa sinne DRAM-muistiin löytyy; Jos niiden välimuistien hitratet olisi sen esim. n. 90% sijasta n. 80%, pelit (nykyisellä DRAM-muistikaistalla) pyörisivät melkein puolella siitä nopeudesta millä ne nyt pyörivät.

Ja välimuisteja on tosiaan kasvatettu mutta se osumatarkkuus ei kasva kovin lineaarisesti siihen välimuistien kokoon nähden, esim. välimuistin koon tuplaaminen saa tyypillisesti aikaan vain hyvin pienen parannuksen sen osumatarkkuuteen.

Mutta GA100ssa tosiaan on selvästi suuremmat L2-välimuistit kuin GV100ssa, ja näihin on taidettu käyttää luokkaa kymmenisen prosenttia GA100-piirin pinta-alasta.

Eli jos kuluttajamalleissa on saman luokan lisäys L2-välimuisteihin, niin

1) Tähän kuluu helposti se melkein kymmenen prosenttia siitä, paljonko uusi valmistustekniikka tuo lisää efektiivistä tilaa piirille
2) Tällä saadaan ehkä suurin piirtein kompensoitua se, mikä suhteessa vähemmän noussella muistikaistalla menetetään.

hese_e · 23.06.2020

Lepakomäyrä sanoi:
Ja toinen pointti on 7nm vs 12nm"16nm"
Ja se Enegiatehokkuus tässä on tärkeää eikä niinkään IPC.

IPC on vain yksi tapa keksiä miten hitaampi on tasoissa/nopeampi.
Vertaillaan niitä todellisia suorituskykyjä eikä aleta alikellotteleen kilpailijaa vain koska arkitehtuuri mahdollistaa paremmin venyvät kellot.

No otetaan ihan täysin hypoteettinen tilanne: Jos ne ikivanhat huhut pitävätkin paikkansa ja Nvidia valitsi samsungin prosessin joka osoittautuukin sudeksi ja hyvällä tsmc:n prosessilla tehty iso navi menee heittämällä ohi tehoissa ja kuluttaa vähemmän. Niin vertaillaanko silloinkin tuotteiden todellista suorituskykyä ja energiakulutusta, vai keskitytäänkö huutelemaan prosessien nimiä?

Lepakomäyrä sanoi:
Pitäskö Gtx980Ti vertailla myös Turingiin siten että alikellotetaan turingin kellot sinne 1076mhz.

Jos halutaan selvittää miten paljon yksittäisten corejen suorituskyky on kasvanut, niin kyllä. On noita testejä tehty prosessoreillekkin, kun on haluttu selvittää miten paljon parannusta on ajan myötä saatu. Eipä niistä ole muuta hyötyä, kuin lukemisen ilo.

Lepakomäyrä · 23.06.2020

hese_e sanoi:
No otetaan ihan täysin hypoteettinen tilanne: Jos ne ikivanhat huhut pitävätkin paikkansa ja Nvidia valitsi samsungin prosessin joka osoittautuukin sudeksi ja hyvällä tsmc:n prosessilla tehty iso navi menee heittämällä ohi tehoissa ja kuluttaa vähemmän. Niin vertaillaanko silloinkin tuotteiden todellista suorituskykyä ja energiakulutusta, vai keskitytäänkö huutelemaan prosessien nimiä?

Todellista suorituskykyä on aina vertailtu, sinä vertailit IPC en minä.

Mutta esin yrität vertailla arvoja ja tehdä päätelmiä niistä ja nyt tämä 7nm vs 12nm jätät kätevästi niistä huomioimatta,miksiköhän?Varmaan siksi koska tilanne tuon perusteella Amd.lle epäedullisempi.
Nyt yrität hypoteettisesti kertoa miten on väärin mainita 7nm vs 12nm tilanne, vaikka ketjun aiheeseen liittyy vahvasti Ampere ja 7nm.

Otetaan hypeteettinen tilanne AMD.ltä tulee kuuma/virtasyöppö iso navi jota ei saa kuin heidän omalla 50dB jäähyllään ja pääsee hädintuskin 2080Ti ohitse niin vertailetko taas IPC.tä?

hkultala · 23.06.2020

JiiPee sanoi:
Niin noh toki ydin määrällä sen saa myös ja mitään varmaa määristä ei ole. Mutta mikäli niitä ytimiä aletaan tunkemaan hirmuisesti lisää, niin se vaikuttaa taas piirin kokoon.
Tuo 30% hyppy tarkoittaisi varmaan silloin yli 5600 ydintä ja Ti olisi sitten jo lähemmäs 8000, Titan siihen päälle niin yli 8000 mikäli oletetaan että mennään jotakuinkin samalla 40% enemmän siirryttäessä xx80 -> Ti. GTX980 -> Ti oli "vain" 37,5%
Mitäs luulet minkä kokoinen lätty tuollainen 8000 cuda ydintä olisi? jonkin verran pienempi varmaan kuin A100 mutta iso se olisi kuitenkin.

En vastaa suoraan kysymykseen mutta lasken vähän:

Verrattuna TSMCn "16nm" tai "12nm" tekniikkaan, "7nm" tekniikka antaa n. 2.7x lisää tiheyttä SRAMille. Logiikan voi olettaa skaalautuvan samassa suhteessa.

Toisaalta, pinta-alaa kohden "7nm" on kuitenkin selvästi kalliimpi, ilmeisesti luokkaa 60% kalliimpi, joten, joten samoilla valmistuskustannuksilla saisi n. 1.7-kertaisen määrän SRAMia ja logiikkaa.

Muistiohjainten ja ulkoisten väylien vahvistintranstistorit yms, ei skaalaudu, niin todellinen lisäys koko piirille on hiukan pienempi, saataisiin ehkä koko piirille luokkaa 1.6-kertainen määrä kamaa samalla hinnalla, fyysiseltä pinta-alaltaan selvästi pienemmällä piirillä.

Toisaalta, GA100ssa oli selvästi suurempi L2-kakku, ja jos sama pätee tähänkin, jäljelle jäisi n. 1.5-kertainen määrä efektiivistä tilaa muuhun.

Jos muihin parannuksiin (esim. tensoriyksiköiden tuki tf32-tarkkuudelle, järeämmät säteenjäljitysyksiköt, tuplanopeus fp16-laskennalle) menee vaikka n. 11% lisää efektiviistä pintaa-alaa, tarkoittaisi se n. 1.35-kertaista shader-yksikkö-määrää samoilla valmistuskustannuksilla.

Yllättävän pieneksi tämä tarkemman laskelman tuloksena saatu arvio ero tosiaan menee, vaikka uusi valmistustekniikka on sen 2.7 kertaa tiheämpi

Pitää tosiaan perua aiempia arvioitani paljon suuremmista ydinmääristä.

GV100 -> GA100-välillä tosiaan ydinmäärä kasvoi vain 35%, vaikka pinta-ala pysyi melkein yhtä suurena, mutta siinä tuli joitain sellaisia muutoksia, jotka oli jo Turinigissa:
* Säteenjäljitysyksiköt (edit: eipäs tullutkaan, GA100ssa ei tosiaan ole näitä, vaikka ne välissä oli Turingeissa)
* Paljon lisää laskentatarkkuuksia tensoriytimiin

Ja lisäksi esim. muistikanavien määrä kasvoi 1.5-kertaiseksi, eli muisti-PHYt (jotka eivät siis skaalaudu valmistusprosessin mukana) vaativat enemmän tilaa GA100-ampere-piiriltä kuin GV100-piiriltä.

Nyt on nvidialla node shrinkki vaihe ja käsittääkseni aiemmin shrinkin yhteydessä on tykätty mennä pienemmällä sirulla niin on sitten varaa kasvattaa myöhemmin.
Vai meinasitko että nvidia paukattaa nyt heti kaiken ulos 7nm prosessista ja siirtyy seuraavien korttien kanssa 5nm? Olisi aika peli liike kun on ollut tapana tuoda 2 sukupolvea per valmistusprosessi, 16nm ja 12nm lasken samaksi kun ei toi 12nm ollut kuin pikku viilauksia käsittääkseni.

nVidia on siirtymässä "7nm" prosessiin hyvin myöhässä, "16/12"nm valmistustekniikalla mentiin 4 vuotta. Ja syynä oli lähinnä se että nVidia ei ollut tyytyväinen TSMCn "10nm" tekniikkaan, mutta kaksi vuotta sitten "7nm" tekniikka ei ollut vielä riittävän valmis/kypsä että 20-sarja olisi sillä voitu valmistaa.

Jos tällä sukupolvella mentäisiin taas 2 vuotta niin silloin voitaisiin olla hyvin varmoja, että seuraava sukupolvi ei tule "7nm" prosessilla vaan jollain selvästi tiheämmällä, koska tämä "7nm" prosessi on kahden vuoden päästä todella antiikkia ja ulkona on hyvin kypsyneinä paljon parempia valmistusprosesseja.

Ja vaikka "seuraava sukupolvi" tulee ensi vuonna, silloinkin on pihalla melko hyvin kypsyneenä selvästi nykyistä "7nm"ää parempia valmistusprosesseja, vähintään TSMCn "6nm".

Ja netissä on liikkunut aika paljon (melko luotettavilta vaikuttavia) huhuja siitä että seuraava sukupolvi, "Hopper" valmistettaisiin "5nm" tekniikalla, ja menisi valmistukseen jo 2021.

Sinfo · 23.06.2020

hkultala sanoi:
Muistiohjainten ja ulkoisten väylien vahvistintranstistorit yms, ei skaalaudu,

Mikä on se tekninen syy, miksi nämä ei skaalaudu?

pomk · 23.06.2020

Sinfo sanoi:
Mikä on se tekninen syy, miksi nämä ei skaalaudu?

Etäisyydet piirilevyllä muihin komponentteihin eivät skaalaudu ja siitä johtuen jännitteet/virrat mitä noista pitää saada ulos on aika vakiot sukupolvesta riippumatta. Tommonen verrattaen ison virran transistori ei mene pienempään kokoon vaikka tekisi mitä.

Kaotik · 23.06.2020

Lepakomäyrä sanoi:
GV100 -> GA100-välillä tosiaan ydinmäärä kasvoi vain 35%, vaikka pinta-ala pysyi melkein yhtä suurena, mutta siinä tuli paljon sellaisia muutoksia, jotka oli jo Turinigissa:
* Säteenjäljitysyksiköt

Itseasiassa GA100:aan ei ole lisätty RT-yksiköitä (tai jos on NVIDIA ei siitä ole kertonut)

hkultala · 23.06.2020

Kaotik sanoi:
Itseasiassa GA100:aan ei ole lisätty RT-yksiköitä (tai jos on NVIDIA ei siitä ole kertonut)

Ainiin, tuo oli päässyt unohtumaan.

hese_e · 23.06.2020

Lepakomäyrä sanoi:
Todellista suorituskykyä on aina vertailtu, sinä vertailit IPC en minä.

Piti tarkistaa, kun ihan yleisesti iotechin tai muiden saittien testeihin kulutukseen/nopeuteen tulee aina nopeasti "mutta se kun prosessi" - kommentteja eri käyttäjiltä, ikäänkuin kulutus ei merkitsekkään, jos se ei ole vertailukelpoisella prosessilla kulutettu. Eli oikea suorituskyky ratkaisee, hyvä.

Lepakomäyrä sanoi:
Mutta esin yrität vertailla arvoja ja tehdä päätelmiä niistä ja nyt tämä 7nm vs 12nm jätät kätevästi niistä huomioimatta,miksiköhän?Varmaan siksi koska tilanne tuon perusteella Amd.lle epäedullisempi.
Nyt yrität hypoteettisesti kertoa miten on väärin mainita 7nm vs 12nm tilanne, vaikka ketjun aiheeseen liittyy vahvasti Ampere ja 7nm.

Johtuisikohan siitä, että viestit on tasoa "prosessi tekee ihmeitä"? Suorituskyky paranee koska prosessi, on mustavalkoista katsella vain transistorien määrää, nvidia ottaa isomman harppauksen prosessin takia, kuin piirikoon tuplaava kilpailja jne. Ikään kuin AMD ei voi kehittää arkkitehtuuria tai kasvattaa ytimen kokoa, koska se on jo tehnyt prosessihypyn.

Paskat. Se prosessi vain mahdollistaa _enemmän_ transistoreja _samaan_ tilaan, se taas _mahdollistaa_ lisäytimet, ipc parannukset tai tai piirin kellottuvuuden parantamiset. Prosessi itsestään vain lähinnä vaikuttaa siihen, millaisella voltti/kellokäyrällä piiriä voi ajella, eikä se ole vättämättä parempi maksimikellotaajuutta ajatellen.
Nyt julkaistuista tuotteista Nvidia/AMD ovat corejen ipc:n osalta tasoissa, mutta Nvidia hallitsee kellokäyrää paremmin. Kulutus syntyy aika pitkälle kellotaajuus/voltit yhdistelmästä. Nvidia on hoitanut sen puolen paremmin. Joko arkkitehtuurin virranhallinta on kehittyneempi, tai on onnistuttu siivoamaan piirin eri osien vaatima kulutus tasaisemmaksi, jolloin yleistä käyttöjännitettä on voitu laskea. Parempi se osa-alue silti on.

Lepakomäyrä sanoi:
Otetaan hypeteettinen tilanne AMD.ltä tulee kuuma/virtasyöppö iso navi jota ei saa kuin heidän omalla 50dB jäähyllään ja pääsee hädintuskin 2080Ti ohitse niin vertailetko taas IPC.tä?

Kyllä se IPC kiinnostaa, mutta ostopäätös on käytännön suorituskyvyn ja kulutuksen mukaan tehty.

Kaotik · 23.06.2020

Sinfo sanoi:
Mikä on se tekninen syy, miksi nämä ei skaalaudu?

Analog's Unfair Disadvantage

Analog's Unfair Disadvantage In a world that favors digital circuitry, analog has increasingly had to cope with processes that have become less favorable to them. But that may be changing.

semiengineering.com

Requiem · 23.06.2020

hkultala sanoi:
Jos muistikaista nousisi (vain) 23% niin tämä tarkoittaisi sitä, että muisti olisi paljon pahempi pullonkaula kuin nykyisin. Eli jotta saataisiin X% nopeutusta (missä X > 23%), pitäisi kaiken laskennan itse pirillä nopeutua Y% missä Y > X.

Periaatteessa kyllä. Kuitenkin Nvidian ohjaimet perinteisesti ovat pärjänneet pienemmällä muistikaistalla, paremmasta pakkauksestako johtui vai mistä? Joka tapauksessa siitä ei voi vetää suoraa johtopäätöstä, varmaan ovat kaistan valinneet sopivaksi.

hkultala · 23.06.2020

Requiem sanoi:
Periaatteessa kyllä. Kuitenkin Nvidian ohjaimet perinteisesti ovat pärjänneet pienemmällä muistikaistalla, paremmasta pakkauksestako johtui vai mistä? Joka tapauksessa siitä ei voi vetää suoraa johtopäätöstä, varmaan ovat kaistan valinneet sopivaksi.

Sekoitat sitä, mikä on tilanne jossain pisteessä ja miten se skaalautuu siitä.

Jos arkkitehtuuri pysyisi samana, niin silloin nimenomaan voisi ja pitäisi tehdä tuollainen johtopäätös. Tasan 1.5x lisää nopeutta tasan samalla arkkitehtuurilla käyttää tasan 1.5x enemmän kaistaa, riippumatta siitä mikä se lähtötilanne oli. Jos kaistaa on käytettävissä vähemmän kuin 1.5x, jos se kaista alunperin oli yhtään missään tilanteessa yhtään pullonkaula, silloin kokonaisnopeutus jäänee alle sen 1.5x jos muu piiri nopeutuu tasan 1.5x.

Ja nimenomaan, kun nVidia jo ennestään käyttää kaistaa "tehokkaammin" niin nVidian on vaikeampi enää parantaa sitä.

Tosin nyt ilmeisesti GA100n pohjalta tiedetään, että Ampere-sukupolvessa L2-kakkujen kokoa on kasvatettu todella paljon juuri tämän muistipullonkaulan helpottamiseksi.
Mutta käytännössä sen suhteessa vähentynen muistikaistan takia siis joudutaan uhraamaan siihen L2-kakkuun piiriltä huomattavasti tilaa jotka on poissa muualta.

Eikä ole mitään yksikäsitteisesti "sopivaa" kaistaa. Tässä on kyse ihan täysin tradeoffeista valmistuskustannusten ja eri tilanteiden suorituskyvyn välillä.

Eri softat käyttävät kaistaa eri määrän. Se, että pyöritetään vanhaa vähemmän hienot efektivit omaavaa peliä todella suurella resoluutiolla ja AA-modella vaatii tyypillisesti vähemmän laskentaa mutta enemmän kaistaa, uudempi peli jossa hienommat efektit pienemmällä resolla ja A_moodilla taas vaatii tyypillisesti vähemmän kaistaa mutta enemmän laskentakapasiteettia.

Kaista maksaa. Suuri määrä johtoja piirilevyllä ja suuri määrä piirejä vaan aina maksaa. Sen hinta tulee pikkuhiljaa alaspäin uusien muistitekniikoiden myötä, mutta paljon kaistaa maksaa aina (esim. HBM2-muistit tulee hyvin kalliiksi).

Transistorit (laskentakapasiteetti) taas halpenee jatkuvasti melko nopeaa vauhtia.

Eli, samalla kun pelit tekee yhä enemmän laskentaa ja käyttää suhteessa vähemmän kaistaa, toisaalta laskentakapasiteeetti halpenee nopeammin kuin kaista, tämä johtaa siihen, että on kannattavaa joka sukupolvi muuttaa tasapainoa siten, että laskentakapasiteettia kasvatetaan suhteessa enemmän kuin kaistaa.

Hatusta vedetty esimerkikki, oletuksena että kakkujen koot tms. kaistansäästötekniikat ei kehittyisi näiden välillä:

Eli sukupolven vaihtuessa saattaa esim. laskentakapasiteettia tulla 1.7x lisää mutta kaistaa tulla vain 1.3x lisää. Keskimäärin saadaan esim. 1.5x parannus suorituskykyyn, mutta uusimmilla peleillä vaikka 1.65x parannus ja vanhoilla peleillä vain 1.35x parannus suorituskykyyn.

Se, että kaistaa olisi lisätty samat 1.7x ei olisi auttanut kovin paljoa uusilla peleillä, mutta olisi tullut hyvin kalliiksi valmistuskustannusten kannalta

Requiem · 23.06.2020

hkultala sanoi:
Sekoitat sitä, mikä on tilanne jossain pisteessä ja miten se skaalautuu siitä.

Jos arkkitehtuuri pysyisi samana, niin silloin nimenomaan voisi ja pitäisi tehdä tuollainen johtopäätös. Tasan 1.5x lisää nopeutta tasan samalla arkkitehtuurilla käyttää tasan 1.5x enemmän kaistaa, riippumatta siitä mikä se lähtötilanne oli. Jos kaistaa on käytettävissä vähemmän kuin 1.5x, jos se kaista alunperin oli yhtään missään tilanteessa yhtään pullonkaula, silloin kokonaisnopeutus jäänee alle sen 1.5x jos muu piiri nopeutuu tasan 1.5x.

Ja nimenomaan, kun nVidia jo ennestään käyttää kaistaa "tehokkaammin" niin nVidian on vaikeampi enää parantaa sitä.

Tosin nyt ilmeisesti GA100n pohjalta tiedetään, että Ampere-sukupolvessa L2-kakkujen kokoa on kasvatettu todella paljon juuri tämän muistipullonkaulan helpottamiseksi.
Mutta käytännössä sen suhteessa vähentynen muistikaistan takia siis joudutaan uhraamaan siihen L2-kakkuun piiriltä huomattavasti tilaa jotka on poissa muualta.

Eikä ole mitään yksikäsitteisesti "sopivaa" kaistaa. Tässä on kyse ihan täysin tradeoffeista valmistuskustannusten ja eri tilanteiden suorituskyvyn välillä.

Eri softat käyttävät kaistaa eri määrän. Se, että pyöritetään vanhaa vähemmän hienot efektivit omaavaa peliä todella suurella resoluutiolla ja AA-modella vaatii tyypillisesti vähemmän laskentaa mutta enemmän kaistaa, uudempi peli jossa hienommat efektit pienemmällä resolla ja A_moodilla taas vaatii tyypillisesti vähemmän kaistaa mutta enemmän laskentakapasiteettia.

Kaista maksaa. Suuri määrä johtoja piirilevyllä ja suuri määrä piirejä vaan aina maksaa. Sen hinta tulee pikkuhiljaa alaspäin uusien muistitekniikoiden myötä, mutta paljon kaistaa maksaa aina (esim. HBM2-muistit tulee hyvin kalliiksi).

Transistorit (laskentakapasiteetti) taas halpenee jatkuvasti melko nopeaa vauhtia.

Eli, samalla kun pelit tekee yhä enemmän laskentaa ja käyttää suhteessa vähemmän kaistaa, toisaalta laskentakapasiteeetti halpenee nopeammin kuin kaista, tämä johtaa siihen, että on kannattavaa joka sukupolvi muuttaa tasapainoa siten, että laskentakapasiteettia kasvatetaan suhteessa enemmän kuin kaistaa.

Hatusta vedetty esimerkikki, oletuksena että kakkujen koot tms. kaistansäästötekniikat ei kehittyisi näiden välillä:

Eli sukupolven vaihtuessa saattaa esim. laskentakapasiteettia tulla 1.7x lisää mutta kaistaa tulla vain 1.3x lisää. Keskimäärin saadaan esim. 1.5x parannus suorituskykyyn, mutta uusimmilla peleillä vaikka 1.65x parannus ja vanhoilla peleillä vain 1.35x parannus suorituskykyyn.

Se, että kaistaa olisi lisätty samat 1.7x ei olisi auttanut kovin paljoa uusilla peleillä, mutta olisi tullut hyvin kalliiksi valmistuskustannusten kannalta

Totta, ymmärrän pointin, siis ovat parhaan ohjaimelle ja bisnekselle sopivan kaistan valinneet. Yleensä muistikaista on lähes kaikilla ohjaimilla ollut vähintään pieni pullonkaula, en muista näytönohjainta missä muistikaistaa olisi suhteessa ylenmäärin vaikka noita 512-bit muistiväyläisiäkin on ollut.
Arkkitehtuuri on muuttunut, riittääkö kaista kilpailijaa vastaan se jää nähtäväksi. Nvidialle kuten AMD:llekin tärkeintä on myykö se riittävästi joten kyllä sen pitää suoriutua.

Lepakomäyrä · 23.06.2020

Requiem sanoi:
Totta, ymmärrän pointin, siis ovat parhaan ohjaimelle ja bisnekselle sopivan kaistan valinneet. Yleensä muistikaista on lähes kaikilla ohjaimilla ollut vähintään pieni pullonkaula, en muista näytönohjainta missä muistikaistaa olisi suhteessa ylenmäärin vaikka noita 512-bit muistiväyläisiäkin on ollut.
Arkkitehtuuri on muuttunut, riittääkö kaista kilpailijaa vastaan se jää nähtäväksi. Nvidialle kuten AMD:llekin tärkeintä on myykö se riittävästi joten kyllä sen pitää suoriutua.

Gtx1660Superissa on ainakin ylenmäärin kaistaa jo siinäkin määrin että varsinainen hyöty alkaa jäämään jo hyvin ohueksi.

Lisäksi 2060S/2070/2070s/2080 on kaistaa saman verran.
ilmeisesti 2080 riittää toi kaistakin vielä koska mitenkään erikoisesti ei suorituskyky nouse muistejakaan kellottamalla,suunnilleen saman mitä 2060S kellottaessakin nettoaa.

Requiem · 23.06.2020

Niinpä näyttää olevan. Kiitos oikaisusta.
Luulisin kyllä 2080 hyötyvän muistien kellotuksesta kun 2080S on nopeammat muistit ja hyötyy niistä vaikka vain 4% lisää coreja. Ja 2080Ti on jo muistirajoitteinen selvästi.

Lepakomäyrä · 23.06.2020

Requiem sanoi:
Niinpä näyttää olevan. Kiitos oikaisusta.
Luulisin kyllä 2080 hyötyvän muistien kellotuksesta kun 2080S on nopeammat muistit ja hyötyy niistä vaikka vain 4% lisää coreja. Ja 2080Ti on jo muistirajoitteinen selvästi.

2080Ti saa kulkuja corella mukavasti vaikka ei koskisi ollenkaan muisteihin.
Vähän reilut 730GB/s on kaistaa kellotetuna ja tuolla saa yksistään n.4-5% suorituskykyä
core 2085-2100mhz niin tuolla nettoaa ilman muistien kellotuksia n.8%

2080S on hieman enemmän ytimiä kuin 2080 niin saa siittäkin jo pienen boostin.
kaistassa ei ole kovin isoa eroa alle 50GB/s vaan.

JiiPee · 24.06.2020

Requiem sanoi:
Totta, ymmärrän pointin, siis ovat parhaan ohjaimelle ja bisnekselle sopivan kaistan valinneet. Yleensä muistikaista on lähes kaikilla ohjaimilla ollut vähintään pieni pullonkaula, en muista näytönohjainta missä muistikaistaa olisi suhteessa ylenmäärin vaikka noita 512-bit muistiväyläisiäkin on ollut.

Toi muistikaista ja mitä muistia käytetään on varmaan sellainen mikä aiheuttaa valmistajille päänvaivaa kovasti. En tosiaan itsekään tiennyt kuin vasta joku päivä sitten että noi muistiohjaimet ei skaalaudu juuri lainkaan. Redditissä tuli vastaan vertailu

Reddit - Dive into anything

www.reddit.com

Elikkäs se muistiohjaimen viemä pintaala on pysyny aika samana ja tulee varmaan jatkossakin pysymään, samasta vertailusta näkee että HBM:llä saadaan aika paljon säästöä. Esim. sama määrä kaistaa GDDR5 ohjaimella vie noin 3 kertaa enemmän pintaalaa. GDDR6 kaventaa tätä eroa huomattavasti mutta HBM:llä on edelleen selvä etu.
Tästä syystä se muistikaista tuppaa olemaan pullonkaulana monesti koska sitä arvokasta pintaalaa ei haluta uhrata muistikaistalle. Ja GDDR:n kohdalla se piirilevyn suunnittelukin ilmeisesti monimutkaistuu jonkin verran jos aletaan paljon lisäämään kaistaa.

Griffin · 24.06.2020

JiiPee sanoi:
Toi muistikaista ja mitä muistia käytetään on varmaan sellainen mikä aiheuttaa valmistajille päänvaivaa kovasti. En tosiaan itsekään tiennyt kuin vasta joku päivä sitten että noi muistiohjaimet ei skaalaudu juuri lainkaan. Redditissä tuli vastaan vertailu

Reddit - Dive into anything

www.reddit.com

Elikkäs se muistiohjaimen viemä pintaala on pysyny aika samana ja tulee varmaan jatkossakin pysymään, samasta vertailusta näkee että HBM:llä saadaan aika paljon säästöä. Esim. sama määrä kaistaa GDDR5 ohjaimella vie noin 3 kertaa enemmän pintaalaa. GDDR6 kaventaa tätä eroa huomattavasti mutta HBM:llä on edelleen selvä etu.
Tästä syystä se muistikaista tuppaa olemaan pullonkaulana monesti koska sitä arvokasta pintaalaa ei haluta uhrata muistikaistalle. Ja GDDR:n kohdalla se piirilevyn suunnittelukin ilmeisesti monimutkaistuu jonkin verran jos aletaan paljon lisäämään kaistaa.

Muistikaista on senverran pakollinen ominaisuus, jotta siinä ei voida kovinpaljon säästellä tai lopputulos on sen takia luuska. Siispä tehdään niistä piireistä tarvittavan kokoisia. Ei sitä juuri muutenkaan piipinta-alan takia tarvitse leikata, kyllä ne on ihan muut syyt.

JiiPee · 24.06.2020

Griffin sanoi:
Muistikaista on senverran pakollinen ominaisuus, jotta siinä ei voida kovinpaljon säästellä tai lopputulos on sen takia luuska. Siispä tehdään niistä piireistä tarvittavan kokoisia. Ei sitä juuri muutenkaan piipinta-alan takia tarvitse leikata, kyllä ne on ihan muut syyt.

Hienosti taas ymmärsit väärin. Sinne ei haluta laittaa vaikka 64-bit ylimääräistä leveyttä joka varmistaisi sen että kortti ei missään tilanteessa ole muistikaistarajotteinen, vaan jätetään hiukan vajaaksi jolloin 90% tilanteista se kaista ei ole ongelma.

Griffin · 24.06.2020

JiiPee sanoi:
Hienosti taas ymmärsit väärin. Sinne ei haluta laittaa vaikka 64-bit ylimääräistä leveyttä joka varmistaisi sen että kortti ei missään tilanteessa ole muistikaistarajotteinen, vaan jätetään hiukan vajaaksi jolloin 90% tilanteista se kaista ei ole ongelma.

Eikös tuo nyt päde ihan yleisesti piirin kaikkiin yksiköihin. Turha sinne on mitään laittaa mielinmäärin.

hese_e · 24.06.2020

Taas joku twitterhemmo on "vuotanut" jotain:

Johon oli myös vastine:

Todennäköisesti tuokin on feikki, vaikka about samoja lukuja ne kaikki pyörittelee. Toisaalta tuossa nuo muistit on uskottavammat, kun on gddr6 ja demotulla nopeudella, eikä se mysteerinen gddr6x.

demu · 24.06.2020

hese_e sanoi:
Taas joku twitterhemmo on "vuotanut" jotain:

Johon oli myös vastine:

Todennäköisesti tuokin on feikki, vaikka about samoja lukuja ne kaikki pyörittelee. Toisaalta tuossa nuo muistit on uskottavammat, kun on gddr6 ja demotulla nopeudella, eikä se mysteerinen gddr6x.

Voisiko saada tektinäkin, kun ei koneen tietosuojavaltuutettu hyväksy näytettäväksi twitteri/facebook ym. some-aineistoa?

Griffin · 24.06.2020

demu sanoi:
Voisiko saada tektinäkin, kun ei koneen tietosuojavaltuutettu hyväksy näytettäväksi twitteri/facebook ym. some-aineistoa?

Sama vika, nuo twitter / face upotukset eivät toimi millään käytämälläni koneella.

hese_e · 24.06.2020

demu sanoi:
Voisiko saada tektinäkin, kun ei koneen tietosuojavaltuutettu hyväksy näytettäväksi twitteri/facebook ym. some-aineistoa?

Sama kuvana:

Ja ne epäilvät kommentit:

Some discrepancies

TDP vs TGP.
CUDA cores vs CUDA Cores.
TFLOPS are wrong.
7nm (presumably TSMC) vs (Samsung - Dunno what process, probably 8nm)
GDDR6 vs GDDR6X.

Honestly, none of this lines up with other supposed leaks. Only thing that is constant is the word 'Ampere'.

Eli eipä oikeasti ihmeitä. Edelleen yritetään vahvistaa tuota coremäärää, joka on pyörinyt kauan, vaikka tuo coremäärä on yleensä varattu Titanille, ei TI mallille, joka nähtävästi korvaantuu 3090:lla.
Boostikellot on about odotetussa haarukassa (ja kovemmat mitä 3dmark tuloksessa), TDP on muiden vuotajien arvojen sisällä (300-375W). FP32 taitaa olla väärinlaskettu.

Muistit on kyllä ehdottomasti se uskottavin osa, GDDR6X ei ole näkynyt kuin vuotajien huhuissa, eikä muistivalmistajilta ole kuulunut siitä mitään. 18Gb/s GDDR6 on demottu, eli se on hyvinkin mahdollinen.

Edit: Aikaisemmista vuotajista KatCorgi repostasi tuon vuodon "FAKE" kommentilla varustettuna.

Lepakomäyrä · 24.06.2020

Se aikasempi ~30% olisi tollasilla ~2200mhz kelloilla jo lähempänä +45% suorituskykyä.

Kaistaakin tuntuu olevan ihan mukavasti ja kellottamalla menee varmaan helpposti toi 900GB/s rikki.

jabbadap · 24.06.2020

Lepakomäyrä sanoi:
Se aikasempi ~30% olisi tollasilla ~2200mhz kelloilla jo lähempänä +45% suorituskykyä.

Kaistaakin tuntuu olevan ihan mukavasti ja kellottamalla menee varmaan helpposti toi 900GB/s rikki.

Äkäsesti laskettuna raakana fp32 vääntönä +66%(boost vs boost) + lisääntynyt muistikaista. Ne oikiat pelikellot on sitten mitä ovat... Toki olettaen että tuossa kuvassa mitään aitoa on.

hese_e · 24.06.2020

jabbadap sanoi:
Äkäsesti laskettuna raakana fp32 vääntönä +66%(boost vs boost) + lisääntynyt muistikaista. Ne oikiat pelikellot on sitten mitä ovat... Toki olettaen että tuossa kuvassa mitään aitoa on.

Ainakin toinen niistä datakeskus amperen spekseistä vuotaneista tyrmäsi sen feikkinä, mutta about tuon suuntaista sitä tulee odotettua (en nyt tarkoita kaista/tflops lukuja, vaan TDP, core, kellot, muistityyppi on aika lähelle sitä mitä itse odottaisi tulevan. Tietty vastaavalla tavalla ne RDNA2 slidet oli väärennetty, aiempia vuotoja slideille ja vähän omaa hatusta vedettyä päälle).

Se ennen oikeaan osuneiden vuotajien gddr6x on kyllä todella outo, kun tavallisesti muistityypit esitellään etukäteen ja jedec/piirivalmistajilla ei ole intressejä pimittää niiden olemassaoloa, kun ne on komponentteja, joita myydään kaikille halukkaille.

Kaukalo · 24.06.2020

Tuossa mutuja siitä vuotaneesta 3d Mark tuloksesta

Kaotik · 24.06.2020

Ei ehmetti, ihanko tosissaan ne vieläkin ehdottaa että joku on salaa kehittänyt yli 30 % nopeammat GDDR6-muistit kuin mitä on saatu tähän päivään mennessä markkinoille? Jos nyt aloitettaisiin siitä että edes ne 18 Gbps:n sirut saataisiin markkinoille asti.

Clarenz · 26.06.2020

Viimeisten huhujen puolesta Nvidian tulevat kortit ei nyt ainakaan riemun kiljahduksia herätä. Toki usen Nvidia on pystynyt aika hyvin pitämään lopulliset speksit piilossa. Toivon, että siellä on saatu reilusti energiatehokkuutta uudesta valmistusprosessista, eikä kaikki olisi hirveitä kiukaita. Odotan korttia jossa yli 2080 ti tehot mutta virran kulutus paljon pienempi.

EDIT. ja se RT-suorituskyky vähintään tuplat 2000-sarjasta

Raivo · 26.06.2020

Energiatehokkuus kaivoon ja sitä vääntöä pitää olla tai muuten edelleenkään 4k ja vastaavilla resoilla mitään pelata. Joopajoo "DLSS ja peruna asetukset"

Jarnis · 26.06.2020

"Jos näytönohjaimessa ei ole vähintään kahta 8-pin virtaliitintä ja talossa ei valot himmene kun 3DMark-testi käynnistyy, on GPU tuhnu."

- vanha viidakon sananlasku

Pätee myös 7nm aikakaudella. Lisää kelloa jos ei muuten TDP-arvo nouse lelusarjasta.

Eiköhän NVIDIA pistä aika lailla raskaalla kädellä kiuasta kun hieman pelko pepussa että AMD voisi yrittää jopa kilpailla tällä kierroksella. Näin ovat historiallisesti tehneet silloin kun on ollut vakavammin kisaa kovimman GPUn tittelistä. Eksoottinen uusi cooleri viittaa myös tähän että Harvian kanssa on lähdetty kilpailemaan ja sähköyhtiöt kiittää.

SShadow · 26.06.2020

Itsekin samaa mieltä, ei lähetä TDP:ssä säästelemään huippukorteissa, sähköä vedetään sen mitä langat kestää.
Ei tarkoita etteikö voisi olla energiatehokas edelliseen sukupolveen katsottuna. Yleensä alemman tason kortti menee ohi edellisen sukupolven nopeimmasta. Nyt vaan jännittää mihin kohtaa välille 2080 Ti jää, eli nopeus vastaa jotain 3070 ja 3080 välillä. Jos 2080 Ti menee lähemmäksi 3080 niin tuhnu on.

Lepakomäyrä · 26.06.2020

Raivo sanoi:
Energiatehokkuus kaivoon ja sitä vääntöä pitää olla tai muuten edelleenkään 4k ja vastaavilla resoilla mitään pelata. Joopajoo "DLSS ja peruna asetukset"

ilman energiatehokkuutta ei tule suorituskykyä.
Energiatehokkuus ei ole yhtäkuin pelkkä kulutus.

Näin karkeasti jos esim Turingin energiatehokkuus olisi ollut luokkaa Kepler(700 sarja) olisi 2080Ti suorituskyky vaatinut +800w (ei tarkka luku mutta ymmärtänee pointin)
Hyvä energiatehokkuus mahdollistaa siis sen 250-300w ohjaimen suorituskyvyn.

SShadow sanoi:
Itsekin samaa mieltä, ei lähetä TDP:ssä säästelemään huippukorteissa, sähköä vedetään sen mitä langat kestää.
Ei tarkoita etteikö voisi olla energiatehokas edelliseen sukupolveen katsottuna. Yleensä alemman tason kortti menee ohi edellisen sukupolven nopeimmasta. Nyt vaan jännittää mihin kohtaa välille 2080 Ti jää, eli nopeus vastaa jotain 3070 ja 3080 välillä. Jos 2080 Ti menee lähemmäksi 3080 niin tuhnu on.

Sieltä kun ei ole tulossa mitään +400w ohjainta niin energiatehokkuus on tärkeää että se 250-300w ohjain myös kulkee.

Nyt menee ihan se nopeinkin ohitse, Nvidialla skaalautuu hyvin ja jopa tehokkaissa ohjaimissa energiatehokkuus säilyy.

1440p tilanne hieman muuttuu.

R3DgRu · 26.06.2020

Mikäs on muuten syynä, ettei tehdä vaikka jotain 500 w ohjainta? Ostaisin välittömästi jos vain jostain saisi, jos tehot olis esim +100% 2080 tiittiin verrattuna. Olisi ihanaa kun 2160p:llä vois vedellä 60 fps hyvillä grafiikoilla

Jarnis · 26.06.2020

Eiköhän se pääsyy ole että 500W kiukaan jäähdytys ilmalla on aika haastavaa ja vesilelut maksaa turkasesti vs. hyvä ilmajäähy.

Jossain kohtaa "stock"-viritys menee niin extremeksi että ei vain voi tehdä moista ja vielä myydäkin sitä järkevästi.

Eksuu · 26.06.2020

Myisivät ilman jäähyä tai vesiblokilla. Kyllä ostajia varmasti löytyisi.

Lepakomäyrä · 26.06.2020

Eksuu sanoi:
Myisivät ilman jäähyä tai vesiblokilla. Kyllä ostajia varmasti löytyisi.

Ostajia voisi olla mutta varmasti merkittävästi vähemmän ja sen vuoksi niitä ei sillai myydäkkään.

Tai jos myisivät niin hinta olisi sama kuin siinä jossa on jäähy.

Eksuu · 26.06.2020

Lepakomäyrä sanoi:
Ostajia voisi olla mutta varmasti merkittävästi vähemmän ja sen vuoksi niitä ei sillai myydäkkään.

Voisihan nvidia myydä itse omassa verkkokaupassaan. Ei siinä varmaan hirveästi kuluja synny kun jättää jäähyn asentamatta. Myydäänhän Titaniakin, vaikka tuskin kappalemääräisesti kovin paljoa myydäkään. Toki Titanin valmistamiselle ja myynnille on eri motiivit.

laxu · 26.06.2020

Eksuu sanoi:
Myisivät ilman jäähyä tai vesiblokilla. Kyllä ostajia varmasti löytyisi.

Takuujutut ovat varmaan suurin syy miksi näin ei tehdä. Vaikka jotkut valmistajat antavat irrottaa vakiojäähyn, oletus on kuitenkin, että näin tekevät pääasiassa ne jotka osaavat asiansa eikä Pentti Peruspelaaja, joka näkee, että hei tässähän on normaalia halvempi kortti ymmärtämättä jäähdytyksen tarpeesta mitään.

Kizmo · 26.06.2020

Taloudellisesti ei mitään järkeä tuottaa spessukortteja propellihatuille

mv. jussi · 26.06.2020

oli siellä toinen benchmark jossa gpu sai 17000-18000 pistettä timespy, toivotaan että tämä olisi 3080 alhaisilla kelloilla 1935mhz.
olisi ihan kivasti yli 2080ti.

AION · 27.06.2020

laxu sanoi:
Takuujutut ovat varmaan suurin syy miksi näin ei tehdä. Vaikka jotkut valmistajat antavat irrottaa vakiojäähyn, oletus on kuitenkin, että näin tekevät pääasiassa ne jotka osaavat asiansa eikä Pentti Peruspelaaja, joka näkee, että hei tässähän on normaalia halvempi kortti ymmärtämättä jäähdytyksen tarpeesta mitään.

No ei. Kyllä se on tuotekehitys kustannukset.

Kaotik · 27.06.2020

AION sanoi:
No ei. Kyllä se on tuotekehitys kustannukset.

Ei se ilman jäähyä myytävä versio erillisiä tuotekehityskustannuksia aiheuta, jos sellaisia haluttaisiin myydä.
Valmiilla vesiblokilla olevat toki vaatii kehitystyötä, mutta niitä myös on markkinoilla. Eiköhän se isoin tekijä ole takuujutut.

Lepakomäyrä · 27.06.2020

Varmaan löytyisi niitäkin jotka tuon pistäis koneeseen ilman jäähyä, niin tyhmiä juttuja mahtuu maailmaan että tämä olisi lähes väistämätön kämmi.

NVIDIA-spekulaatioketju (Lovelace ja tulevat sukupolvet)

Banhammer

Banhammer

Banhammer

For You

For You

For You

Conducător & Geniul din Carpați

Liitteet

Banhammer

BANNATTU

BANNATTU

Banhammer

Uutiset

Statistiikka

Hinta.fi