Ja myös sen lisäksi on verrannollinen piirien muihin ominaisuuksiin. Jos piirin väylä pysyy vakiona ja siellä olevan muistin määrä kasvaa, nopeus ei silti kasva. Jos noissa tarvitaan erittäin suurta kaistaa, niin silloin joku suurikaistainen (yleensä "leveä" ratkaisu on parempi). Näyttikset on kuitenkin hintaoptimoituja melkopaljon ja nissä on kaista taatusti pienempi, kuin mitä se voisi olla, jos siihen olisi panostettu. Muutenkin GPUissa on erittäinpaljon kaikenlaista (virtaa ja tilaa vievää), josta ei ole mainauskäytössä mitään hyötyä.
Kyllä mahdollisimman dedikoitu rauta aina "yleis" raudan hakkaa. Jos sinne vaaditaan muistikaistaa, niin sitten tehdään sitä sinne.
Suurin osa sähkönkulutuksesta taitaa noilla tulla tulla muistin käytöstä.
Ja suurin "epäoptimaalisuus" näyttiksistä tulee niiden FPUista, näyttikset on optimoitu laskemaan liukuluvuilla, kun taas useimmat kryptoalgoritmit tekee jotain shiftauksia ja logiikkaoperaatiota kokonaisluvuilla.
Eli jos lähdetään näyttiksestä modaamaan kryptovaluuttapiiriä, liukulukuyksiköt voisi pudottaa pois. Samalla kun yleisimpien operaatioiden viive putoisi neljästä yhteen kellojaksoon, voisi barrel processor-tyyppisestä rakenteesta luopua ja kerrallaan ajossa olevien work itemien määrä pudottaa neljäsosaan.
Ainakin Cryptonight-algoritmilla(jota käytää esim. monero) se myös pienentäisi tarvittavaan muistin määrää (siinä jokainen work item vaatii 2 megaa (nopeaa) muistia)
Mutta oleellinen pullonkaula on kuitenkin se muistikaista. Jos muistina käytetään ulkoista DRAMia, sen tarpeen vähentäminen ei välttämättä auta, koska markkinoilta ei välttämättä edes löydy nopeita mutta pieniä muistipiirejä. Ja leveämpi tai nopeampi muistikaista joka tapauksessa maksaa.
Jos sitten keskitytään vain Cryptonightiin, niin aukeaa muita lähestymistapoja:
Toinen lähestymistapa on sitten se, että unohdetaan ulkoinen DRAM ja laitetaan piirille iso SRAM-muisti.
Eli tarvitaan 2 megaa SRAMia/work item. Voitaisiin tehdä esim. piiri, jossa n. 32 laskentayksikkköä, jokaisessa 2 megaa nopeaa omaa SRAM-muistia (eli kokonaismäärä SRAMia 64 MiB). Kun se SRAM-muisti olisi kytketty suoraan jokaiseen laskentayksikköön eikä sillä tarvisi olla mitään kytkentöjä muualle, se voisi olla jonkin verran nopeampaa kuin CPUiden L3-välimuisti, eli yhtä laskentayksikköä kohden saadaan jonkin verran parempi nopeus kuin CPUlla voidaan saada/ydin.
Tällainen piiri voisi nykyisillä n. "14nm" valmistustekniikoilla viedä n. 200mm^2 pinta-alaa ja sillä pääsisi ehkä johonkin > 2000 H/s suorituskykyyn, eli samaan luokkaan tai hiukan parempaan suorituskykyyn kuin Vega 64lla, mutta selvästi pienemmillä valmistuskustannuksilla ja erityisesti virrankulutuksella.
Kolmas lähestymistapa olisi eDRAMin viimeinen nouseminen haudastaan, eDRAM tulisi ainakin jollain "22nm" prosessilla vielä hiukan halvemmaksi kuin SRAM, piirille voisi laittaa esim. jonkun 128 megaa tai ehkä 256 megaa eDRAMia. eDRAM on kuitenkin selvästi hitaampaa kuin SRAM joten on kyseenalaista, olisiko tämä nopeampi. Se, olisiko vanha valmistustekniikka muuten hyöty(halvempi) vai haitta(linjat ajetan alas, saatavuus, sekä huonompi energiatehokkuus) on kyseenalainen.
Neljäs ehkä radikaalein (mutta todennäkösiesti lupaavin) lähestymistapa olisi kääntää muistin ja logiikan suhde päälaelleen ja tehdä koko piiri DRAM-prosessilla. Tämä tarkoittaisi sitä, että logiikan kellot ja energiatehokkuus olisi selvästi huonompia kuin nykypiireillä, mutta voitaisiin aivan helpolla tehdä piiri, jossa on vähintään 256 laskentayksikköä joista jokaisella oma 2 megan nopea muisti. Yhden laskentayksikön nopeus olisi selvästi alle puolet tuon SRAM-version laskentayksiköiden nopeudesta, mutta kahdeksankertainen määrä voisi hyvin kompensoida laatua. En sitten tiedä, saataisiinko tästä millään energiatehokkaampaa kuin SRAM-ratkaisusta, mutta ainakin laskentateho/pinta-ala pitäisi tässä olla erinomainen.
DRAM-prosessi-pohjaisen piirin voisi onnistua tekemään myös ethereumille, mutta silloin piiristä tulisi aika iso; Ethereum vaatii sen vähän yli 2 gigaa muistia ja tällä hetkellä suurimmat DRAM-piirit on juuri 2 gigatavua(16 gigabittiä), mutta kryptopiirissä piirille pitäisi sen DRAMin lisäksi mahtua logiikkaa, ja kun se logiikka menee sinne DRAM-logiikalla valmistetulle piirille epäoptimaalsiemmin, se vie sieltä enemmän tilaa kuin logiikkaoptimoidulla prosessilla valmistetulta piiriltä).