No sanotaanko suoraan että ei vois vähempi kiinnostaa. Olen ainoastaan koittanut selittää sinulle että se mainaus on muistiriippuvaista, mitä nopeampaa muistia pienillä latenseilla, sen parempi.
Sinä aloit vänkyttää että homma olisi PCIE väylästä riippuvainen, jota se ei ole.
EPÄILIN sitä, en "vänkyttänyt". Ja opin jo muutama viesti sitten, että se ei ole kyse kaistasta CPUlle.
Sitten alat vänkyttää että se koodi on paskaa, jota se tuskin on koska se on todellakin SUUNNITELTU toimivaksi noin.
Se on suunniteltu siten että sitä voi laskea rinnakkain miljoonilla tietokoneilla ympäri maailmaa, se on makrotasolla täysin "ebrasassingly parallel"-ongelma, mutta se myös tarvii paljon muisiKAISTAA ja paljon MUISTIKAPASITEETTIA.
Nämä ovat eri asioita kuin muistin VIIVE.
Tällainen embrassingly parallel-algoritmi pitäisi rinnakkaistua myös yhden tietokoneen sisällä sillai että latenssin viiveen merkitys katoaa, kun vaan rinnakkaistetaan ongelmaa enemmän. Raja voi tällöin tulla vastaan vain muistin koossa, että useampaa instanssia ongelmasta ei mahdu yhtä aikaa muistiin.
Ja se, että täysin embrassingly parallel ohgelma ei rinnakkaistu eikä hyödy suuresta muistimäärästä kyllä selvästi vihjaisi siihen suuntaan, että sitä ei ole rinnakkaistettu kunnolla.
Alkaa suoraansanottuna vituttaa tämmöinen offtopic vatulointi kun ihan sama mitä sinulle esittää niin aina koitat vänkyttää sen asian päälaelleen.
Ei, vaan yritän selvittää mistä tässä OIKEASTI on kyse. Minun pcie-kaistateoriani osoittautui vääräksi, myönnän sen. Nyt vallalla on "viiveteoria" joka ei sellaisenaan "algoritmin ominaisuutena" ole uskottava teoria vaan käytännössä vaatii toimiakseen sen, että softa on optimoitu huonosti, tai jonkun muun vielä mainitsemattoman seikan.
hmm, nyt kun mietin tätä asiaa eteenpäin:
Ongelma liittynee siihen, että se tekee täysin satunnaisia muistiaccesseja, joiden kanssa välimuistista ei hyödytä yhtään, ja välimuistilohkoista on pelkkää haittaa; Kun halutaan lukea muistista vain pieni luku, pitää silti hakea koko välimuistilinja. Ja vaikka sieltä yritettäisin hakea vähemmän, uusilla muistityypeillä muistista pitää kuitenkin hakea paljon kerrallaan jotta siltä saataisiin hyvä kaistanleveys ulos. Eli rajoittavana tekijänä on käytännössä se, kuinka monta muistiaccessia voidaan tehdä aikayksikköä kohden.
Tämä voisi selittää sen miksi GDDR5lla varustettu 1070 voittaa GDDR5X:llä varustetun 1080n, mutta tämä ei vielä selitä sitä miksi fury 56 pärjää fury 64lle;
korkeammilla muistikelloilla varustetun fury 56n pitäisi kuitenkin pystyä suurempaan määrään muistiaccesseja kuin fury 64 aikayksikköä kohden.