Tuo hype on täyttä roskaa. Olin kuuntelemassa noiden esitelmän pari vuotta sitten ja tyypit olivat totaalisen pihalla
1) siitä, millaista koodia CPUlla normaalisti ajetaan.
2) miten normaalit rinnakkaistusmenetelmät ja koodin optimointimenetelmät toimivat.
Olivat ottaneet pari todella yksinkertaista äärimmäisen hyvin rinnakkaistuvaa workloadia, jotka olivat todella kaukana mistään tosimaailman ohjelmista, ja sitten onnistuivat ne joten kuten rinnakkaistamaan härvelilleen, silloin kun tähtien asento on oikea.
Mutta normaaliin CPUlla suoritettavaan kontrolliorientoituneseen koodin noiden tekniikka ei päde, ja sitä se suorittaa paljon hitaammin kuin normaalit prossut. Ja kun arkkitehtuuri on uusi, ei olemassaolevat binäärit toimi.
Ja mikäli data on esim. vähän huonosti alignoitu, nuo on ongelmissa.
Rautadesignia noilla on nyt ilmesesti valmiina koska sanovat laittaneensa sen FPGA:lle, mutta vähän veikkaan että niiden FPGA-proto on ziljoona kertaa pienempi versio kuin mitä nuo hypettävät, ja datan reititys ei oikeasti toimisi siinä mittakaavassa kuin mitä nuo hypettävät ja kellotaajuudet isommalla designilla jäisi hyvin heikoiksi.
Ja edelleenkin tuolla whitepaperissa, softat tuntuu olevan samalla tasolla kuin pari vuotta sittenkin, kun katsoo tuota benchmark-settiä, memcopyä ja matriisien yhteenlaskua.
Ei varmuutta että rauta skaalautuu mittoihin mitä hypetetään, ei aja oikeita ohjelmia. Pelkkä lelukoodin ajelua simulaattorissa ja pienen hitaan version ajelua FPGA:lla.
Tuntien sen ammattitaidon mitä esittivät siinä esitelmässään pari vuotta sitten, voisin myös lyödä kohtalaisilla kertoimilla vetoa, että nuo noiden "verrokkibenchmarkit" Intelin prossulle on todella huonosti optimoituja, ja pyörisivät monta kertaa nopeammin kun ne koodaisi järkevästi optimoiden sille Intelin prosulle
edit:
Tuossa noiden tieteellinen paperi, jota itse en todellakaan olisi päästänyt vertaisarvioinnista läpi:
<--- ja joo, tuolta löytyi nuo benchmarkit. Intelin prossulla koodi ajettu ilman SIMD-optimointeja aivan kuten arvelinkin.
AVX-512lla tosiaan ajaisi 16aa laskuoperaatiota rinnakkain / käsky, tuossa ajettu vain yhtä.
Lisäksi tuo noiden matriisikertolasku on muutenkin todella huonosti optimoitu, ei mitään unrollausta muistikaistan säästämiseksi ja lisäksi siellä välitulos täysin turhaan tallennetaan joka välissä muistiin, ja käytössä vain yksi välisumma joka estää käskytason rinnakkaisuduen hyödytämisen, sen sijaan että suoritettaisiin kahta FMA_käskyä rinnakkain, suoritetaan yksi FMA-käsky n. neljän kellojakson välein.
Tuon intel-koodin saisi Intelin prossulla pyörimään n. 100-300 kertaa nopeammin optimoimalla sen järkevästi.
Ja tosiaan kääntäjä niillä on ihan vaporwarea. Lupaavat ihan uuden tason yksisarvikääntäjää, vaikka ovat ihan alkutekijöissään sen kääntäjän suhteen. Käytännössä ovat dunning-krueger-huipulla sen kääntäjän suhteen, ymmärtävät kääntäjistä niin vähän etteivät vielä edes tajua mitä eivät ymmärrä, kun noita lupauksiaan tekevät.