Tachyum julkisti 128-ytimisen universaalin Prodigy-prosessorin

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 377
tachyum-prodigy-20220512.jpg


Kaotik kirjoitti uutisen/artikkelin:
Uutisoimme vajaat pari vuotta sitten Tachyumista, joka kehitti Prodigyksi kutsuttua universaalia prosessoria. Prodigyn kerrotaan hoitavan niin prosessorin, grafiikkaohjaimen kuin matriisimurskaimenkin tehtävät ja suorittavan koodia riippumatta siitä, onko se suunniteltu Armille, x86:lle vai RISC-V:lle.

Nyt Tachyum on julkistanut Prodigyn virallisesti, todeten vaatimattomasti sen tarjoavan parasta tekoäly- ja HPC-suorituskykyä markkinoilla. SPECrate 2017 Integer -testissä prosesorin kerrotaan tarjoavan noin nelinkertaista suorituskykyä Intelin Xeon 8380:een verrattuna ja kolminkertaista AMD:n Epyc 7763HPC:een verrattuna. FP64-laskuja se kykenee suorittamaan kolminkertaisella ja FP8-laskuja kuusinkertaisella nopeudella NVIDIAn H100-kiihdyttimeen verrattuna. Prosessori tukee laajaa kirjoa erilaisia dataformaatteja FP8:sta ja INT8:sta FP64:aan, mukaanlukien Bfloat16- ja TF32-tarkkuudet.

Tachyum Prodigy rakentuu minimissään 32 ja maksimissaan 128 64-bittisestä ytimestä, jotka toimivat parhaimmillaan jopa 5,7 GHz:n kellotaajuudella. Prosessorissa on 16 DDR5-muistiohjainta, mikä tarkoittanee perinteisemmässä mielessä kahdeksaa muistikanavaa. Tiedote ei tarkentanut päteekö sama muistiohjainten määrä kaikkiin malleihin vai vain 128-ytimiseen huippumalliin. Laajennettavuutta tarjoaa 64 PCI Express 5.0 -linjaa. Prodigy-prosessoreita voidaan asentaa kokoonpanoon yksi, kaksi tai neljä ja ne jäähtyvät tarpeen mukaan joko ilma- tai nestejäähdytteisesti.

Tachyum tulee aloittamaan prosessoreiden testierien toimittamisen asiakkaille tämän vuoden aikana ja massatuotantoon prosessorin pitäisi päästä ensi vuoden ensimmäisellä puoliskolla.

Lähde: Tachyum

Linkki alkuperäiseen juttuun
 
Viimeksi muokattu:
Eli onko tuossa nyt teoriassa mahdollista ajaa ihan windowsia vai onko tuo x86 yhteensopiva muttei ibm pc yhteensopiva?
 
5.7 ghz kellotaajuus. 3x nopeampi kuin 64 ytimien epyc, jostain tuntemattomasta firmasta.
Juuh, uskon vasta kun näen puolueettoman testin.
 
5.7 ghz kellotaajuus. 3x nopeampi kuin 64 ytimien epyc, jostain tuntemattomasta firmasta.
Juuh, uskon vasta kun näen puolueettoman testin.

On siellä ainakin ihan pätevää ja nimekästä jengiä lafkassa mukana mm. "Rado", Steve Furber ja Fred Weber.
 
5.7 ghz kellotaajuus. 3x nopeampi kuin 64 ytimien epyc, jostain tuntemattomasta firmasta.
Juuh, uskon vasta kun näen puolueettoman testin.

Joo vaikea kyllä uskoa että noi lukemat toteutuu kaikessa. Jossain sopivissa kuormissa voi toteutuakin.
 
5.7 ghz kellotaajuus. 3x nopeampi kuin 64 ytimien epyc, jostain tuntemattomasta firmasta.
Juuh, uskon vasta kun näen puolueettoman testin.
Ainahan voidaan tehdä vaikka 10x nopeampi johonkin tiettyyn testiin, mutta noissa voi sitten joku toinen perusasia olla 10x hitaampi kuin missään nykyisessä prossussa. Odottaisin myös puolueettoman/luotettavan tahon testejä joissa ei mitata vain jotain yhtä asiaa labra-olosuhteissa.
 
Suhtautuisin tähän erittäin kriittisesti.

Melkoista epäilystä herättää jo se, että väitetään että AMDn ja intelin serveriprossuihin verrattuna 3x ja 4x nopeampi specint17 ratessa mutta ei julistettu itse tuloksia. Herättää epäilyksiä, että intelin ja AMDn systeemit oli konfiguroitu pieleen noiden testeissä.

Ja sitten nuo testit oli ilmeisesti ajettu 5.7 Ghz kellotaajuudella verraten n. 2.4 Ghz kellotaajuudella pyöriviin Intelin ja AMDn prossuihin - veikkaan, että sillä 5.7 Ghz kellotaajuudella tuolla sähkönkulutus on kilowattiluokkaa, ja jos AMDn ja Intelin piirit kellotettaisiin sinne 5 GHz luokkaan minne ne pystyy, tai tuo kellotettaisiin samaan virrankulutusluokkaan kuin millä AMDn ja Intelin piirit nyt pyörii n. 2.4 GHz taajuuksilla, nopeusvertailu antaisi aika erilaisia tuloksia.

Tachyon hypettää "out-of-order execution with Compiler" - tämä on bullshittiä. Prossu joko uudelleenjärjestelee käskyjä lennossa tai ei tee sitä, ja tämä ei tee sitä. Se, että joku välikoodikääntäjä uudelleenjärjestelee käskyjä ei anna järkevää suorituskykyä esim. välimuistihudin sattuessa ja vaatii edelleen maagista yksisarvikääntäjää software-pipelinettääkseeen hankalammat loopit optimaalisesti (kun taas oikea OoOE suorittaa ne optimaalisesti raudalla ilman mitään kääntäjätukea). Toki se kääntäjä voidaan viilaa software pipettämään muutama ebnchmarkeissa yleisesti esiintyvä looppi optimaalisesti, mutta sitten kun tosimaailmassa tulee vastaan hiukan erilainen looppi jonka software pipelinetys ei onnistu, se ajatuukin paljon hitaammin.

16 kiB 2-tieassosiatiiviset välimuistit ei myöskään oikein vakuuta.
Ensinnäkin kapasiteetti ja assosiatiivivisuus on pieni että huteja tulee paljon, ja kun OoOEn puutteessa hudin pitäisi sattua pahemmin.
Toisekseen, se, että tien koko on 8 kiB tarkoittaa sitä, että L1D-välimuisti ei voi olla VIPT-tyyppiä x86n 4 kiB välimuistisivuilla.


Tuo vektoripuoli tuossa voi sen sijaan olla ihan päteväkin, mutta en ole lukenut siitä vielä tarpeeksi sanoakseni siitä varmuudella mitään.
 
Viimeksi muokattu:
Miksi nuo tulokset kuulostaa siltä että on ajettu singlecorena tuloksia ja extrapoloitu sitten 128x ne ja sanottu että tää on näin hyvä
 
Tuo varmaan antaisi jo nykynäyttiksille tarpeeksi tukea taustalla.
 
Miksi nuo tulokset kuulostaa siltä että on ajettu singlecorena tuloksia ja extrapoloitu sitten 128x ne ja sanottu että tää on näin hyvä

Tämä on myös mahdollista. Tällöin
1) Ei tarvi piitata sähkönkulutuksesta ja lämmöntuotosta vaikka kellotaajuus on korkea.
2) Uloimman tason välimuisteilla, jotka on jaettu monen ytimen välillä, saadaan parempi osumatarkkuus kuin tositilanteessa.
3) Muistikaistaa riittää paremmin kuin tositilanteessa.
 

Statistiikka

Viestiketjuista
257 000
Viestejä
4 465 826
Jäsenet
73 879
Uusin jäsen
Torvelo

Hinta.fi

Back
Ylös Bottom