NVIDIA esitteli Tesla V100 -kiihdyttimen

Sampsa

Sysop
Ylläpidon jäsen
Team Tesla
Liittynyt
13.10.2016
Viestejä
12 530



Käytössä on Volta-arkkitehtuuriin perustuva GV100-grafiikkapiiri, joka rakentuu 21,1 miljardista transistorista ja sen pinta-ala on 815 neliömillimetriä. Grafiikkapiiri valmistetaan TSMC:n 12 nanometrin FFN-prosessilla, joka on kustomoitu NVIDIAlle ja piisiru on niin iso kuin valmistuksessa käytettävä fotolitografia tällä hetkellä mahdollistaa.

Tesla V100:n grafiikkapiiri toimii 1455 MHz:n Boost-taajuudella ja siitä on kytketty pois käytöstä neljä SM-yksikköä eli käytössä on 5120 CUDA-ydintä ja 320 tekstuuriyksikköä. Grafiikkapiirin rinnalla on 16 gigatavua Samsungin valmistamaa HBM2-muistia, joka tarjoaa muistiväylän kaistanleveydeksi 900 gigatavua / sekunnissa. Todellisuudessa GV100-grafiikkapiirissä on 84 SM-yksikköä ja erikseen 5376 FP32-ydintä ja 5376 INT32-ydintä, 2688 FP64-ydintä, 672 Tensor-ydintä ja 336 tekstuuriyksikköä.

Uutta V100:n SM-yksiköissä ovat Tensor-ytimet. Tensor-ytimet ovat koneoppimiselle pyhitettyjä yksiköitä, jotka ovat erikoistuneet tensoreiden laskentaan. Käytännössä kukin Tensor-ydin suorittaa "D = A x B + C" -laskutoimituksia 4 x 4 -matriiseilla ja kykenee yhteensä 64 FMA-operaatioon ((Fused Multiply-Add) FP16-kertolasku, FP32-akkumulaatio) kellojaksossa. NVIDIAn mukaan erikoistuneet yksiköt mahdollistavat peräti 12-kertaisen suorituskyvyn viime sukupolven P100:n nähden opetus- ja päättelytehtävissä (FP32) tai kuusinkertaisen suorituskyvyn syväoppimisessa (FP16).

FP32-suorituskyvyksi kerrottiin 15 TeraFLOPSia ja FP64-suorituskyvyksi 7,5 TeraFLOPSia.

SXM2-kokoluokan kiihdyttimessä piirilevyllä on BGA-koteloitu interposer-alusta, jonka päällä on GV100-grafiikkapiiri ja HBM2-muistit. Grafiikkapiirin molemmilla puolin on virransyöttö. Tesla V100 on yhteydessä muihin grafiikkapiireihin NVLink 2-väylän kautta, joka mahdollistaa teoriassa maksimissaan 300 Gt/s tiedonsiirtonopeuden. Maximum Performance -tilassa kiihdyttimen TDP-arvo on 300 wattia.

Tesla V100:n tutkimus- ja kehitysbudjetiksi kerrottiin 3 miljardia dollaria. Kiihdyttimet ovat käytössä muun muassa 149 000 dollarin hintaisessa neuroverkkojen käsittelyyn tarkoitetussa DGX-1V-supertietokoneessa, joka on varustettu kahdeksalla Tesla V100:lla.



Lähde: NVIDIA

Huom! Foorumiviestistä saattaa puuttua kuvagalleria tai upotettu video.

Linkki alkuperäiseen uutiseen (io-tech.fi)
 
Viimeksi muokattu:

Nerkoon

Se ainoa oikea
Platinum-jäsen
Liittynyt
18.10.2016
Viestejä
5 625
Tuo kortti maksaa luultavasti toistakymmentätuhatta dollaria kappale. Jossain väitettiin, että edellistä sukupolvea sai 4kpl / 69000 dollaria ja tuo tuskin on halvempi.
 
Liittynyt
24.02.2017
Viestejä
300
https://devblogs.nvidia.com/parallelforall/inside-volta/ sanoi:
Tensor Cores 640
Eipä ole tuollaista termiä tullut vastaan aikaisemmin, mutta tensori ilmeisesti viittaisia koneoppimisessa käytettyihin metodeihin. (Pidemmälle ku lukee niin näköjään kerrotaan vastaus)
Koneoppiminen nyt tällä hetkellä tuntuu olevan se hot-topic, mutta varmaan tuolla on muuallakin käyttöä. Ihan mielenkiintoista nähdä, miten tuo 12nm FFN prosessi vaikuttaa kuluttajakortteihin, sitten kun niitä tulee.
 

Nerkoon

Se ainoa oikea
Platinum-jäsen
Liittynyt
18.10.2016
Viestejä
5 625
Eipä ole tuollaista termiä tullut vastaan aikaisemmin, mutta tensori ilmeisesti viittaisia koneoppimisessa käytettyihin metodeihin. (Pidemmälle ku lukee niin näköjään kerrotaan vastaus)
Koneoppiminen nyt tällä hetkellä tuntuu olevan se hot-topic, mutta varmaan tuolla on muuallakin käyttöä. Ihan mielenkiintoista nähdä, miten tuo 12nm FFN prosessi vaikuttaa kuluttajakortteihin, sitten kun niitä tulee.
Se tensori vaikutti jonkinlaiselta matriisilaskimelta. Luultavasti noilla ei tee mitään normaalilla GPU puolella.
 

jpjantti

I/O-moduuli
Liittynyt
14.10.2016
Viestejä
161
Custom valmistusprosessi, äärimmilleen viety piirin koko ja 50% Pascalin SM yksikköä paremmalla perf/w? NVIDIA:lla tuntuu olevan liikaa rahaa ja se näkyy R&D ja valmistusteknisellä puolella. :dead:
 
Liittynyt
17.10.2016
Viestejä
21 886
Custom valmistusprosessi, äärimmilleen viety piirin koko ja 50% Pascalin SM yksikköä paremmalla perf/w? NVIDIA:lla tuntuu olevan liikaa rahaa ja se näkyy R&D ja valmistusteknisellä puolella. :dead:
..mutta Nvidian ensimmäinen Volta-tuote on jo ulkona. Onko tässä enää mitään esteitä Voltan tuomiselle kuluttajille 2018?

Tosin, 3 miljardia ja tuote, joka on markkinoilla alle 3 vuotta.. Kova pitää olla liikevaihto..
 

Sampsa

Sysop
Ylläpidon jäsen
Team Tesla
Liittynyt
13.10.2016
Viestejä
12 530
..mutta Nvidian ensimmäinen Volta-tuote on jo ulkona. Onko tässä enää mitään esteitä Voltan tuomiselle kuluttajille 2018?
Voisi kuvitella, että ainakin GV104 nähtäisiin 2017(?).
 
Liittynyt
17.10.2016
Viestejä
21 886
Voisi kuvitella, että ainakin GV104 nähtäisiin 2017(?).
Jos AMD:lla on ongelmia HBM2:n riittävyydessä (viittaan tuohon 16 000 kappaleen Vegan julkaisuhuhuun), GTX 1080 Ti on ollut markkinoilla vain hetken ja 11Gbps versiot juuri julkaistu muistakin high-endistä kilpailemaan Vegaa vastaan, niin ei kai tässä kiire ole. Veikkaisin, että optio julkaista vuonna 2017 on jätetty auki, riippuen kilpailutilanteesta, mutta enemmän rahaa tekevät, jos jättävät julkaisun ensi vuoteen.
 

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
21 453
Uutiseen päivitetty lyhyt kuvaus Tensor-ytimistä
 
Liittynyt
03.02.2017
Viestejä
17
Skynet askelta lähempänä.
Koneoppiminen, hauska käsite itsessään kun sen ihminen on kehittänyt.
 

Juhamies

NOSTO
Liittynyt
19.10.2016
Viestejä
621
No nyt oli sellainen uutinen josta meikällä meni noin 93% yli hilseen :) Semmoista sanastoa että en tajunnut mitään :p
 
Liittynyt
22.10.2016
Viestejä
11 032
. Ihan mielenkiintoista nähdä, miten tuo 12nm FFN prosessi vaikuttaa kuluttajakortteihin, sitten kun niitä tulee.
Sellainen huomio, että kyseessä on sitten vain parannettu (neljäs) versio tuosta "16nm" prosessista (joka sekin on vain "20nm" + finFET).
Eli transistoritiheyttä ei ole saatu yhtään lisää, mutta virrankulutus/nopeus kyllä paranee hiukan noiden pienten viilausten myötä.
(TSMC päätti uudelleennimetä tuon hiukan viilatun prosessin "12nm" prosessiksi kun se on nopeudeltaan/virrankulutukseltaan parempi kuin GFn/Samsungin "14nm" (mutta selvästi huonompi kuin intelin "14nm")
 

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
21 453
Skynet askelta lähempänä.
Koneoppiminen, hauska käsite itsessään kun sen ihminen on kehittänyt.
Ihminen on kehittänyt sen koneen, mutta se kone oppii itsenäisesti

No nyt oli sellainen uutinen josta meikällä meni noin 93% yli hilseen :) Semmoista sanastoa että en tajunnut mitään :p
Kerro toki mitkä asiat menee yli hilseen niin ihmetellään voidaanko niitä avata kansantajuisemmiksi jotenkin
 
Liittynyt
05.11.2016
Viestejä
2 133
Kerro toki mitkä asiat menee yli hilseen niin ihmetellään voidaanko niitä avata kansantajuisemmiksi jotenkin
Tulevaisuudessa varmaan voisi miettiä olisiko kysyntää tai tarvetta artikkelille jossa käytäisiin läpi GPC:t, SM-yksiköt, CUDA ytimet, TMU:t, ROP:t, Compute Unitit, stream-prosessorit, shaderit ja niin edelleen.
Eli sellainen "selitys artikkeli" missä käytäisiin läpi mitä se näytönohjain tekee, mistä se koostuu, AMD/Nvidia/Intel ympäri pyöreästi muttei välttämättä keskittyen mihinkään tiettyyn arkkitehtuuriin.
Tätä voisi sitten tarpeen vaatiessa päivittää/täydentää ja vastaavissa uutisissa kuten tämä ohjata lukijoita sinne jos heitä kiinnostaa ymmärtää mistä ihmeestä uutisessa puhutaan.
Ehkä myös sitten sisällyttää noita eksoottisempia juttuja kuten Tensor ytimet jos sille on tarvetta tai jotain muita tekniikoita tahi sen hetken "buzz word" juttuja kuten async compute.
 
Liittynyt
24.02.2017
Viestejä
300
Sellainen huomio, että kyseessä on sitten vain parannettu (neljäs) versio tuosta "16nm" prosessista (joka sekin on vain "20nm" + finFET).
Eli transistoritiheyttä ei ole saatu yhtään lisää, mutta virrankulutus/nopeus kyllä paranee hiukan noiden pienten viilausten myötä.
(TSMC päätti uudelleennimetä tuon hiukan viilatun prosessin "12nm" prosessiksi kun se on nopeudeltaan/virrankulutukseltaan parempi kuin GFn/Samsungin "14nm" (mutta selvästi huonompi kuin intelin "14nm")
Aivan juu, tästä on ollutkin paljon keskustelua miten nuo prosessileveydet on nykyään vallan harhaanjohtavia. Oli ehkä hiukan retoorinen kysymys. :lol: Tuo "Nvidialle kustomoitu" taitaa myös olla enemmän markkinoinnin sanahelinää kuin mitään täysin mullistavaa.

Jotenkin GPU-rintamalla tuntuu tapahtuvan enemmän kuin CPU-puolella. Poislukien nää AMD:n refreshit ja Nvidian Titan revisiot, ja tietysti Ryzen oli kaivattu piristysruiske. Laskentatehot kasvaa ja virrankulutus pienenee kiitettävästi. Jotenkin odottaa GPU julkaisuja enemmän mielenkiinnolla, vaikka ei kyllä ole itsellä rahaa laittaa noihin high-end kortteihin.

No nyt oli sellainen uutinen josta meikällä meni noin 93% yli hilseen :) Semmoista sanastoa että en tajunnut mitään :p
Tuossa englanninkielisessä artikkelissa minkä -SD- linkkasi on aika paljon avattu noita termejä. Itselläkin kyllä menee hiukan yli hilseen nuo warp scheduloinnit, branch divergence handlingit yms, vaikka olen käynyt yliopistolla yhden kurssinkin, missä oli Nvidian arkkitehtuureista.

Eipä kyllä noille kaikille termeille taida suomalaista wikipedia sivua löytyä.
IO-tech wikin paikka? :p
 

Juhamies

NOSTO
Liittynyt
19.10.2016
Viestejä
621
Ihminen on kehittänyt sen koneen, mutta se kone oppii itsenäisesti


Kerro toki mitkä asiat menee yli hilseen niin ihmetellään voidaanko niitä avata kansantajuisemmiksi jotenkin
Niin siis ihan yleisesti ottaen iteltäni menee ohi kun ei tiiä mitä noi kaikki jutut tarkoittaa :) En tarkoittanut kritisoida itse uutista mitenkään :)
 

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
21 453
Niin siis ihan yleisesti ottaen iteltäni menee ohi kun ei tiiä mitä noi kaikki jutut tarkoittaa :) En tarkoittanut kritisoida itse uutista mitenkään :)
En sitä sillä ajatellutkaan, vaan ihan vain että totta ihmeessä me avataan eri asioita enemmänkin lukijoille jos se vain on mahdollista
 
Liittynyt
14.12.2016
Viestejä
2 767
Kerro toki mitkä asiat menee yli hilseen niin ihmetellään voidaanko niitä avata kansantajuisemmiksi jotenkin
Tulevaisuudessa varmaan voisi miettiä olisiko kysyntää tai tarvetta artikkelille jossa käytäisiin läpi GPC:t, SM-yksiköt, CUDA ytimet, TMU:t, ROP:t, Compute Unitit, stream-prosessorit, shaderit ja niin edelleen.
Eli sellainen "selitys artikkeli" missä käytäisiin läpi mitä se näytönohjain tekee, mistä se koostuu, AMD/Nvidia/Intel ympäri pyöreästi muttei välttämättä keskittyen mihinkään tiettyyn arkkitehtuuriin.
Tätä voisi sitten tarpeen vaatiessa päivittää/täydentää ja vastaavissa uutisissa kuten tämä ohjata lukijoita sinne jos heitä kiinnostaa ymmärtää mistä ihmeestä uutisessa puhutaan.
Ehkä myös sitten sisällyttää noita eksoottisempia juttuja kuten Tensor ytimet jos sille on tarvetta tai jotain muita tekniikoita tahi sen hetken "buzz word" juttuja kuten async compute.
UKK grafiikkasuorittimista... mikä ettei! Kuulostaa ihan hyvältä. Tai joku muu vastaava formaatti. Wiki tosin vastaa näihin kysymyksiin jo tällä hetkellä, mutta jos tietotekniikka saitilla on ihan oma faq:nsa niin ei siitä haittaakaan ole.
 

UX

Liittynyt
06.12.2016
Viestejä
250
Tuolla varmaan pyörii nyt myös MATLAB jouhevammin :p
 
Liittynyt
17.10.2016
Viestejä
1 020
Tuolla varmaan pyörii nyt myös MATLAB jouhevammin :p
Ainakin ne muutama GPU-kiihdytetty funktio varmaan. Voin vain kuvitella, kuinka turhauttavaa tuollaisen kanssa olisi profiloida* ja optimoida pois kaikki muut pullonkaulat. "Miksi tämä koodi ei silti nopeutunut juuri yhtään. Äh. Tuo rivi ei rinnakkaistu. Äh. Tuo funktio ei ole tuettu GPU-laskennassa." Ei sillä, heti ottaisin moisen jos jostain sellaisen saisin, vaikka ei mulla sille mitään oikeaa käyttöä olisikaan**.

* Tutkia kunkin koodin osan ajankäyttöä erikseen.
** Joskus vähän olen klusterilla laskenut asioita, ja onhan se ihan siistiä ajaa samalla kertaa 400 kopiota erittäin laiskasti optimoitua Matlab-koodia, sen sijaan, että olisi tarvinnut optimoida koodi nopeaksi.

PS. Niille joille Matlab ei ole yhtään tuttu, se on sellainen kaupallinen skriptikieli. Huonosti kirjoitetun ja hyvin kirjoitetun koodin nopeusero on enemmän kuin joku kerroin 1000. Huono, hitaampi kuin Python; hyvä, nopeampi kuin mitä itse ikinä jaksaa optimoida oman C++-koodin kulkemaan (siis käyttäen AVX, SSE, ... ja muut epä-koodaustavat).
 
Liittynyt
14.03.2017
Viestejä
182
Tiedän prosessorisuunnittelusta tasan tarkkaan nolla, mutta olisiko periaatteessa mahdollista suunnitella/vaihtaa fyysisellä tasolla nuo INT, FP64 ja tensorytimet FP32 ytimiksi saaden tällä tavoin ~25k FP32 ytimellisen monsteripiirin?
 
Liittynyt
27.12.2016
Viestejä
1 837
Tuolla varmaan pyörii nyt myös MATLAB jouhevammin :p
Ainakin ne muutama GPU-kiihdytetty funktio varmaan. Voin vain kuvitella, kuinka turhauttavaa tuollaisen kanssa olisi profiloida* ja optimoida pois kaikki muut pullonkaulat. "Miksi tämä koodi ei silti nopeutunut juuri yhtään. Äh. Tuo rivi ei rinnakkaistu. Äh. Tuo funktio ei ole tuettu GPU-laskennassa." Ei sillä, heti ottaisin moisen jos jostain sellaisen saisin, vaikka ei mulla sille mitään oikeaa käyttöä olisikaan**.

* Tutkia kunkin koodin osan ajankäyttöä erikseen.
** Joskus vähän olen klusterilla laskenut asioita, ja onhan se ihan siistiä ajaa samalla kertaa 400 kopiota erittäin laiskasti optimoitua Matlab-koodia, sen sijaan, että olisi tarvinnut optimoida koodi nopeaksi.

PS. Niille joille Matlab ei ole yhtään tuttu, se on sellainen kaupallinen skriptikieli. Huonosti kirjoitetun ja hyvin kirjoitetun koodin nopeusero on enemmän kuin joku kerroin 1000. Huono, hitaampi kuin Python; hyvä, nopeampi kuin mitä itse ikinä jaksaa optimoida oman C++-koodin kulkemaan (siis käyttäen AVX, SSE, ... ja muut epä-koodaustavat).
Matlab on kuitenkin tuotenimi vähän samaan tapaan kuin kutsuisi Visual Studiota kieleksi. Varmaan tarkoitit Matlabin C:tä muistuttaavaa M kieltä? Siitä kun viimeksi olen Matlabia käyttänyt alkaa kyllä olemaan niin kauan että ehkäpä kielen nimeksi on vakiintunut Matlab, tiedä häntää ...
 
Toggle Sidebar

Statistiikka

Viestiketjut
237 560
Viestejä
4 166 325
Jäsenet
70 423
Uusin jäsen
ngocminh247

Hinta.fi

Ylös Bottom