The Register: NVIDIAn Titan V -näytönohjaimissa laskuvirheitä aiheuttava ongelma

  • Keskustelun aloittaja Keskustelun aloittaja Kaotik
  • Aloitettu Aloitettu

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 377
titan-v-2-08122017.jpg



NVIDIAn Volta-arkkitehtuurin Titan V on nopein näytönohjain, joka on suunnattu edes teoriatasolla myös kuluttajille. The Registerin mukaan ainakin osa Titan V -näytönohjaimista kärsii bugista, joka vaikuttaa ainakin näytönohjaimen käyttökelpoisuuteen tieteellisessä laskennassa.

The Registerin artikkelin mukaan Titan V -näytönohjaimia vaivaa bugi, jonka vuoksi saman laskutehtävän tulos ei ole aina sama. Sivusto kertoo konsultoineensa artikkelin tiimoilta useita insinöörejä, jotka suostuivat vastaamaan tiedusteluihin vain anonyymeinä. The Register kertoo myös kysyneensä NVIDIA:lta asiasta suoraan jo useaan otteeseen, mutta yhtiö on kieltäytynyt vastaamasta kyselyihin.

Alun perin ongelmasta kertoneen insinöörin mukaan hän ajoi testejä yhteensä neljällä Titan V -näytönohjaimella. Näytönohjaimista kaksi antoi noin 10 % laskukerroista tulokseksi jotain muuta, kuin olisi pitänyt, vaikka näytönohjaimissa ei vaikuttanut muutoin olevan mitään vikaa. Pascal-sukupolven Titan-näytönohjaimilla vastaavaa ongelmaa ei esiintynyt.

Muiden insinöörien mukaan kyseessä ei ole ensimmäinen kerta, kun vastaavaa tapahtuu NVIDIAn huippunäytönohjaimissa, mutta aiemmat ongelmat on selvitetty ilmeisesti ajurikorjauksilla. Yksi haastatelluista insinööreistä epäili, että ongelma saattaisi löytyä liian tiukalle venytetyistä muisteista, jotka aiheuttaisivat lukuvirheitä. Toiseksi selitykseksi on esitetty yksinkertaisesti suunnitteluvirhettä, mutta suunnitteluvirheestä johtuvien laskuvirheiden luulisi esiintyvän jok’ikisessä Titan V -näytönohjaimessa, ei vain osassa.

NVIDIA pitää GPU Technology Conference -tapahtumansa ensi viikolla. Tapahtuma olisi otollinen tilaisuus ottaa kantaa mahdolliseen ongelmaan, mikäli se on yksittäistapauksia lajeempi.

Lähde: The Register

Huom! Foorumiviestistä saattaa puuttua kuvagalleria tai upotettu video.

Linkki alkuperäiseen uutiseen (io-tech.fi)

Palautelomake: Raportoi kirjoitusvirheestä
 
Tässä ei ole ECC muistia? Ei sovellu tieteelliseen laskentaan. Muisteissa siis vika.
 
Tässä ei ole ECC muistia? Ei sovellu tieteelliseen laskentaan. Muisteissa siis vika.
HBM(2)-muistit kyllä tukevat ECC:tä, siitä en tiedä onko NVIDIA ottanut ko. tukea käyttöön Titan V:ssä.
 
Perinteisesti tarvinnut Tesla ostaa, jos haluaa ECC-tuellisen näytönohjaimen. Eiköhän tässä ole jatkettu samalla linjalla kuin aiemmissakin Titaneissa.
 
Kolmen tonnin kortin pitäisi minusta kyllä minimissään laskea oikein joka kerta. Oliko tuo V100 muuten samalla piirillä ja laskeeko se oikein?
 
Ainahan noita virheitä tulee, mutta jos jollain kortilla useinkin, niin eiköhän sekin ole korjattavissa muistikellojen tai GPU kellojen laskulla, ettei mene muisti sekaisin. Ostaa 3k€ kortin ja joutuu alikellottamaan, että toimii, on kyllä aika synkkä yhtälö.
 
Kolmen tonnin kortin pitäisi minusta kyllä minimissään laskea oikein joka kerta. Oliko tuo V100 muuten samalla piirillä ja laskeeko se oikein?
Joka kerta on niin hurja vaatimus, ja siihen ei pääse yksikään tähän asti tehty laskentavärkki, jos halutaan edes välttävää suorituskykyä.
Siksi kun tarvitaan oikeasti lähemmäs 100% luotettavuutta (ihmishenget vaarassa), saatetaan käyttää esim. kolmea eri suoritinta saman asian laskemiseen.

Tähän asti ei ole kukaan muu vielä raportoinut ongelmista, niin voi hyvinkin olla taustalla heikompi muistipiirierä tai muu vastaava. Olettaen siis, että Titan V:ssÄ edes on ECC muistit.

e: titan v, ei v100
 
Tähän asti ei ole kukaan muu vielä raportoinut ongelmista, niin voi hyvinkin olla taustalla heikompi muistipiirierä tai muu vastaava. Olettaen siis, että Titan V:ssÄ edes on ECC muistit.

Kaikki HMB2 muistot on ECC muistoja joten kyllä siinä on ECC muistot kun käsittääkseni Titan V:ssä on HBM2 muistot.

Kolmen tonnin kortin pitäisi minusta kyllä minimissään laskea oikein joka kerta. Oliko tuo V100 muuten samalla piirillä ja laskeeko se oikein?

Eikös Titan V:ssä ole täysi V100 piiri?

Jospa nVidia vaan on päättänyt myydä vialliset piirit hiukan halvemmalla pois = Titan V
 
Jos vika on joissain korteissa, niin ei muuta, kuin takuuvaihtoon ko kortit.
 
Tässä ei ole ECC muistia? Ei sovellu tieteelliseen laskentaan. Muisteissa siis vika.

Jostain toisaalta luin (ei ole linkkiä tarjolla, androidin google feedistä äkkiä luin), että virheitä tuottava kortti suoltaa grafiikkaa ulos täysin ongelmitta. Ja ilmeisesti sekä grafiikan että laskennan ulostuloa oli testattu toistuvalla testillä. Huonolla tuurilla voisi siis olla bugia piirissäkin, hyvällä tuurilla itse kortissa jotain hönöä.. viallisia tai sitten muistit koitettu kellottaa liian korkealle.

Ei kerran toistu kaikilla korteilla niin olisiko vakio asetukset muistien kelloille vedetty liian rohkeaksi. Eihän nuo AMD Vega:t päässeet ihan niihin muistien kellotaajuuksiin joita muistipiireillee luvattiin. En muista oliko samaten HBM(1) kanssa Furyssä.
 
Njoo kyseessä lienee amber, joka on taannoin ennenkin antanut poikkeavia vastauksia nvidian tuotoksilla(niin ei se kyllä millään muulla toimikkaan kun on cuda softa). Yksi syyhän tuohon voi olla disabloidussa hbm2 muistissa. Eiköhän se aina eri muisti ole joka on disabloitu noissa ja tuo selittäisi myös sen että jotkut laskevat oikein ja jotkut taas sitten eivät.

Kaikki HMB2 muistot on ECC muistoja joten kyllä siinä on ECC muistot kun käsittääkseni Titan V:ssä on HBM2 muistot.



Eikös Titan V:ssä ole täysi V100 piiri?

Jospa nVidia vaan on päättänyt myydä vialliset piirit hiukan halvemmalla pois = Titan V

Ei samat 80/84 SM:ää ja lisäksi myös yksi hbm2 muisti on pätkäisty kehistä.
 
Kaikki HMB2 muistot on ECC muistoja joten kyllä siinä on ECC muistot kun käsittääkseni Titan V:ssä on HBM2 muistot.

Muistit voi itsessään tukea ECC:tä, mutta ajureissa on disabled-tilassa kuten kaikilla aiemmillakin Titaneilla.

CUDA deviceQuery palauttaa siis disabled myös Titan V:llä.

Koodi:
deviceQuery.exe Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "TITAN V"
  CUDA Driver Version / Runtime Version          9.1 / 9.1
  CUDA Capability Major/Minor version number:    7.0
  Total amount of global memory:                 12288 MBytes (12884901888 bytes)
  (80) Multiprocessors, ( 64) CUDA Cores/MP:     5120 CUDA Cores
  GPU Max Clock rate:                            1455 MHz (1.46 GHz)
  Memory Clock rate:                             850 Mhz
  Memory Bus Width:                              3072-bit
  L2 Cache Size:                                 4718592 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)
  Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 7 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  CUDA Device Driver Mode (TCC or WDDM):         WDDM (Windows Display Driver Model)
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 9.1, CUDA Runtime Version = 9.1, NumDevs = 1, Device0 = TITAN V
Result = PASS
 
Ei kerran toistu kaikilla korteilla niin olisiko vakio asetukset muistien kelloille vedetty liian rohkeaksi. Eihän nuo AMD Vega:t päässeet ihan niihin muistien kellotaajuuksiin joita muistipiireillee luvattiin. En muista oliko samaten HBM(1) kanssa Furyssä.
Furyissä oli 500 MHz:n HBM-muistit, eli maksimit mitä HBM1-spekseissä oli. Tämän vuoksi myös Vegoihin "odotettiin" HBM2:n max kelloilla toimivia eli 1000 MHz, mutta niihin otettiin vähän matalammalle speksattuja variantteja.
 
Tähän asti ei ole kukaan muu vielä raportoinut ongelmista, niin voi hyvinkin olla taustalla heikompi muistipiirierä tai muu vastaava. Olettaen siis, että Titan V:ssÄ edes on ECC muistit.

Kaikki HMB2 muistot on ECC muistoja joten kyllä siinä on ECC muistot kun käsittääkseni Titan V:ssä on HBM2 muistot.

Kolmen tonnin kortin pitäisi minusta kyllä minimissään laskea oikein joka kerta. Oliko tuo V100 muuten samalla piirillä ja laskeeko se oikein?

Eikös Titan V:ssä ole täysi V100 piiri?

Jospa nVidia vaan on päättänyt myydä vialliset piirit hiukan halvemmalla pois = Titan V
Muistoihin ei voi luotttaa ;-P
 
Ei samat 80/84 SM:ää ja lisäksi myös yksi hbm2 muisti on pätkäisty kehistä.

Siis sama määrä molemmissa cuda ja tensor coreja. Molemmissa paketeissa kuvien perusteella on myös 4 HBM2 stäkkiä eli kyllä väittäisin että ovat täysin sama piiri.
 
Muistit voi itsessään tukea ECC:tä, mutta ajureissa on disabled-tilassa kuten kaikilla aiemmillakin Titaneilla.

CUDA deviceQuery palauttaa siis disabled myös Titan V:llä.

Siihen en ota kantaa että onko se ajuripuolella tuettuna mutta raudan puoleen Titan V kyllä pystyy toimimaan ECC tilassa.
 
Siis sama määrä molemmissa cuda ja tensor coreja. Molemmissa paketeissa kuvien perusteella on myös 4 HBM2 stäkkiä eli kyllä väittäisin että ovat täysin sama piiri.

Eh tietenkin ovat sama piiri vai mitä ihmettä tarkoitat? 4 stäckiä hbm2:sta kyllä mutta yksi niistä on joka Titan V:ssä pimeänä.
 
Register on päivittänyt uutista:
Updated to add
A spokesperson for Nvidia has been in touch to say people should drop the chip designer a note if they have any problems. The biz acknowledged it is aware of at least one scientific application – a molecular dynamics package called Amber – that reportedly is affected by the Titan V weirdness.

"All of our GPUs add correctly," the rep told us. "Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com."

Eli syystä x ainakin Amber-nimisessä softassa Titan V:llä on ongelmia ja NVIDIA on tietoinen asiasta
 
Titanien pääasiallinen tarkoitus on saada myöhemmin julkaistavat 80 Ti kortit näyttämään halvemmalta kuin mitä ne ovat (ja tietenkin ottaa rahat pois hätäisimmiltä). 1500€ näytönohjain joka vastaa edellistä 3000€ kapistusta näyttää varmasti monen mielestä loistodiililtä, ja absoluuttinen hintataso unohtuu kokonaan.
 
No sanotaan että mulla on noin 6k ylimääräistä enkä huoriin tai matkoille ole menossa.
Mikähän ois semmonen jolla sais itsensä tyytyväiseksi hetkeksi kertomatta vaimolle?
 
Titanien pääasiallinen tarkoitus on saada myöhemmin julkaistavat 80 Ti kortit näyttämään halvemmalta kuin mitä ne ovat (ja tietenkin ottaa rahat pois hätäisimmiltä). 1500€ näytönohjain joka vastaa edellistä 3000€ kapistusta näyttää varmasti monen mielestä loistodiililtä, ja absoluuttinen hintataso unohtuu kokonaan.

No ei nyt ihan noinkaan. Eihän Titan V ole millään tasolla tarkoitettu "normikäyttäjille", ja aiemmin jos on halunnut vastaavaa laskentatehoa on pitänyt ostaa vielä Titan V:tä paljon kalliimpia kortteja. Voit huviksesi käydä Googlaamassa mitä lähes vastaava Tesla V100 kortti maksaa, niin huomaat että Titan V on itseasiassa halpa kortti.

Uutinen on kyllä harmillinen, mutta olisi kyllä tuo kyseinen nimettömänä pysyvä insinööri voinut hieman avata tarkemmin tuota missä tilanteissa näitä ongelmia esiintyy. Jos kyse on vain tuossa Amberissa esiintyvistä ongelmista, niin voisi lähtökohtaisesti olettaa että vika ei ole kortissa vaan softassa, mutta näillä tiedoilla tuota on aika paha testatakaan.
 
Tässä ei ole ECC muistia? Ei sovellu tieteelliseen laskentaan. Muisteissa siis vika.
Jos laskuvirhe tapahtuu GPU:n rekistereissä, ei ECC auta mitään.

ECC varmistaa ainoastaan sen, että muistista luettu tieto on sama kuin mikä sinne kirjoitettiinkin.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
257 000
Viestejä
4 465 826
Jäsenet
73 879
Uusin jäsen
Torvelo

Hinta.fi

Back
Ylös Bottom