- Liittynyt
- 21.08.2018
- Viestejä
- 5 527
Nvidia käyttää tuossa UpTo termiä mutta pakko kai se 20x josain toteuduttava ei tuollaisia numeroita tiemmä muuten voisi julkaista.Paitsi että ei oikeasti. Ei kannata uskoa kaikkea, mitä markkinamiehet sanoo;
Tuossa on kyse vertailusta jossa verrataan omenoita ja applelsiineja toisiinsa suunnassa joka on täysin vinossa todelliseen tilanteeseen nähden.
Jos meillä on satunnainen esikoulutettu neuroverkko, joka vaatii vähintään 8-bittiset kokonaisluvut, niin:
Voltalla se voidaan laskea tuolla "mixed"-tarkkuudella ja saada sille 125 teraflops nopeus. Suurempaa datanleveyttä saa aina käyttää; Se että verrataan Voltan ilman tensoriytimiä olevaan nopeuteen on hyvin epäreilu vertailu kun tosiasiassa niitä tensoriytimiä voisi käyttää suuremmalla laskentatarkkuudella.
Amperella se voidaan laskea tuolla natiivista 8-bittisillä inteillä 624 terops/s nopeudella.
Ero on tässä 5x, ei 20x.
Mikäli saadaan kouluttaa se neuroverkko uusiksi ja voidaan hyödyntää sparsifyä (jonka hyödyntäminen taas lisää selvästi vaivaa siihen koulutukseen ja vaatinee, että se pitää tehdä nVidian työkaluja käyttäen yms.) (optimaalinen tilanne sille Amperelle), silloin sen avulla saadaan melkein yhtä hyvä tulos tuplasti suuremmalla nopeudella. Tällöin ero on 10x, ei 20x.
"TF32 running on Tensor Cores in A100 GPUs can provide up to 10x speedups compared to single-precision floating-point math (FP32) on Volta GPUs. Combining TF32 with structured sparsityon the A100 enables performance gains over Volta of up to 20x."
Viitataan tähän.
"TensorFloat-32 (TF32), a precision format, accelerating AI training and certain HPC jobs up to 20x.