Tesla sai AI5-piirin valmiiksi

kalkkuna · 18.04.2026

Kaikki tämä keskustelu on kuitenkin teoreettista, koska AI5-piirin arkkitehtuuria ja speksejä ei ole julkistettu. Muisikaistan suhteen piiri on jossain 1 TB/s luokassa, joka on samaa tasoa RTX 5080 kanssa.

pomk · 18.04.2026

kalkkuna sanoi:
Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus.

Mutta taas arkkitehtuuri valitaan sen mukaan miten voidaan toteuttaa laskenta valittua käyttötarkoitusta varten. Käyttötarkoitus siis määrää lopulta kaiken.

Sinänsä on kyllä ihan totta että jonkun tietyn arkkitehtuurin verkko tietyssä koossa tietyllä raudalla rullaa yhtä nopeasti läpi oli sen käyttötarkoitus mitä tahansa.

finWeazel · 18.04.2026

kalkkuna sanoi:
Kaikki tämä keskustelu on kuitenkin teoreettista, koska AI5-piirin arkkitehtuuria ja speksejä ei ole julkistettu. Muisikaistan suhteen piiri on jossain 1 TB/s luokassa, joka on samaa tasoa RTX 5080 kanssa.

Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.

kalkkuna · 18.04.2026

pomk sanoi:
Mutta taas arkkitehtuuri valitaan sen mukaan miten voidaan toteuttaa laskenta valittua käyttötarkoitusta varten. Käyttötarkoitus siis määrää lopulta kaiken.

Sinänsä on kyllä ihan totta että jonkun tietyn arkkitehtuurin verkko tietyssä koossa tietyllä raudalla rullaa yhtä nopeasti läpi oli sen käyttötarkoitus mitä tahansa.

Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.

Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.

pomk · 18.04.2026

kalkkuna sanoi:
Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.

Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.

Täysin samaa mieltä. Vaikea olis nyt arvata kolmen vuoden päähän että millaset laskentayksiköt kannattais laittaa. Siis vaikka olisi joku toimiva malli jollekkin nykyarkkitehtuurille toteutettuna, jonka haluaisi deployata jollekkin kustom raudalle.

Ala kehittyy valtavaa tahtia ja luulen että kiihtyy vielä.

kalkkuna · 18.04.2026

finWeazel sanoi:
Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.

Jos katsotaan Nvidian uusinta robotiikkapiiriä, Jetson Thor:ia, niin sen tensorilaskenta tulee pääosin tensoriytimestä (UTCMMA), ei NVDLA:sta.

finWeazel · 18.04.2026

kalkkuna sanoi:
Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.

Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.

Teslalla on jo oma pino joka toimii, juuri hyväksyttiin hollannissakin käyttöön. Tesla tietää hyvin mitä softaa tulevat ajamaan. Reilu 10v tesla jo tuota pinoa yhdessä tai toisessa muodossa vääntänyt kasaan. Todennäköisesti konesaliraudassa on jo ajossa isompaa mallia mikä ei mahdu nykyiseen hw4:een ja ajetaan sitten ai5:ssa. Asia on erilainen jos teet rautaa firmassa X ja yrität myydä sitä sitten firmoille a,b,c,d... Tesla ei ai5:sta aio myydä kenellekkään, menee vain heidän omiin roboihin, konesaleihin ja myöhemmin myös autoihin. Nvidia on juuri tämä taho joka yrittää myydä a,b,c,d firmoille jolloin heidän on pakko tehdä geneerinen ratkaisu toisin kuin teslan.

Linkki: https://www.youtube.com/watch?v=vsmQrDqMwcI

pomk · 18.04.2026

finWeazel sanoi:
Teslalla on jo oma pino joka toimii, juuri hyväksyttiin hollannissakin käyttöön.

Kaistavahteja nyt on muiltakin valmistajilta.

Kattellaan sitten kun FSD saadaan markkinoille että mitä on jäljellä nykyisestä pinosta.

kalkkuna · 18.04.2026

finWeazel sanoi:
Tesla tietää hyvin mitä softaa tulevat ajamaan. Reilu 10v tesla jo tuota pinoa yhdessä tai toisessa muodossa vääntänyt kasaan.

Jos tietäisivät mitä tulevat ajamaan tulevaisuudessa, eiväthän he tarvitsisi tehdä 6 rautaversiota. Teslahan lupaili että auto on täysin autonominen, eikä tarvitse kuskia, jo melkein 10v sitten. Ei ole vielä tapahtunut...

Kaotik · 18.04.2026

pomk sanoi:
Kaistavahteja nyt on muiltakin valmistajilta.

Kattellaan sitten kun FSD saadaan markkinoille että mitä on jäljellä nykyisestä pinosta.

Ei se mikään kaistavahti ole edes kärjistäen, ihan turvaa provoilua tuollainen.

pomk · 18.04.2026

Kaotik sanoi:
Ei se mikään kaistavahti ole edes kärjistäen, ihan turvaa provoilua tuollainen.

Tason kaksi laite siinä missä kaistavahditkin.

Seppo77 · 18.04.2026

kalkkuna sanoi:
Tässä säikeessä on paljon väärinkäsityksiä, jotka eivät pidä paikkaansa. Käytettävä laskentatarkkuus ei juurikaan vaikuta vaikkapa muistiväylien kokoon: pienemmillä laskentatarkkuuksilla matriisien koko vain vastaavasti kasvaa. Lisäksi useimmiten tensorien muistilayout on blokitettu niin, että aina vedetään tietty määrä muistista, esim. 32 tai 128 tavua. Eli, laskentatarkkuus ja muistiväylien koot ovat pääosin erillisiä asioita.

Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus. Lisäksi, eri kuva/videoprosessointiin käytettävät verkkoarkkitehtuurit voivat olla dramaattisesti erilaisia: Esimerkiksi ViT, traditionaalinen konvoluutioverkko, ja ConvNext-tyylinen syyvyysseparoituvaan konvoluutioon perustuva verkko, johtavant varsin erilaisiin datavirtoihin.

Piirin rakentaminen vain yhdelle spesifiselle arkkitehtuurille voi johtaa siihen, että piiri on jo "vanhentunut syntyessään" kun verkon arkkitehtuuria on paranneltu. Näin on käynyt mm. "NPU"-piireille kuten Apple Neural Engine, mitkä olivat suunniteltu perinteisiä konvoverkkoja varten, eivätkä sovi hyvin moderneihin arkkitehtuureihin.

Ja sitten tämä latenssikeskustelu: Pääasia mikä vaikuttaa tähän, on se kuinka suuriin matriiseihin verkko on suunniteltu. Kuitenkin, kuvaverkoissa joissa viive on kymmeniä millisekunteja, on kysymys suhteellisen teoreettinen. Viive tulee ongelmaksi lähinnä hyvin pienen viiveen verkoissa (<< 1 ms), tai erittäin pienen viiveen LLM-inferenssissä, joissa painojen määrä on todella paljon isompi aktivaatioihin nähden. Kumpikaan näistä ei pidä paikkansa kuitenkaan kuvaverkoissa.

Olet oikeassa siinä että tarkka verkko määrittää lopullisen laskentatarpen ja dataflown mutta siitä ei seuraa että rautaa ei voisi optimoida etukäteen. Käytännössä optimoidaan laskentaluokalle (dense tensor compute, memory/latency -rajoitteet) jonka sisällä eri arkkitehtuurit elävät ja juuri siksi sama rauta pystyy ajamaan CNN, ViT ja ConvNext-tyyppisiä malleja ilman että se on “vanhentunut syntyessään”.

kalkkuna · 18.04.2026

Seppo77 sanoi:
Olet oikeassa siinä että tarkka verkko määrittää lopullisen laskentatarpen ja dataflown mutta siitä ei seuraa että rautaa ei voisi optimoida etukäteen. Käytännössä optimoidaan laskentaluokalle (dense tensor compute, memory/latency -rajoitteet) jonka sisällä eri arkkitehtuurit elävät ja juuri siksi sama rauta pystyy ajamaan CNN, ViT ja ConvNext-tyyppisiä malleja ilman että se on “vanhentunut syntyessään”.

Jos teet hyperspesifisen raudan jollekin tietylle arkkitehtuurille, niin voit poistaa kaiken "ylimääräisen", säästäen kustannuksia. Mutta silloin et enää pysty ajamaan erilaisia verkkoja raudalla nopeasti. Mitä geneerisempi rauta on, sitä vaikeammaksi tulee tehdä rauta sellaiseksi että sillä voi ajaa erilaisia arkkitehtuureja nopeasti.

Eli se, että "tehdään rauta täsmälleen siihen tarpeeseen mitä nyt on", on fundamentaalisesti ristiriidassa sen kanssa, että "rakennetaan rauta jolla voi ajaa erilaisia verkkoja".

Toki ei pystytä sanomaan mihin tämä piiri edes sijoittuu tässä, kun arkkitehtuuri ei ole julkinen.

Seppo77 · 18.04.2026

kalkkuna sanoi:
Jos teet hyperspesifisen raudan jollekin tietylle arkkitehtuurille, niin voit poistaa kaiken "ylimääräisen", säästäen kustannuksia. Mutta silloin et enää pysty ajamaan erilaisia verkkoja raudalla nopeasti. Mitä geneerisempi rauta on, sitä vaikeammaksi tulee tehdä rauta sellaiseksi että sillä voi ajaa erilaisia arkkitehtuureja nopeasti.

Eli se, että "tehdään rauta täsmälleen siihen tarpeeseen mitä nyt on", on fundamentaalisesti ristiriidassa sen kanssa, että "rakennetaan rauta jolla voi ajaa erilaisia verkkoja".

Toki ei pystytä sanomaan mihin tämä piiri edes sijoittuu tässä, kun arkkitehtuuri ei ole julkinen.

Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.

pomk · 18.04.2026

Seppo77 sanoi:
Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.

Taas vedät näitä grok vastauksia tänne. Mitä laskentaluokka edes tarkoittaa?

kalkkuna · 18.04.2026

Seppo77 sanoi:
Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.

Kun rakennat piirin jolla ajetaan neuroverkkoja "yleisesti" eri arkkitehtuureille, niin pääset lopputulokseen joka vastaa yleiskäyttöisyydeltä enemmän GPU:ta kuin erikoispiiriä. Tämä on nähty mm. Googlen TPU:ssa: ensimmäiset piirit olivat hyvin rajoitettuja, kun taas piiri on mennyt yleiskäyttöisempään suuntaan. Toki tarkoittaen sitten sitä, ettei piiri oikeasti ole (energia-, hinta-)tehokkaampi kuin se GPU.

Kaotik · 18.04.2026

pomk sanoi:
Tason kaksi laite siinä missä kaistavahditkin.

Kaistavahti on tason yksi laite. Kaistallapitoavustin/kaistan keskitysavustin voi olla tasoa kaksi mutta tuo Teslan FSD Supervised on paljon kehittyneempi kuin ne kaksi, riitti se seuraavaan tasoon tai ei.

Seppo77 · 18.04.2026

pomk sanoi:
Taas vedät näitä grok vastauksia tänne. Mitä laskentaluokka edes tarkoittaa?

Sitä että millaista laskentaa tehdään (operaatiot, data ja rajoitteet) ei yhtä tiettyä mallia. Esim. CNN, ViT ja ConvNext ovat eri arkkitehtuureja mutta kuuluvat samaan laskentaluokkaan koska ne koostuvat pääosin samantyyppisestä tensorilaskenasta.

Seppo77 · 18.04.2026

kalkkuna sanoi:
Kun rakennat piirin jolla ajetaan neuroverkkoja "yleisesti" eri arkkitehtuureille, niin pääset lopputulokseen joka vastaa yleiskäyttöisyydeltä enemmän GPU:ta kuin erikoispiiriä. Tämä on nähty mm. Googlen TPU:ssa: ensimmäiset piirit olivat hyvin rajoitettuja, kun taas piiri on mennyt yleiskäyttöisempään suuntaan. Toki tarkoittaen sitten sitä, ettei piiri oikeasti ole (energia-, hinta-)tehokkaampi kuin se GPU.

Ymmärrän pointin mutta tuo ei mene suoraan “yleinen on yhtäkuin GPU”. Käytännössä modernit AI-kiihdytimet rajaavat laskennan tensorioperatioihin mikä antaa tehokkuuden mutta jättävät tarpeeksi joustoa eri arkkitehtuureille eli ne eivät ole GPU:ita vaan välimuoto joka on edellen tehokkaampi tälle workloadille.

pomk · 18.04.2026

Kaotik sanoi:
Kaistavahti on tason yksi laite. Kaistallapitoavustin/kaistan keskitysavustin voi olla tasoa kaksi mutta tuo Teslan FSD Supervised on paljon kehittyneempi kuin ne kaksi, riitti se seuraavaan tasoon tai ei.

Kaistavahti joka esim. samalla toimii vakionopeudensäätimenä on tason 2 laite. Näitä on maailma pullollaan.

Teslan kaistavahti toki kuvittelee osaavansa tehdä enemmänkin, mutta voi jatkuvasti tehdä virheitä ja ei ole yhtään luotettavampi laitteena.

Tasoon 3 on pitkä tie, muista puhumattakaan.

Seppo77 sanoi:
Sitä että millaista laskentaa tehdään (operaatiot, data ja rajoitteet) ei yhtä tiettyä mallia. Esim. CNN, ViT ja ConvNext ovat eri arkkitehtuureja mutta kuuluvat samaan laskentaluokkaan koska ne koostuvat pääosin samantyyppisestä tensorilaskenasta.

Voisitko lopettaa tämän ai geneeoidun paskan suoltamisen tänne?

Jos mikä vaan ai laskenta on samaa laskentaluokkaa, niin miten se mukamas ajaa jotain piirikehitystä mihinkään suuntaan. Tässä sinun välittämässä grok-hölynpölyssä ei ole mitään tolkkua.

kalkkuna · 18.04.2026

Seppo77 sanoi:
Ymmärrän pointin mutta tuo ei mene suoraan “yleinen on yhtäkuin GPU”. Käytännössä modernit AI-kiihdytimet rajaavat laskennan tensorioperatioihin mikä antaa tehokkuuden mutta jättävät tarpeeksi joustoa eri arkkitehtuureille eli ne eivät ole GPU:ita vaan välimuoto joka on edellen tehokkaampi tälle workloadille.

Ensinnäkin, mikään moderni AI-kiihdytin ei rajaa operaatioita pelkästään matriisikertolaskuihin, vaan sulla pitää olla aktivaatio, esi/jälkiprosessointi yms. operaatioita myös. Jos näitä ei olisi, olisi kiihdytin erittäin hidas. Esimerkiksi, Googlen TPU sisältää erilliset matriisi, tensori, skaalaari ja sparse-yksiköt jotka tekevät eri asioita. Tämä generaalisuus vaatii piiriltä alaa. Nvidialla lähes kaikki FLOP:t ovat myös tensoriytimessä, ja SM hoitaa vektori, skalaari ja kontrollioperaatiot.

Se, kuinka paljon näitä yksiköitä pitää olla, taas riippuu verkosta, ei pelkästään arkkitehtuurista vaan myös koosta. Jos kanavien määrä on isompi, tarvitaan enemmän MMA-throughputia kuin vaikkapa aktivaatioiden vaatimaa SFU-throughputia. Joten tässä tulee taas se ongelma, että joko teet "turhaa" yhdelle mallille, tai hidastat kaikkia muita kuin sitä yhtä mallia.

Seppo77 · 18.04.2026

pomk sanoi:
Jos mikä vaan ai laskenta on samaa laskentaluokkaa, niin miten se mukamas ajaa jotain piirikehitystä mihinkään suuntaan. Tässä sinun välittämässä grok-hölynpölyssä ei ole mitään tolkkua.

Sama "laskentaluokka” ei tarkoita että kaikki on samaa vaan että tiedetän riittävästi kuormasta tensorilaskenta, memory/latency-profiili, rinnakkaisuus jotta voidaan tehdä arkkitehtuuripäätöksiä ja se e ohjaa rautaa compute/memory-suhteeseen, muistihierarkiaan, rinnakaisuuteen ja datapathiin vaikka yksittäinen malli ei ole tiedossa.

Seppo77 · 18.04.2026

kalkkuna sanoi:
Ensinnäkin, mikään moderni AI-kiihdytin ei rajaa operaatioita pelkästään matriisikertolaskuihin, vaan sulla pitää olla aktivaatio, esi/jälkiprosessointi yms. operaatioita myös. Jos näitä ei olisi, olisi kiihdytin erittäin hidas. Esimerkiksi, Googlen TPU sisältää erilliset matriisi, tensori, skaalaari ja sparse-yksiköt jotka tekevät eri asioita. Tämä generaalisuus vaatii piiriltä alaa. Nvidialla lähes kaikki FLOP:t ovat myös tensoriytimessä, ja SM hoitaa vektori, skalaari ja kontrollioperaatiot.

Se, kuinka paljon näitä yksiköitä pitää olla, taas riippuu verkosta, ei pelkästään arkkitehtuurista vaan myös koosta. Jos kanavien määrä on isompi, tarvitaan enemmän MMA-throughputia kuin vaikkapa aktivaatioiden vaatimaa SFU-throughputia. Joten tässä tulee taas se ongelma, että joko teet "turhaa" yhdelle mallille, tai hidastat kaikkia muita kuin sitä yhtä mallia.

Olet oikeassa siinä että eri verkot muuttavat yksiköiden optimaalista suhdetta mutta siitä ei seuraa että mitän ei voisi mitoittaa ilman yhtä mallia koska käytännössä tiedetään jo etukäteen että tensorilaskenta dominoi ja muu on tukikuormaa ja tämän perusteella arkkitehturi voidaan mitoittaa riittävän oikein useille malleille. Tämä ei ole optimaalinen yhdelle mutta ei myöskään huono kaikille muille vaan kompromissi joka toimii koko laskentaluokassa.

pomk · 18.04.2026

@Kaotik onko tää grok copy-paste kama mitä tänne jatkuvasti suolletaan foorumin sääntöjen mukaista toimintaa?

Seppo77 sanoi:
Sama "laskentaluokka” ei tarkoita että kaikki on samaa vaan että tiedetän riittävästi kuormasta tensorilaskenta, memory/latency-profiili, rinnakkaisuus jotta voidaan tehdä arkkitehtuuripäätöksiä ja se e ohjaa rautaa compute/memory-suhteeseen, muistihierarkiaan, rinnakaisuuteen ja datapathiin vaikka yksittäinen malli ei ole tiedossa.

Piirrä vaikka joku diagrammi seuraavaksi, jos vaikka lopulta ymmärrettäisiin jotain näistä grokin hallusinaatioista.

Owern · 18.04.2026

finWeazel sanoi:
Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.

Jos Gemini on koulutettu ja Athropic mallit isolta osin Googlen TPU. Niin mihin sitä GPU:ta siis tarvii. Joo siinä on etunsa, mutta jos se syö 50 % pinta alaa vaikka tai on 10 kertaa hiitaampi kun en tiedä onko nuo yrityskohtaiset laskentapiirit asic, mutta ei vaikuta, että GPU on pakollinen, jos 50 % top 3 malleista on koulutettu Googlen TPU.

Owern · 19.04.2026

Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.

finWeazel · 19.04.2026

Owern sanoi:
Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.

Uusin juttu nvfp4/mxfp4 missä 16/32 numeroa palasille oma skaalainarvo, että saadaan tarkkuutta kasvatettua. nvfp4:ssa kaksitasoinen skaalausblockisysteemi ja enempi tarkkuutta skaalainarvoissa kuin yksitasoisessa mxfp4:ssa. Iso motivaatio saada mallien opetus ja inferenssi toimimaan nvfp4/mxfp4 kun miljardien konesalista saa tuplat tokeneita ulos tai mallin opetettua puolessa ajasta versus fp8 missä aika silti kuukausia. Selektiivisesti osa mallista jää isompaan tarkkuuteen, ei pelkkää nvfp4/mxfp4:sta.

Owern · 19.04.2026

finWeazel sanoi:
Uusin juttu nvfp4/mxfp4 missä 16/32 numeroa palasille oma skaalainarvo, että saadaan tarkkuutta kasvatettua. nvfp4:ssa kaksitasoinen skaalausblockisysteemi ja enempi tarkkuutta skaalainarvoissa kuin yksitasoisessa mxfp4:ssa. Iso motivaatio saada mallien opetus ja inferenssi toimimaan nvfp4/mxfp4 kun miljardien konesalista saa tuplat tokeneita ulos tai mallin opetettua puolessa ajasta missä aika silti kuukausia.

Eikö toi oo enemmän inferenceen? eigän Nytkään käytetä treenaukseen juuri muuta kuin BF16. Mutta B200 Nvidialla tulee koulutukseen. "kahden erillisen FP8-tietotyypin dynaaminen yhdistelmä". Ihan eri tarkuudet käytössä koulutus on paljon korkeammalla tarkuudella kuin inferance.

Tuskin se mahdoton ajatus on noit, että noita mataliakin tarkuuksia voisi käytää koulutukseenkin. Mutta omaa tietämystä tuosta ei ole.

Jostain luin, että NVFP4 om paljon parempi kuin mxfp4

finWeazel · 19.04.2026

Owern sanoi:
Eikö toi oo enemmän inferenceen? eigän Nytkään käytetä treenaukseen juuri muuta kuin BF16. Mutta B200 Nvidialla tulee keulutukseen. "kahden erillisen FP8-tietotyypin dynaaminen yhdistelmä". Ihan eri tarkuudet käytössä koulutus on paljon korkeammalla tarkuudella kuin inferance.

Tarvii opettaa mallit nvfp4:lla, että syntyy sopivia palasia inferenssiin. Jälkikäteen kvantisoimalla huonompi tulos. Nvidian uudet blackwell:lla opetetut omat mallit kuten uusin nemotron opetettu myös nvfp4:lla. Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy | NVIDIA Technical Blog Pointtihan on suht pienessä palasten koossa että kaksitasoinen skaalaus toimii hyvin ja siinä että sekaan voidaan jättää myös isompitarkkuuksisia numeroita . Mutta,... pitää suunnitella lähdöstä asti nvfp4:en ehdoilla, ei toimi vahingossa.

Se motivaatio kun on x-miljardien konesali ja voit saada etua kilpailijaan verrattuna jos sun pre training kestää 2kk kun kaverilla menee 4kk tai jollain fp16 hermannilla 8kk. Aika on kirjaimellisesti rahaa. GB300:en mitä alettiin asentamaan viime syksynä konesaliin toi 40% enempi nvfp4 suorituskykyä versus gb200.

Owern · 19.04.2026

finWeazel sanoi:
Tarvii opettaa mallit nvfp4:lla, että syntyy sopivia palasia inferenssiin. Jälkikäteen kvantisoimalla huonompi tulos. Nvidian uudet blackwell:lla opetetut omat mallit kuten uusin nemotron opetettu myös nvfp4:lla. Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy | NVIDIA Technical Blog Pointtihan on suht pienessä palasten koossa että kaksitasoinen skaalaus toimii hyvin ja siinä että sekaan voidaan jättää myös isompitarkkuuksisia numeroita . Mutta,... pitää suunnitella lähdöstä asti nvfp4:en ehdoilla, ei toimi vahingossa.

Se motivaatio kun on x-miljardien konesali ja voit saada etua kilpailijaan verrattuna jos sun pre training kestää 2kk kun kaverilla menee 4kk tai jollain fp16 hermannilla 8kk. Aika on kirjaimellisesti rahaa. GB300:en mitä alettiin asentamaan viime syksynä konesaliin toi 40% enempi nvfp4 suorituskykyä versus gb200.

Joo, mutta kun otaa huomioon, että nyt lähes kaikki frontier mallit on koulutettu bf16 eli paljon tarkemmalla kuin PF8 millä ainakin paljon ajetaan inferenceä. Että en heti keksi miksi tuo muutuisi, että koulutus vaatii korkeampaa tarkuutta, mutta kos sellaisen saa nopeammin kyättyä matalimmista tarkuuksista, niin hyvä (etenkin Nvidialle).

Kyllä, Gemini on oikeassa – lähes kaikki nykyiset frontier-mallit on (tai on ollut) koulutettu bf16-precisionilla (tarkemmin mixed-precision-koulutuksessa, jossa bf16 on pääasiallinen laskentatarkkuus).⁠Huggingface

bf16 (bfloat16) on ollut de facto -standardi LLM-koulutuksessa jo useita vuosia, koska se tarjoaa saman dynaamisen alueen kuin fp32 mutta puolittaa muistin ja nopeuttaa laskentaa merkittävästi (erityisesti H100/B200/TPU-kiihdyttimillä). Se korvasi fp16:n, koska fp16 oli epävakaampi suurissa malleissa.⁠Weirdfishes.substack

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Meta Llama 3 / Llama 3.1 → Koulutettu bf16:lla (virallisesti dokumentoitu Meta:n papereissa ja Hugging Face -malleissa).⁠Medium
Google Gemini → Google käyttää TPUs:ia, joissa bf16 on natiivi formaatti jo vuosia – kaikki Gemini-mallit perustuvat siihen.⁠Cloud.google
Useimmat muut frontier-mallit (Claude-sarja, GPT-4/o-sarja, Grok jne.) → Suljetut mallit eivät julkaise tarkkoja teknisiä raportteja, mutta alan konsensus ja hardware-tuki (A100/H100/B200) tekevät bf16:sta käytännössä ainoan järkevän vaihtoehdon vakaudelle.⁠LinkedIn

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):

Llama 4 → Meta siirtyi FP8:aan (uudempi, vielä matalampi tarkkuus).⁠News.ycombinator
DeepSeek-V3/R1 → Ensimmäinen iso avoin malli, joka käytti FP8 mixed-precisionia (custom-optimoinneilla).⁠Research.colfax-intl

Nämä ovat kuitenkin uusia poikkeuksia vuoden 2025 lopulta/2026 alusta. FP8 on vielä “emerging” – se ei ole vielä korvannut bf16:ta laajasti, koska se vaatii paljon enemmän hienosäätöä stabiiliuden takaamiseksi. Epoch AI:n analyysin mukaan bf16 on ollut adoption-käyrän loppusuoralla, ja FP8:sta odotetaan vasta ~2028 standardia.⁠Epoch

Yhteenveto: Gemini puhuu täysin oikein. bf16 on edelleen se formaatti, jolla lähes kaikki frontier-mallit (erityisesti suljetut huippumallit) on koulutettu. FP8 on tulossa, mutta ei vielä vallannut alaa. Jos joku malli käyttää jotain muuta, se on poikkeus, ei sääntö.

finWeazel · 19.04.2026

Owern sanoi:
Joo, mutta kun otaa huomioon, että nyt lähes kaikki frontier mallit on koulutettu bf16 eli paljon tarkemmalla kuin PF8 millä ainakin paljon ajetaan inferenceä. Että en heti keksi miksi tuo muutuisi, että koulutus vaatii korkeampaa tarkuutta, mutta kos sellaisen saa nopeammin kyättyä matalimmista tarkuuksista, niin hyvä.

Kyllä, Gemini on oikeassa – lähes kaikki nykyiset frontier-mallit on (tai on ollut) koulutettu bf16-precisionilla (tarkemmin mixed-precision-koulutuksessa, jossa bf16 on pääasiallinen laskentatarkkuus).⁠Huggingface

bf16 (bfloat16) on ollut de facto -standardi LLM-koulutuksessa jo useita vuosia, koska se tarjoaa saman dynaamisen alueen kuin fp32 mutta puolittaa muistin ja nopeuttaa laskentaa merkittävästi (erityisesti H100/B200/TPU-kiihdyttimillä). Se korvasi fp16:n, koska fp16 oli epävakaampi suurissa malleissa.⁠Weirdfishes.substack

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Meta Llama 3 / Llama 3.1 → Koulutettu bf16:lla (virallisesti dokumentoitu Meta:n papereissa ja Hugging Face -malleissa).⁠Medium

Google Gemini → Google käyttää TPUs:ia, joissa bf16 on natiivi formaatti jo vuosia – kaikki Gemini-mallit perustuvat siihen.⁠Cloud.google

Useimmat muut frontier-mallit (Claude-sarja, GPT-4/o-sarja, Grok jne.) → Suljetut mallit eivät julkaise tarkkoja teknisiä raportteja, mutta alan konsensus ja hardware-tuki (A100/H100/B200) tekevät bf16:sta käytännössä ainoan järkevän vaihtoehdon vakaudelle.⁠LinkedIn

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):

Llama 4 → Meta siirtyi FP8:aan (uudempi, vielä matalampi tarkkuus).⁠News.ycombinator

DeepSeek-V3/R1 → Ensimmäinen iso avoin malli, joka käytti FP8 mixed-precisionia (custom-optimoinneilla).⁠Research.colfax-intl

Nämä ovat kuitenkin uusia poikkeuksia vuoden 2025 lopulta/2026 alusta. FP8 on vielä “emerging” – se ei ole vielä korvannut bf16:ta laajasti, koska se vaatii paljon enemmän hienosäätöä stabiiliuden takaamiseksi. Epoch AI:n analyysin mukaan bf16 on ollut adoption-käyrän loppusuoralla, ja FP8:sta odotetaan vasta ~2028 standardia.⁠Epoch

Yhteenveto: Gemini puhuu täysin oikein. bf16 on edelleen se formaatti, jolla lähes kaikki frontier-mallit (erityisesti suljetut huippumallit) on koulutettu. FP8 on tulossa, mutta ei vielä vallannut alaa. Jos joku malli käyttää jotain muuta, se on poikkeus, ei sääntö.

NVFP4/mxfp4 lienee sen verta uusi juttu ettei ollut esim. llama4:en opettaminen sillä realistisesti mahdollista, h200 ei tue nvfp4/mxfp4. nvfp4:een varmaan siirrytty vielä julkaisemattomissa malleissa mitä tulee tänä keväänä/kesällä ulos (gb300:lla opetettuja, viime syksynä alkanut asennukset konesaleihin). Ekat nvfp4:lla opetetut mallit tullut nvidialta ulos alkuvuodesta ja nvidia lienee ihan keihäänkärkenä tässä. OpenAI ja meta seurannee perästä. Anthropic ja google eivät käytä nvidiaa omien malliensa opettamiseen. xAI: uusin isoin tulossaoleva malli varmistettu olevan 10biljoonaa parametria ja käyttää nvidiaa opettamiseen. Yllätyn jos ei grok5:en opettamisessa ole käytetty ainakin jossain opetusvaiheessa nvfp4:sta.

Kiinamalleja pitäisi teoriassa olla mahdotonta opettaa nvfp4:lla kun blackwellillä ollut täysi vientikielto kiinaan.

Owern · 19.04.2026

Juu tossa oli paljon, mitä en tiennt, esim. että on optimaalista ajaa koilutusta samalla tarkuudella kuin infeence, niin voihan tuo hyvinkin olla tulevaisuutta, mutta lienee jotain "vakaus ongelmia" pitää korjailla, ja Mallien kehittäjät joutuu opetella vähän uuden tavan kouluttaa.

Mutta ei mulla alunperin muuta pointtia ollut kun käytännössä 50 % tai yli Top 3 malleista Eli 1. Anthropic 2. Open ai. 3. Google. On koulutettu TPU:lla.

kalkkuna · 19.04.2026

Jos Gemini on koulutettu ja Athropic mallit isolta osin Googlen TPU. Niin mihin sitä GPU:ta siis tarvii. Joo siinä on etunsa, mutta jos se syö 50 % pinta alaa vaikka tai on 10 kertaa hiitaampi kun en tiedä onko nuo yrityskohtaiset laskentapiirit asic, mutta ei vaikuta, että GPU on pakollinen, jos 50 % top 3 malleista on koulutettu Googlen TPU.

Näissä luvuissa ei kuitenkaan ole mitään totuusperustaa. Google ei ole esittänyt tehokkuuslukuja kilpailijoihin nähden, vaikka tämä olisi hyvin helppoa esimerkiksi MLPerf:n kautta. Todennäköisesti luvut eivät ole mitä haluavat, joten pitävät ne salassa. Se rajallinen data mitä he ovat MLPerf:iin tuoneet, indikoi näin. MLPerf siis toimii periaatteella jossa vendorit voivat vetää tulosten julkistuksen pois kun näkevät kilpailijoiden luvut.

Se, miksi Anthropic käyttää Googlen piirejä, johtuu ennemmin siitä, että Google on investoinut heihin. Ihan validi syy, kapasiteetti on kapasiteettia oli se sitten vähän huonompaa. Toki myös Anthropic käyttää Nvidiaa, mutta eivät ym. syistä siitä juurikaan huutele eteenpäin.

Edit: Toki treenauksessa on hyvin tärkeää miten kaikki integroituu yhteen, piirit interconnectiin, hallintaan yms. Jos Googlella on tämä rakennettu omia piirejä varten hyvin, niin yhden piirin paremmuus vs toinen ei välttämättä ole niin tärkeä asia.

Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.

Isot kielimallit esitreenatataan nykyään FP8:lla tai NVFP4:lla, ei BF16:lla. BF16 formaatti on ihan kätevä kun se ei ole sensitiivinen mallin numeeriselle stabiliteetille, mutta kielimallien treenaus on nykyään niin kallista, että olisi täysin järjetöntä käyttää 2-4x kalliimpaa formaattia tähän. Toki käytännössä mallit treenataan "mixed-precision" jossa eri osa mallista ajetaan eri tarkkuuksilla.

Riippumatta siitä, millä malli esitreenataan kuitenkin, voidaan mallit optimoida eri tarkkuuksille käyttäen QAT:ta (Quantization Aware Training), eli malli finetunetetaan tietylle tarkkuudelle.

Owern · 19.04.2026

kalkkuna sanoi:
Näissä luvuissa ei kuitenkaan ole mitään totuusperustaa. Google ei ole esittänyt tehokkuuslukuja kilpailijoihin nähden, vaikka tämä olisi hyvin helppoa esimerkiksi MLPerf:n kautta. Todennäköisesti luvut eivät ole mitä haluavat, joten pitävät ne salassa. Se rajallinen data mitä he ovat MLPerf:iin tuoneet, indikoi näin. MLPerf siis toimii periaatteella jossa vendorit voivat vetää tulosten julkistuksen pois kun näkevät kilpailijoiden luvut.

Se, miksi Anthropic käyttää Googlen piirejä, johtuu ennemmin siitä, että Google on investoinut heihin. Ihan validi syy, kapasiteetti on kapasiteettia oli se sitten vähän huonompaa. Toki myös Anthropic käyttää Nvidiaa, mutta eivät ym. syistä siitä juurikaan huutele eteenpäin.

Edit: Toki treenauksessa on hyvin tärkeää miten kaikki integroituu yhteen, piirit interconnectiin, hallintaan yms. Jos Googlella on tämä rakennettu omia piirejä varten hyvin, niin yhden piirin paremmuus vs toinen ei välttämättä ole niin tärkeä asia.

Isot kielimallit esitreenatataan nykyään FP8:lla tai NVFP4:lla, ei BF16:lla. BF16 formaatti on ihan kätevä kun se ei ole sensitiivinen mallin numeeriselle stabiliteetille, mutta kielimallien treenaus on nykyään niin kallista, että olisi täysin järjetöntä käyttää 2-4x kalliimpaa formaattia tähän. Toki käytännössä mallit treenataan "mixed-precision" jossa eri osa mallista ajetaan eri tarkkuuksilla.

Riippumatta siitä, millä malli esitreenataan kuitenkin, voidaan mallit optimoida eri tarkkuuksille käyttäen QAT:ta (Quantization Aware Training), eli malli finetunetetaan tietylle tarkkuudelle.

No en tiedä mitä "nykyään" tarkoittaa, voi olla joo uusia malleja teenauksessa. Mutta nyt käytössä olevat on opetettu bf16 tai siis tietysti sekoitus eri tarkuuksia, mutta bf16 on ollut _tähän_ mennessä se käytetyin.

Owern · 19.04.2026

Googlen ja Nvidian skaalaus toteytus on täysin erilaiset. Sanoisin, että googlen oma voi olla parempi. Ainakin kunnes yhden podin (~9000 TPU 1,6 PT HBM) Mutta vaikka muisti riitäisi, niin yksi super pod laskentateho ei riitä tarpeeksi koulutukseen, niin on jaettu useamman bodin kesken.

Jos TPU ei riitä edes Googlelle ja Athropic, niin mikä tarve niillä olisi julkaista mitään virallisia perf lukuja. Mutta varmaan ne on hyvin samoissa kuin käytönnässä Nvidian kanssa. Parempaa hyötysuhdetta Google on mainostanut.

Jos Olisikon jännäntilanne, että TPU on vaikka 2*parempi ROI kun Nvidia, niin ei tosta Googlella oo tarve huudella. Google on yrittänyt hädissään kasvataa TPU tuotantoa, muta visiin aika ei oota myudän valmistuksen suhteen.

kalkkuna · 19.04.2026

Owern sanoi:
No en tiedä mitä "nykyään" tarkoittaa, voi olla joo uusia malleja teenauksessa. Mutta nyt käytössä olevat on opetettu bf16 tai siis tietysti sekoitus eri tarkuuksia, mutta bf16 on ollut _tähän_ mennessä se käytetyin.

Isot amerikkalaiset mallifirmat (OpenAI, Anthropic, Google) eivät ole julkisesti kertoneet millä tarkkuudella he treenaavat. Kiinalaiset ovat välillä avoimempia tässä: Esimerkiksi DeepSeek V3 on treenattu FP8 mixed-precisionilla: DeepSeek-V3 Technical Report

zepi · 20.04.2026

Ainakin nykyisellään nuo piilottelevat kaikkea kun eivät uskalla antaa kilpailijoille tietoa siitä, että mitä jippoja kukakin on keksinyt resurssien säästämiseksi ja vastaavasti eivät uskalla julkaista mitään mikä voisi pelotella raha-uuniin massia lapioivien sijoittajien intoa rahoittaa tätä prosessia...

Hieman lisää informaatiota aletaan saada kun ekat AI-firmat päätyvät pörssiin, mutta todennäköisesti silloinkin koitetaan pimittää kaikin keinoin sitä, että paljonko mallien treenaaminen oikeasti maksaa ja mitä niiden inferenssi maksaa sisältäen capexit + sen kuoletukset...

Teslan matalan sähkötehon edge-ai on aika eri juttu kuin nuo kymmenien kilowattien räkkihärvelit.

Zuikkis · 20.04.2026

pomk sanoi:
Kaistavahti joka esim. samalla toimii vakionopeudensäätimenä on tason 2 laite. Näitä on maailma pullollaan.

Teslan kaistavahti toki kuvittelee osaavansa tehdä enemmänkin, mutta voi jatkuvasti tehdä virheitä ja ei ole yhtään luotettavampi laitteena.

Teslalla kuitenkin on jo L2 kaistavahdille EU-tason tyyppihyväksyntä ollut yli 10 vuotta. Miksi FSD vaatii uuden hyväksyntäkierroksen, ja Trafin mielestä jopa muutoskatsastuksen?

Joka tapauksessa "kaistavahti" varsin väärä nimitys nykyiselle FSD:lle joka kyllä mukisematta ajelee ilman kaistamerkintöjä hiekkatiellä tai jopa maastossa. Ehkä se on vaan "vahti".

finWeazel · 20.04.2026

Zuikkis sanoi:
Teslalla kuitenkin on jo L2 kaistavahdille EU-tason tyyppihyväksyntä ollut yli 10 vuotta. Miksi FSD vaatii uuden hyväksyntäkierroksen, ja Trafin mielestä jopa muutoskatsastuksen?

Joka tapauksessa "kaistavahti" varsin väärä nimitys nykyiselle FSD:lle joka kyllä mukisematta ajelee ilman kaistamerkintöjä hiekkatiellä tai jopa maastossa. Ehkä se on vaan "vahti".

end-2-end neuroverkkoratkaisu ei oikein mahdu nykyisiin pykäliin. Teslassa ei ole c/c++/rust/... koodia/palasia mistä voisi osoittaa että tuossa se hanskaa tilanteen x,y,z. Raaka sensoridata menee sisään neuroverkkoon ja ulos tulee ohjauskomentoja. Mersu+nvidia yhteistyössä(cla) on end-2-end neuroverkko ja siihen päälle tuplaratkaisu missä "perinteisellä" heuristiikalla varmistetaan että jos neuroverkko kämmää vaikka stop merkin niin se toinen pino pysäyttää. Tästä oli nvidian ces ja gtc esityksissä+mersun pressi briiffissä selitystä kun media kävi san franciscossa kokeilemassa mersun cla:n ajoavustinta.

pomk · 20.04.2026

Zuikkis sanoi:
Teslalla kuitenkin on jo L2 kaistavahdille EU-tason tyyppihyväksyntä ollut yli 10 vuotta. Miksi FSD vaatii uuden hyväksyntäkierroksen, ja Trafin mielestä jopa muutoskatsastuksen?

Joka tapauksessa "kaistavahti" varsin väärä nimitys nykyiselle FSD:lle joka kyllä mukisematta ajelee ilman kaistamerkintöjä hiekkatiellä tai jopa maastossa. Ehkä se on vaan "vahti".

Tuo voi tehdä niin voimakkaita, äkkinäisiä ja erilaisia ohjaustoimenpiteitä että kyllä se pitää uutena järjestelmänä varmasti testata. Sitä varsinaista kaistavahtiakin jos päivitetään niin se pitää testata ja hyväksyä uudestaan.

Muutoskatsastuskin on varmaan ihan hyvä idea kameroiden sun muiden toiminnan varmistamiseksi.

finWeazel · 20.04.2026

Sen artikkelin kun lukee niin muutoskatsastus jos sellainen vaaditaan todennäköisesti tehdään paperityönä, kerralla kaikille autoille, viranomaisten toimesta. Ei minään kaikkien on käytävä katsastusasemalla proseduurina.

hkultala · 20.04.2026

leripe sanoi:
Gemini pro:n mielipide:

Ei kannattaisi luottaa näihin hallusinoiviin LLM-roskiin tällaisissa.

Aivan triviaalisti näkee että oikeassa kuvassa tuo piirin tyyppikoodia lkaa D-kirjaimella, LLM-roska kuitenkin hallusinoi sinne H-kirjaimen koska se on nähnyt enemmän H-kirjaimella alkavia muistipiirejä kuin D-kirjaimell alkavia muistipiiriä.

Ja kaikki muutkin on sitten ihan yhtä väärin.

hkultala · 20.04.2026

Seppo77 sanoi:
Tarkkoja formaatteja Tesla ei ole täysin julkistanut (varsinkaan AI5:stä), mutta aiemmista tiedetään suunta Tesla HW3/HW4 jossa pääpaino INT8 + osin FP16/FP32 ja uudemmissa todennäköisesti mukana myös alemmat tarkkuudet (INT4/FP8-tyyppiset). Koko datapolku on optimoitu juuri näille tarkkuuksille eism. muistiväylät juuri siihen bittileveyteen,

Käytännössä mitään muistiväyliä ei ole tällä vuosituhannella optimoitu kuljettamaan yksittäisiä 4- tai 8-bittisiä lukuja, vaan näitä pakataan aina hyvin leveiksi vektoreiksi.

Ja sitten kun se muistiväylä on pakattu leveäksi vektoriksi, on sen muistiväylän kannalta melko sama, että kulkeeko siitä esim. 32x32-bittistä lukua, 64-16-bittistä lukua vai 128x8-bittistä lukua, tosin lähinnä monimutkaisuutta tulee lisää ainoastaan jos halutaan tukea esim. unaligned accessia tai scatter-gatheria pienemmällä granulariteetillä.

Mutta se, että jätetään suuria laskentatarkkuuksia pois ei millään tavalla yksinkertaista sitä muistiväylää.

Seppo77 sanoi:
välimuistit juuri oikeaan kokoon

Mikä tämä "oikea" koko on? Datavälimuistille se optimaalinen koko vaihtelee hyvin paljon esim. neuroverkon eri kerrosten välillä.

Toki jonkun käskyvälimuistin suhteen tämä optimointi voi onnistuakin, että tehdään jostain L1-icachesta tarpeeksi iso, että sinne mahtuu varmasti vaikka yhden layerin koodi, mutta ei juuri enempää.

Seppo77 sanoi:
, laskentayksiköt ilman “turhaa yleislogiikkaa” joten voi olla nopeampi kuin Nvidia.

Tämä osa pitää paikkansa.

Seppo77 sanoi:
Kyse ei ole siitä kuitenknaan lopulta tukeeko Nvidia samaa tarkkuutta vaan siitä että Teslalla koko arkkitehtuuri on rakennettu vain muutamalle tarkkuudelle ilman yleiskäyttöisen GPU:n overheadia.

.. ja ilman sen grafiikan overheadia (ROPit, TMUt, kolmionalustusrauta, säteenjäljitysrauta jne)

Seppo77 sanoi:
Mallin yksityiskohdat muuttuvat mutta datavirta, tensorikoot ja latency-vaatimukset ovat tiedossa jo vuosia etukäteen. Piiri mitoitetaan niihin ei yksittäiseen malliversioon.

Sanoisin, että niiden välissä olevien kerrosten dimensioita halutaan kyllä välillä muuttaa. Ja sitten kun dimensiot muuttuvat, myös laskentaan kuluva aika muuttuu.

Seppo77 sanoi:
Käyttökohteita on useita mutta ne kaiki ajavat samaa Tesla AI -pipelinea joka ei ole yleiskäyttöinen AI-piiri kuten Nvidia vaan yhden ongelma-alueen piiri eri ympäristöissä.

HW3 pyörittää nykyistä FSD supervised -versiota mutta uudemmat mallit ja kapasiteetti on selvästi suunnattu uudelle raudalle.

Eli siis Tesla ei yritä tehdä yleiskäyttöistä AI-piiriä kuten Nvidia vaan optimoida koko arkkitehtuurin yhdelle datavirralle ja muutamalle tarkkuudelle. Siksi se voi olla tehokkaampi siinä käytössä vaikka Nvidia tukee enemmän formaatteja. Mallia ei tarvitse tietää täysin valmiiksi koska laskennan rakenne ja datavirrat ovat jo tiedossa.

... paitsi että tätä aiotaan käsittääkseni käyttää myös neuroverkon opettamiseen, ja siinä opettamisessa tarvitaan enemmän tarkkuutta kuin inferenssissä. Samoin sen datavirta on opetuskäytössä erilainen, siellä pitää ensin inferenssin yhteydessä tallettaa yliääräistä temmpidataa, ja sitten sen jälkeen ajaa neuroverkkoa "takaperin" tätä temppidataa hyödyntäen.

pomk · 21.04.2026

Olisko mitenkään mahdollista että @Seppo77 kertoisit meille että mitä se ”laskentaluokka” tarkoittaa näissä viesteissäsi. Mielellään menemättä ”työmoodiin”.

Kerro vaikka millainen muutos mallin rakenteessa johtaisi uuden laskentaluokan muodostumiseen.

Tesla sai AI5-piirin valmiiksi

Banhammer

Banhammer

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):​

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):​

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):​

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):​

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):

Tärkeimmät esimerkit (tilanne huhtikuussa 2026):

Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):