Follow along with the video below to see how to install our site as a web app on your home screen.
Huomio: This feature may not be available in some browsers.
Mutta taas arkkitehtuuri valitaan sen mukaan miten voidaan toteuttaa laskenta valittua käyttötarkoitusta varten. Käyttötarkoitus siis määrää lopulta kaiken.Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus.
Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.Kaikki tämä keskustelu on kuitenkin teoreettista, koska AI5-piirin arkkitehtuuria ja speksejä ei ole julkistettu. Muisikaistan suhteen piiri on jossain 1 TB/s luokassa, joka on samaa tasoa RTX 5080 kanssa.
Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.Mutta taas arkkitehtuuri valitaan sen mukaan miten voidaan toteuttaa laskenta valittua käyttötarkoitusta varten. Käyttötarkoitus siis määrää lopulta kaiken.
Sinänsä on kyllä ihan totta että jonkun tietyn arkkitehtuurin verkko tietyssä koossa tietyllä raudalla rullaa yhtä nopeasti läpi oli sen käyttötarkoitus mitä tahansa.
Täysin samaa mieltä. Vaikea olis nyt arvata kolmen vuoden päähän että millaset laskentayksiköt kannattais laittaa. Siis vaikka olisi joku toimiva malli jollekkin nykyarkkitehtuurille toteutettuna, jonka haluaisi deployata jollekkin kustom raudalle.Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.
Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.
Jos katsotaan Nvidian uusinta robotiikkapiiriä, Jetson Thor:ia, niin sen tensorilaskenta tulee pääosin tensoriytimestä (UTCMMA), ei NVDLA:sta.Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.
Teslalla on jo oma pino joka toimii, juuri hyväksyttiin hollannissakin käyttöön. Tesla tietää hyvin mitä softaa tulevat ajamaan. Reilu 10v tesla jo tuota pinoa yhdessä tai toisessa muodossa vääntänyt kasaan. Todennäköisesti konesaliraudassa on jo ajossa isompaa mallia mikä ei mahdu nykyiseen hw4:een ja ajetaan sitten ai5:ssa. Asia on erilainen jos teet rautaa firmassa X ja yrität myydä sitä sitten firmoille a,b,c,d... Tesla ei ai5:sta aio myydä kenellekkään, menee vain heidän omiin roboihin, konesaleihin ja myöhemmin myös autoihin. Nvidia on juuri tämä taho joka yrittää myydä a,b,c,d firmoille jolloin heidän on pakko tehdä geneerinen ratkaisu toisin kuin teslan.Toki, mutta kehitys kehittyy. Se mitä päätit tehdä 5v sitten, ei välttämättä ole enää mitä haluat tänään. Rauta joka on ohjelmoitava, ja soveltuu monille arkkitehtuureille, on paljon hyödyllisempi kuin mikä ei sitä tee.
Tämä asia on kiihdytetyn laskennan perusongelma, miten balanssoida joustavuus, ohjelmoitavuus ja nopeus. Moni firma on lähtenyt soitellen sotaan, ja epäonnistunut markkinoilla.
Kaistavahteja nyt on muiltakin valmistajilta.Teslalla on jo oma pino joka toimii, juuri hyväksyttiin hollannissakin käyttöön.
Jos tietäisivät mitä tulevat ajamaan tulevaisuudessa, eiväthän he tarvitsisi tehdä 6 rautaversiota. Teslahan lupaili että auto on täysin autonominen, eikä tarvitse kuskia, jo melkein 10v sitten. Ei ole vielä tapahtunut...Tesla tietää hyvin mitä softaa tulevat ajamaan. Reilu 10v tesla jo tuota pinoa yhdessä tai toisessa muodossa vääntänyt kasaan.
Ei se mikään kaistavahti ole edes kärjistäen, ihan turvaa provoilua tuollainen.Kaistavahteja nyt on muiltakin valmistajilta.
Kattellaan sitten kun FSD saadaan markkinoille että mitä on jäljellä nykyisestä pinosta.
Tason kaksi laite siinä missä kaistavahditkin.Ei se mikään kaistavahti ole edes kärjistäen, ihan turvaa provoilua tuollainen.
Tässä säikeessä on paljon väärinkäsityksiä, jotka eivät pidä paikkaansa. Käytettävä laskentatarkkuus ei juurikaan vaikuta vaikkapa muistiväylien kokoon: pienemmillä laskentatarkkuuksilla matriisien koko vain vastaavasti kasvaa. Lisäksi useimmiten tensorien muistilayout on blokitettu niin, että aina vedetään tietty määrä muistista, esim. 32 tai 128 tavua. Eli, laskentatarkkuus ja muistiväylien koot ovat pääosin erillisiä asioita.
Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus. Lisäksi, eri kuva/videoprosessointiin käytettävät verkkoarkkitehtuurit voivat olla dramaattisesti erilaisia: Esimerkiksi ViT, traditionaalinen konvoluutioverkko, ja ConvNext-tyylinen syyvyysseparoituvaan konvoluutioon perustuva verkko, johtavant varsin erilaisiin datavirtoihin.
Piirin rakentaminen vain yhdelle spesifiselle arkkitehtuurille voi johtaa siihen, että piiri on jo "vanhentunut syntyessään" kun verkon arkkitehtuuria on paranneltu. Näin on käynyt mm. "NPU"-piireille kuten Apple Neural Engine, mitkä olivat suunniteltu perinteisiä konvoverkkoja varten, eivätkä sovi hyvin moderneihin arkkitehtuureihin.
Ja sitten tämä latenssikeskustelu: Pääasia mikä vaikuttaa tähän, on se kuinka suuriin matriiseihin verkko on suunniteltu. Kuitenkin, kuvaverkoissa joissa viive on kymmeniä millisekunteja, on kysymys suhteellisen teoreettinen. Viive tulee ongelmaksi lähinnä hyvin pienen viiveen verkoissa (<< 1 ms), tai erittäin pienen viiveen LLM-inferenssissä, joissa painojen määrä on todella paljon isompi aktivaatioihin nähden. Kumpikaan näistä ei pidä paikkansa kuitenkaan kuvaverkoissa.
Jos teet hyperspesifisen raudan jollekin tietylle arkkitehtuurille, niin voit poistaa kaiken "ylimääräisen", säästäen kustannuksia. Mutta silloin et enää pysty ajamaan erilaisia verkkoja raudalla nopeasti. Mitä geneerisempi rauta on, sitä vaikeammaksi tulee tehdä rauta sellaiseksi että sillä voi ajaa erilaisia arkkitehtuureja nopeasti.Olet oikeassa siinä että tarkka verkko määrittää lopullisen laskentatarpen ja dataflown mutta siitä ei seuraa että rautaa ei voisi optimoida etukäteen. Käytännössä optimoidaan laskentaluokalle (dense tensor compute, memory/latency -rajoitteet) jonka sisällä eri arkkitehtuurit elävät ja juuri siksi sama rauta pystyy ajamaan CNN, ViT ja ConvNext-tyyppisiä malleja ilman että se on “vanhentunut syntyessään”.
Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.Jos teet hyperspesifisen raudan jollekin tietylle arkkitehtuurille, niin voit poistaa kaiken "ylimääräisen", säästäen kustannuksia. Mutta silloin et enää pysty ajamaan erilaisia verkkoja raudalla nopeasti. Mitä geneerisempi rauta on, sitä vaikeammaksi tulee tehdä rauta sellaiseksi että sillä voi ajaa erilaisia arkkitehtuureja nopeasti.
Eli se, että "tehdään rauta täsmälleen siihen tarpeeseen mitä nyt on", on fundamentaalisesti ristiriidassa sen kanssa, että "rakennetaan rauta jolla voi ajaa erilaisia verkkoja".
Toki ei pystytä sanomaan mihin tämä piiri edes sijoittuu tässä, kun arkkitehtuuri ei ole julkinen.
Taas vedät näitä grok vastauksia tänne. Mitä laskentaluokka edes tarkoittaa?Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.
Kun rakennat piirin jolla ajetaan neuroverkkoja "yleisesti" eri arkkitehtuureille, niin pääset lopputulokseen joka vastaa yleiskäyttöisyydeltä enemmän GPU:ta kuin erikoispiiriä. Tämä on nähty mm. Googlen TPU:ssa: ensimmäiset piirit olivat hyvin rajoitettuja, kun taas piiri on mennyt yleiskäyttöisempään suuntaan. Toki tarkoittaen sitten sitä, ettei piiri oikeasti ole (energia-, hinta-)tehokkaampi kuin se GPU.Olet oikeassa tradeoffista mutta se ei ole binäärinen ristiriita koska käytänössä optimoidaan laskentaluokalle (tensor compute, memory/latency-profiili) jonka sisällä eri arkitehtuurit elävät. Kysymys ei ole “yhdelle verkolle vs kaikille” vaan siitä mihin kohtaan tätä spektriä arkkitehtuuri sijoittuu.
Kaistavahti on tason yksi laite. Kaistallapitoavustin/kaistan keskitysavustin voi olla tasoa kaksi mutta tuo Teslan FSD Supervised on paljon kehittyneempi kuin ne kaksi, riitti se seuraavaan tasoon tai ei.Tason kaksi laite siinä missä kaistavahditkin.
Sitä että millaista laskentaa tehdään (operaatiot, data ja rajoitteet) ei yhtä tiettyä mallia. Esim. CNN, ViT ja ConvNext ovat eri arkkitehtuureja mutta kuuluvat samaan laskentaluokkaan koska ne koostuvat pääosin samantyyppisestä tensorilaskenasta.Taas vedät näitä grok vastauksia tänne. Mitä laskentaluokka edes tarkoittaa?
Kun rakennat piirin jolla ajetaan neuroverkkoja "yleisesti" eri arkkitehtuureille, niin pääset lopputulokseen joka vastaa yleiskäyttöisyydeltä enemmän GPU:ta kuin erikoispiiriä. Tämä on nähty mm. Googlen TPU:ssa: ensimmäiset piirit olivat hyvin rajoitettuja, kun taas piiri on mennyt yleiskäyttöisempään suuntaan. Toki tarkoittaen sitten sitä, ettei piiri oikeasti ole (energia-, hinta-)tehokkaampi kuin se GPU.
Kaistavahti joka esim. samalla toimii vakionopeudensäätimenä on tason 2 laite. Näitä on maailma pullollaan.Kaistavahti on tason yksi laite. Kaistallapitoavustin/kaistan keskitysavustin voi olla tasoa kaksi mutta tuo Teslan FSD Supervised on paljon kehittyneempi kuin ne kaksi, riitti se seuraavaan tasoon tai ei.
Voisitko lopettaa tämän ai geneeoidun paskan suoltamisen tänne?Sitä että millaista laskentaa tehdään (operaatiot, data ja rajoitteet) ei yhtä tiettyä mallia. Esim. CNN, ViT ja ConvNext ovat eri arkkitehtuureja mutta kuuluvat samaan laskentaluokkaan koska ne koostuvat pääosin samantyyppisestä tensorilaskenasta.
Ensinnäkin, mikään moderni AI-kiihdytin ei rajaa operaatioita pelkästään matriisikertolaskuihin, vaan sulla pitää olla aktivaatio, esi/jälkiprosessointi yms. operaatioita myös. Jos näitä ei olisi, olisi kiihdytin erittäin hidas. Esimerkiksi, Googlen TPU sisältää erilliset matriisi, tensori, skaalaari ja sparse-yksiköt jotka tekevät eri asioita. Tämä generaalisuus vaatii piiriltä alaa. Nvidialla lähes kaikki FLOP:t ovat myös tensoriytimessä, ja SM hoitaa vektori, skalaari ja kontrollioperaatiot.Ymmärrän pointin mutta tuo ei mene suoraan “yleinen on yhtäkuin GPU”. Käytännössä modernit AI-kiihdytimet rajaavat laskennan tensorioperatioihin mikä antaa tehokkuuden mutta jättävät tarpeeksi joustoa eri arkkitehtuureille eli ne eivät ole GPU:ita vaan välimuoto joka on edellen tehokkaampi tälle workloadille.
Jos mikä vaan ai laskenta on samaa laskentaluokkaa, niin miten se mukamas ajaa jotain piirikehitystä mihinkään suuntaan. Tässä sinun välittämässä grok-hölynpölyssä ei ole mitään tolkkua.
Ensinnäkin, mikään moderni AI-kiihdytin ei rajaa operaatioita pelkästään matriisikertolaskuihin, vaan sulla pitää olla aktivaatio, esi/jälkiprosessointi yms. operaatioita myös. Jos näitä ei olisi, olisi kiihdytin erittäin hidas. Esimerkiksi, Googlen TPU sisältää erilliset matriisi, tensori, skaalaari ja sparse-yksiköt jotka tekevät eri asioita. Tämä generaalisuus vaatii piiriltä alaa. Nvidialla lähes kaikki FLOP:t ovat myös tensoriytimessä, ja SM hoitaa vektori, skalaari ja kontrollioperaatiot.
Se, kuinka paljon näitä yksiköitä pitää olla, taas riippuu verkosta, ei pelkästään arkkitehtuurista vaan myös koosta. Jos kanavien määrä on isompi, tarvitaan enemmän MMA-throughputia kuin vaikkapa aktivaatioiden vaatimaa SFU-throughputia. Joten tässä tulee taas se ongelma, että joko teet "turhaa" yhdelle mallille, tai hidastat kaikkia muita kuin sitä yhtä mallia.
Piirrä vaikka joku diagrammi seuraavaksi, jos vaikka lopulta ymmärrettäisiin jotain näistä grokin hallusinaatioista.Sama "laskentaluokka” ei tarkoita että kaikki on samaa vaan että tiedetän riittävästi kuormasta tensorilaskenta, memory/latency-profiili, rinnakkaisuus jotta voidaan tehdä arkkitehtuuripäätöksiä ja se e ohjaa rautaa compute/memory-suhteeseen, muistihierarkiaan, rinnakaisuuteen ja datapathiin vaikka yksittäinen malli ei ole tiedossa.
Jos Gemini on koulutettu ja Athropic mallit isolta osin Googlen TPU. Niin mihin sitä GPU:ta siis tarvii. Joo siinä on etunsa, mutta jos se syö 50 % pinta alaa vaikka tai on 10 kertaa hiitaampi kun en tiedä onko nuo yrityskohtaiset laskentapiirit asic, mutta ei vaikuta, että GPU on pakollinen, jos 50 % top 3 malleista on koulutettu Googlen TPU.Tälleen sivusta huutelen sen verta, että nvidian omassakin autoraudassa on erillinen matriisikiihdytin eikä pelkkää gpu:ta. Asioilla on puolensa, yksi koko ei ole kaikkeen paras. Rajoituksia lisäämällä voi saada enempi irti kuin geneerisestä. Nvidiahan käyttää tätä argumenttina miksi heidän gpu voittaa ja valmistajaspesifiset asic:it eivät vie markkinaa. Toisaalta teslan kannalta heidän softapinolle optimoitu rauta on oikein järkevä tapa edetä.
Uusin juttu nvfp4/mxfp4 missä 16/32 numeroa palasille oma skaalainarvo, että saadaan tarkkuutta kasvatettua. nvfp4:ssa kaksitasoinen skaalausblockisysteemi ja enempi tarkkuutta skaalainarvoissa kuin yksitasoisessa mxfp4:ssa. Iso motivaatio saada mallien opetus ja inferenssi toimimaan nvfp4/mxfp4 kun miljardien konesalista saa tuplat tokeneita ulos tai mallin opetettua puolessa ajasta versus fp8 missä aika silti kuukausia. Selektiivisesti osa mallista jää isompaan tarkkuuteen, ei pelkkää nvfp4/mxfp4:sta.Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.
Eikö toi oo enemmän inferenceen? eigän Nytkään käytetä treenaukseen juuri muuta kuin BF16. Mutta B200 Nvidialla tulee koulutukseen. "kahden erillisen FP8-tietotyypin dynaaminen yhdistelmä". Ihan eri tarkuudet käytössä koulutus on paljon korkeammalla tarkuudella kuin inferance.Uusin juttu nvfp4/mxfp4 missä 16/32 numeroa palasille oma skaalainarvo, että saadaan tarkkuutta kasvatettua. nvfp4:ssa kaksitasoinen skaalausblockisysteemi ja enempi tarkkuutta skaalainarvoissa kuin yksitasoisessa mxfp4:ssa. Iso motivaatio saada mallien opetus ja inferenssi toimimaan nvfp4/mxfp4 kun miljardien konesalista saa tuplat tokeneita ulos tai mallin opetettua puolessa ajasta missä aika silti kuukausia.
Tarvii opettaa mallit nvfp4:lla, että syntyy sopivia palasia inferenssiin. Jälkikäteen kvantisoimalla huonompi tulos. Nvidian uudet blackwell:lla opetetut omat mallit kuten uusin nemotron opetettu myös nvfp4:lla. Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy | NVIDIA Technical Blog Pointtihan on suht pienessä palasten koossa että kaksitasoinen skaalaus toimii hyvin ja siinä että sekaan voidaan jättää myös isompitarkkuuksisia numeroita . Mutta,... pitää suunnitella lähdöstä asti nvfp4:en ehdoilla, ei toimi vahingossa.Eikö toi oo enemmän inferenceen? eigän Nytkään käytetä treenaukseen juuri muuta kuin BF16. Mutta B200 Nvidialla tulee keulutukseen. "kahden erillisen FP8-tietotyypin dynaaminen yhdistelmä". Ihan eri tarkuudet käytössä koulutus on paljon korkeammalla tarkuudella kuin inferance.
Joo, mutta kun otaa huomioon, että nyt lähes kaikki frontier mallit on koulutettu bf16 eli paljon tarkemmalla kuin PF8 millä ainakin paljon ajetaan inferenceä. Että en heti keksi miksi tuo muutuisi, että koulutus vaatii korkeampaa tarkuutta, mutta kos sellaisen saa nopeammin kyättyä matalimmista tarkuuksista, niin hyvä (etenkin Nvidialle).Tarvii opettaa mallit nvfp4:lla, että syntyy sopivia palasia inferenssiin. Jälkikäteen kvantisoimalla huonompi tulos. Nvidian uudet blackwell:lla opetetut omat mallit kuten uusin nemotron opetettu myös nvfp4:lla. Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy | NVIDIA Technical Blog Pointtihan on suht pienessä palasten koossa että kaksitasoinen skaalaus toimii hyvin ja siinä että sekaan voidaan jättää myös isompitarkkuuksisia numeroita . Mutta,... pitää suunnitella lähdöstä asti nvfp4:en ehdoilla, ei toimi vahingossa.
Se motivaatio kun on x-miljardien konesali ja voit saada etua kilpailijaan verrattuna jos sun pre training kestää 2kk kun kaverilla menee 4kk tai jollain fp16 hermannilla 8kk. Aika on kirjaimellisesti rahaa. GB300:en mitä alettiin asentamaan viime syksynä konesaliin toi 40% enempi nvfp4 suorituskykyä versus gb200.
NVFP4/mxfp4 lienee sen verta uusi juttu ettei ollut esim. llama4:en opettaminen sillä realistisesti mahdollista, h200 ei tue nvfp4/mxfp4. nvfp4:een varmaan siirrytty vielä julkaisemattomissa malleissa mitä tulee tänä keväänä/kesällä ulos (gb300:lla opetettuja, viime syksynä alkanut asennukset konesaleihin). Ekat nvfp4:lla opetetut mallit tullut nvidialta ulos alkuvuodesta ja nvidia lienee ihan keihäänkärkenä tässä. OpenAI ja meta seurannee perästä. Anthropic ja google eivät käytä nvidiaa omien malliensa opettamiseen. xAI: uusin isoin tulossaoleva malli varmistettu olevan 10biljoonaa parametria ja käyttää nvidiaa opettamiseen. Yllätyn jos ei grok5:en opettamisessa ole käytetty ainakin jossain opetusvaiheessa nvfp4:sta.Joo, mutta kun otaa huomioon, että nyt lähes kaikki frontier mallit on koulutettu bf16 eli paljon tarkemmalla kuin PF8 millä ainakin paljon ajetaan inferenceä. Että en heti keksi miksi tuo muutuisi, että koulutus vaatii korkeampaa tarkuutta, mutta kos sellaisen saa nopeammin kyättyä matalimmista tarkuuksista, niin hyvä.
Kyllä, Gemini on oikeassa – lähes kaikki nykyiset frontier-mallit on (tai on ollut) koulutettu bf16-precisionilla (tarkemmin mixed-precision-koulutuksessa, jossa bf16 on pääasiallinen laskentatarkkuus).Huggingface
bf16 (bfloat16) on ollut de facto -standardi LLM-koulutuksessa jo useita vuosia, koska se tarjoaa saman dynaamisen alueen kuin fp32 mutta puolittaa muistin ja nopeuttaa laskentaa merkittävästi (erityisesti H100/B200/TPU-kiihdyttimillä). Se korvasi fp16:n, koska fp16 oli epävakaampi suurissa malleissa.Weirdfishes.substack
Tärkeimmät esimerkit (tilanne huhtikuussa 2026):
- Meta Llama 3 / Llama 3.1 → Koulutettu bf16:lla (virallisesti dokumentoitu Meta:n papereissa ja Hugging Face -malleissa).Medium
- Google Gemini → Google käyttää TPUs:ia, joissa bf16 on natiivi formaatti jo vuosia – kaikki Gemini-mallit perustuvat siihen.Cloud.google
- Useimmat muut frontier-mallit (Claude-sarja, GPT-4/o-sarja, Grok jne.) → Suljetut mallit eivät julkaise tarkkoja teknisiä raportteja, mutta alan konsensus ja hardware-tuki (A100/H100/B200) tekevät bf16:sta käytännössä ainoan järkevän vaihtoehdon vakaudelle.LinkedIn
Poikkeukset (jotka eivät vielä kumoa “lähes kaikki” -väitettä):
Nämä ovat kuitenkin uusia poikkeuksia vuoden 2025 lopulta/2026 alusta. FP8 on vielä “emerging” – se ei ole vielä korvannut bf16:ta laajasti, koska se vaatii paljon enemmän hienosäätöä stabiiliuden takaamiseksi. Epoch AI:n analyysin mukaan bf16 on ollut adoption-käyrän loppusuoralla, ja FP8:sta odotetaan vasta ~2028 standardia.Epoch
- Llama 4 → Meta siirtyi FP8:aan (uudempi, vielä matalampi tarkkuus).News.ycombinator
- DeepSeek-V3/R1 → Ensimmäinen iso avoin malli, joka käytti FP8 mixed-precisionia (custom-optimoinneilla).Research.colfax-intl
Yhteenveto: Gemini puhuu täysin oikein. bf16 on edelleen se formaatti, jolla lähes kaikki frontier-mallit (erityisesti suljetut huippumallit) on koulutettu. FP8 on tulossa, mutta ei vielä vallannut alaa. Jos joku malli käyttää jotain muuta, se on poikkeus, ei sääntö.
Näissä luvuissa ei kuitenkaan ole mitään totuusperustaa. Google ei ole esittänyt tehokkuuslukuja kilpailijoihin nähden, vaikka tämä olisi hyvin helppoa esimerkiksi MLPerf:n kautta. Todennäköisesti luvut eivät ole mitä haluavat, joten pitävät ne salassa. Se rajallinen data mitä he ovat MLPerf:iin tuoneet, indikoi näin. MLPerf siis toimii periaatteella jossa vendorit voivat vetää tulosten julkistuksen pois kun näkevät kilpailijoiden luvut.Jos Gemini on koulutettu ja Athropic mallit isolta osin Googlen TPU. Niin mihin sitä GPU:ta siis tarvii. Joo siinä on etunsa, mutta jos se syö 50 % pinta alaa vaikka tai on 10 kertaa hiitaampi kun en tiedä onko nuo yrityskohtaiset laskentapiirit asic, mutta ei vaikuta, että GPU on pakollinen, jos 50 % top 3 malleista on koulutettu Googlen TPU.
Isot kielimallit esitreenatataan nykyään FP8:lla tai NVFP4:lla, ei BF16:lla. BF16 formaatti on ihan kätevä kun se ei ole sensitiivinen mallin numeeriselle stabiliteetille, mutta kielimallien treenaus on nykyään niin kallista, että olisi täysin järjetöntä käyttää 2-4x kalliimpaa formaattia tähän. Toki käytännössä mallit treenataan "mixed-precision" jossa eri osa mallista ajetaan eri tarkkuuksilla.Muutenkin Bfoat 16 on googlen kehittämä juurikin tekoälyjen koulutukseen ja google käytti sitä ennen Nvidia ja Nvidia kopioi sen ja nyt lähes kaikki mallit koulutetaan. Bflot16. Nvidia tosin siirtyy kikailuun joka vastaa Bfloat 16 tarkuutta, mutta lasketaan FP8, että saataisi 2* nopeutta.
No en tiedä mitä "nykyään" tarkoittaa, voi olla joo uusia malleja teenauksessa. Mutta nyt käytössä olevat on opetettu bf16 tai siis tietysti sekoitus eri tarkuuksia, mutta bf16 on ollut _tähän_ mennessä se käytetyin.Näissä luvuissa ei kuitenkaan ole mitään totuusperustaa. Google ei ole esittänyt tehokkuuslukuja kilpailijoihin nähden, vaikka tämä olisi hyvin helppoa esimerkiksi MLPerf:n kautta. Todennäköisesti luvut eivät ole mitä haluavat, joten pitävät ne salassa. Se rajallinen data mitä he ovat MLPerf:iin tuoneet, indikoi näin. MLPerf siis toimii periaatteella jossa vendorit voivat vetää tulosten julkistuksen pois kun näkevät kilpailijoiden luvut.
Se, miksi Anthropic käyttää Googlen piirejä, johtuu ennemmin siitä, että Google on investoinut heihin. Ihan validi syy, kapasiteetti on kapasiteettia oli se sitten vähän huonompaa. Toki myös Anthropic käyttää Nvidiaa, mutta eivät ym. syistä siitä juurikaan huutele eteenpäin.
Edit: Toki treenauksessa on hyvin tärkeää miten kaikki integroituu yhteen, piirit interconnectiin, hallintaan yms. Jos Googlella on tämä rakennettu omia piirejä varten hyvin, niin yhden piirin paremmuus vs toinen ei välttämättä ole niin tärkeä asia.
Isot kielimallit esitreenatataan nykyään FP8:lla tai NVFP4:lla, ei BF16:lla. BF16 formaatti on ihan kätevä kun se ei ole sensitiivinen mallin numeeriselle stabiliteetille, mutta kielimallien treenaus on nykyään niin kallista, että olisi täysin järjetöntä käyttää 2-4x kalliimpaa formaattia tähän. Toki käytännössä mallit treenataan "mixed-precision" jossa eri osa mallista ajetaan eri tarkkuuksilla.
Riippumatta siitä, millä malli esitreenataan kuitenkin, voidaan mallit optimoida eri tarkkuuksille käyttäen QAT:ta (Quantization Aware Training), eli malli finetunetetaan tietylle tarkkuudelle.
Isot amerikkalaiset mallifirmat (OpenAI, Anthropic, Google) eivät ole julkisesti kertoneet millä tarkkuudella he treenaavat. Kiinalaiset ovat välillä avoimempia tässä: Esimerkiksi DeepSeek V3 on treenattu FP8 mixed-precisionilla: DeepSeek-V3 Technical ReportNo en tiedä mitä "nykyään" tarkoittaa, voi olla joo uusia malleja teenauksessa. Mutta nyt käytössä olevat on opetettu bf16 tai siis tietysti sekoitus eri tarkuuksia, mutta bf16 on ollut _tähän_ mennessä se käytetyin.
Kaistavahti joka esim. samalla toimii vakionopeudensäätimenä on tason 2 laite. Näitä on maailma pullollaan.
Teslan kaistavahti toki kuvittelee osaavansa tehdä enemmänkin, mutta voi jatkuvasti tehdä virheitä ja ei ole yhtään luotettavampi laitteena.
end-2-end neuroverkkoratkaisu ei oikein mahdu nykyisiin pykäliin. Teslassa ei ole c/c++/rust/... koodia/palasia mistä voisi osoittaa että tuossa se hanskaa tilanteen x,y,z. Raaka sensoridata menee sisään neuroverkkoon ja ulos tulee ohjauskomentoja. Mersu+nvidia yhteistyössä(cla) on end-2-end neuroverkko ja siihen päälle tuplaratkaisu missä "perinteisellä" heuristiikalla varmistetaan että jos neuroverkko kämmää vaikka stop merkin niin se toinen pino pysäyttää. Tästä oli nvidian ces ja gtc esityksissä+mersun pressi briiffissä selitystä kun media kävi san franciscossa kokeilemassa mersun cla:n ajoavustinta.Teslalla kuitenkin on jo L2 kaistavahdille EU-tason tyyppihyväksyntä ollut yli 10 vuotta. Miksi FSD vaatii uuden hyväksyntäkierroksen, ja Trafin mielestä jopa muutoskatsastuksen?
Joka tapauksessa "kaistavahti" varsin väärä nimitys nykyiselle FSD:lle joka kyllä mukisematta ajelee ilman kaistamerkintöjä hiekkatiellä tai jopa maastossa. Ehkä se on vaan "vahti".
Tuo voi tehdä niin voimakkaita, äkkinäisiä ja erilaisia ohjaustoimenpiteitä että kyllä se pitää uutena järjestelmänä varmasti testata. Sitä varsinaista kaistavahtiakin jos päivitetään niin se pitää testata ja hyväksyä uudestaan.Teslalla kuitenkin on jo L2 kaistavahdille EU-tason tyyppihyväksyntä ollut yli 10 vuotta. Miksi FSD vaatii uuden hyväksyntäkierroksen, ja Trafin mielestä jopa muutoskatsastuksen?
Joka tapauksessa "kaistavahti" varsin väärä nimitys nykyiselle FSD:lle joka kyllä mukisematta ajelee ilman kaistamerkintöjä hiekkatiellä tai jopa maastossa. Ehkä se on vaan "vahti".
Ei kannattaisi luottaa näihin hallusinoiviin LLM-roskiin tällaisissa.Gemini pro:n mielipide:
![]()
Käytämme välttämättömiä evästeitä, jotta tämä sivusto toimisi, ja valinnaisia evästeitä käyttökokemuksesi parantamiseksi.