Tässä säikeessä on paljon väärinkäsityksiä, jotka eivät pidä paikkaansa. Käytettävä laskentatarkkuus ei juurikaan vaikuta vaikkapa muistiväylien kokoon: pienemmillä laskentatarkkuuksilla matriisien koko vain vastaavasti kasvaa. Lisäksi useimmiten tensorien muistilayout on blokitettu niin, että aina vedetään tietty määrä muistista, esim. 32 tai 128 tavua. Eli, laskentatarkkuus ja muistiväylien koot ovat pääosin erillisiä asioita.
Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus. Lisäksi, eri kuva/videoprosessointiin käytettävät verkkoarkkitehtuurit voivat olla dramaattisesti erilaisia: Esimerkiksi ViT, traditionaalinen konvoluutioverkko, ja ConvNext-tyylinen syyvyysseparoituvaan konvoluutioon perustuva verkko, johtavant varsin erilaisiin datavirtoihin.
Piirin rakentaminen vain yhdelle spesifiselle arkkitehtuurille voi johtaa siihen, että piiri on jo "vanhentunut syntyessään" kun verkon arkkitehtuuria on paranneltu. Näin on käynyt mm. "NPU"-piireille kuten Apple Neural Engine, mitkä olivat suunniteltu perinteisiä konvoverkkoja varten, eivätkä sovi hyvin moderneihin arkkitehtuureihin.
Ja sitten tämä latenssikeskustelu: Pääasia mikä vaikuttaa tähän, on se kuinka suuriin matriiseihin verkko on suunniteltu. Kuitenkin, kuvaverkoissa joissa viive on kymmeniä millisekunteja, on kysymys suhteellisen teoreettinen. Viive tulee ongelmaksi lähinnä hyvin pienen viiveen verkoissa (<< 1 ms), tai erittäin pienen viiveen LLM-inferenssissä, joissa painojen määrä on todella paljon isompi aktivaatioihin nähden. Kumpikaan näistä ei pidä paikkansa kuitenkaan kuvaverkoissa.
Lähes kaikki neuroverkon vaatima laskentanopeus ja muistikaistavaatimukset, riippuvat itse verkon arkkitehtuurista, ei niinkään mihin käyttötarkoitukseen verkkoa käytetään. Verkon arkkitehtuuri määrittää optimaalisen datavirran piirin läpi, ei käyttötarkoitus. Lisäksi, eri kuva/videoprosessointiin käytettävät verkkoarkkitehtuurit voivat olla dramaattisesti erilaisia: Esimerkiksi ViT, traditionaalinen konvoluutioverkko, ja ConvNext-tyylinen syyvyysseparoituvaan konvoluutioon perustuva verkko, johtavant varsin erilaisiin datavirtoihin.
Piirin rakentaminen vain yhdelle spesifiselle arkkitehtuurille voi johtaa siihen, että piiri on jo "vanhentunut syntyessään" kun verkon arkkitehtuuria on paranneltu. Näin on käynyt mm. "NPU"-piireille kuten Apple Neural Engine, mitkä olivat suunniteltu perinteisiä konvoverkkoja varten, eivätkä sovi hyvin moderneihin arkkitehtuureihin.
Ja sitten tämä latenssikeskustelu: Pääasia mikä vaikuttaa tähän, on se kuinka suuriin matriiseihin verkko on suunniteltu. Kuitenkin, kuvaverkoissa joissa viive on kymmeniä millisekunteja, on kysymys suhteellisen teoreettinen. Viive tulee ongelmaksi lähinnä hyvin pienen viiveen verkoissa (<< 1 ms), tai erittäin pienen viiveen LLM-inferenssissä, joissa painojen määrä on todella paljon isompi aktivaatioihin nähden. Kumpikaan näistä ei pidä paikkansa kuitenkaan kuvaverkoissa.