Suurenpieni konesalitason AI-kiihdytinkeskustelu (AMD, Intel, Nvidia,...)

finWeazel

Chief Karpfen - ruoKalan C&R
Liittynyt
15.12.2019
Viestejä
9 206
Keskustelua konesalitason AI-kiihdytimistä kuten AMD MI300, intel Gaudi3 ja Nvidia H100. Ketjussa voi keskustella tekninen kulma edellä yrityksistä kuten tenstorrent, konesalitason AI-kiihdyttimien spekseistä, kaupallisesta puolesta ja seuraavan generaation piirien huhuista. Myös yksittäisistä isot asennukset kuten AMD pohjainen El Capitan ovat tervetullut lisä keskusteluun.

Tein ketjun, koska konesalikiihdyttimet alkavat olemaan sellaisia ettei niistä järkevästi voi keskustella gpu-ketjussa. Ketjun aihe tarkoituksella laaja. En usko, että näin laajallakaan haavilla keskustelua syntyy runsaasti.
1213366.jpg


intel-habana-gaudi2-header.png


GraceHopper_Closeup_678x452.jpg

tenstorrent.original.png
 
Viimeksi muokattu:
Tämmöinen on ostoslistalla. Tosin ei mikään tuore ja kallis, vaan ihan vanhempi Tesla (P40 tai P100 - tai molemmat).

Noin 5-6 vuotta ja nuo "vanhenee" konesaleissa. Sitten tulee Kiinassa myyntiin halvalla - tai miksei myös täällä, mutta vähemmässä määrin kuitenkin.

Tuolla vähän Nvidian Tesloista.

--

..tai itseasiassa, Tesla P4 on jo, mutta askartelen siihen jäähyä.


--

..ja voit saada enemmän keskustelua, kun otat "konesalitason" pois. Sitten saat tämmöisiä vermeitä mukaan:
 
Konesalien kokoluokkaa kuvaa hyvin kaksi noin 500M$ Intia diiliä. Molemmissa kaupoissa myyty noin 16000 kiihdytintä. Yhden kiihdyttimen hinnaksi tulee noin 31000$. Toki hinnassa on paljon muutakin kuin kiihdytin kuten tarvittava cpu, verkko, emolevy, jäähdytys jne. Hullua ajatella miten isoja ratkaisuja nyt myydään kuin liukuhihnalta. 10000+ kiihdytintä asennuksia syntyy kuin sieniä sateella.

Yotto's CEO and co-founder Sunil Gupta revealed that the new order includes 16,000 units of NVIDIA's H100 and GH200 AI GPUs, which are expected to be delivered by March 2025. Moreover, the firm has previously placed an order for 16,000 NVIDIA H100 GPUs, also due for delivery by July. Hence, a rough estimate suggests that total order valuation has indeed exceeded a billion-dollar mark

 
..ja juuri tuon takia tässä ketjussa ei kenelläkään ole tuommoista. Ehkä 10v päästä, kun Yotto vaihtaa parempiin.
Noihan taitaa yleensä olla jotain 8 kiihdytintä per kotelo ratkaisuita konesalissa. Jotain 5kW+ per pömpeli. Hellan/kiukaan tilalle pöhiseen. Mielenkiintoista seurata AI kiihdyttimien kehittymistä vaikkei itsellä ole mitään mahdollisuutta tuollaista ostaa. Pilvestä vois tietty vuokrata rautaa, jos uteliaisuus riittää.

------------

Lisa Su sanoi joulukuun advancing ai eventin yhteydessä, että mi300 maailman monimutkaisin piiri. Yhden mi300:en valmistaminen kestää 7-8 kuukautta. Täytyy hattua nostaa amd:lle miten ovat saaneet tuollaisen tuotantoon. Lähde suurinpiirtein aikaleimalla

 
Mielettömän kokoisia konesaleja rakentavat yksityiset firmat. Maa ja maanosatason toimijoiden supertietokoneet pieniä versus vaikkapa meta. Meta ostamassa tänä vuonna 350000 h100:sta nvidialta. Arvioitu hinta nvidia kaupoista 10.5miljardia.

Olisi kiva tietää mitä muu gpu kapasiteetti pitää sisällänsä. Lienee ainakin nvidian vanhaa ja amd:n mi300:sta seassa. Olisikohan metalla loppuvuodesta myös myös nvidian h200, blackwell ja jotain inteliä?
“We’re building an absolutely massive amount of infrastructure to support this,” Zuckerberg said. “By the end of this year, we’re going to have around 350,000 Nvidia H100s. Or around 600,000 H100 equivalents of compute if you include other GPUs.”
 
Viimeksi muokattu:
AI kiihdyttimissä käytettyjen HBM-muistien liikevaihdon uskotaan tuplaantuvan 2025 vuonna versus 2023. Antaisi olettaa, että AI-kiihdyttimien markkina jatkaa kasvamistaan. Toki muisteja menee muihinkin laitteisiin, mutta ne lienee pisara meressä. En usko, että voi vetää liikevaihdon kasvusta yhtäsuuruusmerkkiä kiihdyttimien myyntimäärään. Uskon, että muistin määrä per kiihdytin voi kasvaa uusissa tuotteissa kuten h200 ja b100.

Mielenkiinnolla odotan mikä on AI markkinan todellinen koko. Tällä hetkellä kysyntä vaikuttaa rajattomalta, mutta ei kai tämä tilanne voi kovin pitkään jatkua?
Seeing this, the market researcher Gartner reports that the HBM market will reach a whopping US$4.976 billion by 2025, which is almost a two-times increment when looking at the figures achieved in 2023. The estimate is solely based on the current and anticipated demand from the industry, and no surprises here since the key area where HBM sells the most is its application in AI GPUs.

 
Viimeksi muokattu:
Mites nämä nykynäyttisten ai kiihdyttimet poikkeaa noista kalliista?
 
Mites nämä nykynäyttisten ai kiihdyttimet poikkeaa noista kalliista?
Kalliimmissa on grafiikkaominaisuuksia karsittu ja lisätty tensoriytimiä. Kalliimmissa nopeampi piirienvälinen muistikoherentti yhteys mikä nvidian tapauksessa mahdollistaa suoraan kahdeksan kiihdyttimen yhteenkytkimisen nvlinkillä. Nvlink kytkimen avulla 256 gpu:ta yhteen(8x32) ja koherentti muistiavaruus. Nopeammat muistit(hbme) ja isommat muistikapasiteetit. Nvidian kiihdyttimen kanssa mahdollista käyttää nvidian arm cpu:ta mikä kytketään nvlink c2c väylällä kiinni gpu:hun. NVLink c2c tarjoaa oleellisesti enemmän kaistaa cpu-gpu välillä kuin pci gen 5. Cpu:n muisti myös koherentti nvlinkin yli koko 256 gpu:n järjestelmään asti. Muistikoherenttius helpottaa koodarin elämää.

Ylläolevat suurimmat erot ellen unohtanut jotain. Toki arkkitehtuurit itsessään ovat enemmän laskenta kuin peliorientoituneita niin muutoksia on enemmän kuin "vähemmän grafiikkaominaisuuksia enemmän tensoriytimiä".
 
Viimeksi muokattu:
Mites nämä nykynäyttisten ai kiihdyttimet poikkeaa noista kalliista?

Yleisesti, jos ei katsota tuota @finWeazel teknisiä juttuja, niin suurimmat muutokset ovat mielestäni: AI-kiihdyttimissä on enemmän muistia ja/tai ne ovat suuremman kaistan päässä (esim. HBM). Isompi kaista on kuitenkin tärkeämpää AI:n opettamiseen, niin voi olla ihan normaalia GDDR6:sta, jos ei ole mallin treenaamiseen tarkoitettu kiihdytin.

Nykynäyttis toimii ihan samalla lailla AI-käytössä, mutta on hitaampi.
Lisäksi, jos malli ei mahdu muistiin, niin koko homma hidastuu paljon. Siksi AI-käyttöön ostetaan 4090:iä, kun siinä on 24GB muistia.
 
TSMC tuplaa CoWoS paketointikapasiteetin. Mielenkiintoista miten paketointikapasiteetti skaalaa suurinpiirtein samalla nopeudella kuin muistipiirien markkina. TSMC:n paketointikapasiteetti kertonee paljon siitä miten AI konesalimarkkina voi teoriassa kasvaa. Toki on tsmc:n ulkopuolisiakin tahoja jotka tarjoavat paketointia.

TSMC Doubling CoWoS Production As AI Bandwagon Is Expected To Ride Its Way Into 2024, Expanding The Supply & Demand Chain To New Levels

The report states that TSMC's monthly CoWoS output could reach up to 32,000 units by the end of 2024, and this figure could potentially reach 44,000 units by the end of next year as well, which means that the firm is continuously working on the upgrade of its existence facilities, to ensure a streamlined supply of packaging, without any disruptions, such as those witnessed in the past.

 
Aloituspostauksesta unohtui tesla. Tesla rakentaa omaa Dojo piiriänsä ja sen ympärille supertietokonetta. Tesla rakentaa yhden 500M$ Dojo-asennuksen new yorkiin. Musk iteroi myös, että tesla käyttää 2024 aikana miljardeja Nvidian rautaan. Ilmeisesti miljardiasennukset ovat pelin henki tällä hetkellä, jos haluaa pelata isojen poikien liigassa. Teslalla on jo ennestään iso Dojo asennus jossain muualla(piilaakso?), nvidian H100:sta 10000+ ja a100:sta vajaa 10000 kipaletta.

Muskin postauksessa saadaan yksi lähde lisää hinnalle mitä h100 asennukset maksavat.

1706403870958.png




Ihan vakuuttava slaidi dojo-raudasta. Jotain toki kertoo se, että tesla edelleen ostaa gpu:ta dojon lisäksi.
Tesla-shared-a-fresh-look-at-its-Dojo-AI-supercomputer-at-Hot-Chips-34-2.jpeg
 
Viimeksi muokattu:
Lisa Su/AMD sanoo, että 2027 AI-konesali on 400 miljardin markkina. Sijoittajapuhelussa lisa su tarkensi, että tuo markkina on pääasiassa gpu:ta. Iso kupla vai uusi normaali?

 
META laittaa konesaliin inferenssikäyttöön itse suunnittelemaansa rautaa tänä vuonna. Sijoittajapuhelussa Zuckerberg ennakoi, että infrastruktuuriin sijoittaminen jatkuu 2025 vuonna. Sanoi myös, että uudet paremmat ai-mallit tuntuvat vaativan 10x laskentakapasiteetinv versus edelien malli. Jos mikään ei muutu niin rautaa tarvitaan konesaleihin erittäin rajuja määriä. Ehkä amd:n ennustama 400miljardin markkina 2027 tapahtuu.

Sitä odotellessa, että keksitään konealgoritmeja joiden opettaminen on halvempaa.

"We see our internally developed accelerators to be highly complementary to commercially available GPUs in delivering the optimal mix of performance and efficiency on Meta-specific workloads," a spokesperson for Meta told Reuters, confirming the plan to deploy the company's own chips.
 
Alla mun käsitys tässä ketjussa alkaneeseen vääntöön mistä nvidian konesalimyynti koostuu: Samsung ja SK Hynix esittelevät GDDR7-muisteja tulevassa ISSCC 2024 -tapahtumassa

Yksinkertaisin argumentti on todennettu väite pullonkaulan olemisesta paketointi. Pullonkaulana olevaa paketointia ei käytetä adassa joten kyseessä täytyy olla hoppereista puutetta. Pidempää mietintää alla.

Jenseniltä oli jossain suora lainaus missä sanoi että nvidia on paketointi ei piirituotantorajotteinen AI-tuotteissa. En jaksa googletella tähän hätään lainausta. Odotellaan vaikka Q4 tulos ja katsotaan mitä siellä kommentoidaan. Tulos tulee 3vk päästä.
TSMC admitted in mid-2023 that demand for its chip-on-wafer-on-substrate (CoWoS) has exceeded its production capacity, and the company vowed to double capacity by the end of 2024. But while TSMC is building up its CoWoS capabilities, Nvidia would like to ship as many of its high-demand AI processors as possible — which is why it's tapping Intel to use its advanced packaging technology (in addition to TSMC's), according to a report from money

4090 myynnit löytyvät peli segmentistä. Voidaan päätellä jotain miten paljon peli gputa on ostettu katsomalla kvartaalituloksia. Peligpu myynnille ennustettiin laskua q4:lle minkä tulos saadaan reilun 3vk päästä. AMD ennusti peli gpu puolelle double digit laskua koko vuodelle 2024.

2023 aikana esimerkiksi microsoft ja meta ostivat isosti hopperia. Kun laskee julkisesti tiedetyt hopper diilit yhteen ei jää paljoa tilaa adalle konesalissa kun katsoo miten paljon nvidian konesali teki liikevaihtoa. Julkisesti tiedetään allaolevien 18 miljardin lisäksi isommista amazon ja google hopper diileistä + monia pienempiä diilejä miljardiluokassa(konesali startuppeja, tesla,...). Jotain adaa varmasti menee konesaliin, mutta pisara meressä versus hopper.

Microsoft and Meta are the biggest spenders on the company’s H100, the coveted $30,000 chip that powers generative AI products. In 2023, both companies spent $9 billion on these hot chips, according to a report by financial services firm DA Davidson.

Toinen anekdootti on saatavuus. Hopperissa 6kk-12kk jonot riipuen tuotteesta. Ada rtx 6000 kortteja saat kaupasta käteen viikon toimitusajalla. Toinen myy isosti eioota, toinen ei. Nvidian konesalibisnes on täysin paketointirajotteinen(hopperin hbm muistit). Tuota paketointia ei tarvita ada-piirien kanssa.



Dellin kommentit joulukuun alulta.
Dell has told investors that demand for AI servers has surged, but buyers will be forced to wait 39 weeks to get their hands on the hardware due to supply chain constraints.
 
Viimeksi muokattu:
META laittaa konesaliin inferenssikäyttöön itse suunnittelemaansa rautaa tänä vuonna. Sijoittajapuhelussa Zuckerberg ennakoi, että infrastruktuuriin sijoittaminen jatkuu 2025 vuonna. Sanoi myös, että uudet paremmat ai-mallit tuntuvat vaativan 10x laskentakapasiteetinv versus edelien malli. Jos mikään ei muutu niin rautaa tarvitaan konesaleihin erittäin rajuja määriä....[/snip]

Hyvää luettavaa kasailet, kiitoksia vaivannäöstä!

Tuo on optimointi (tai sen puute) ja ennusteet laskentabudjetin kasvusta on kiinnostavaa. Nykyisellään edes keskikokoisilla kansallisvaltiolla ei ole edellytyksiä liittyä kisaan, puhumattakaan pienemmillä yrityksillä. Tämä jako tulee aiheuttamaan suhteellisen mielenkiintoisen lähitulevaisuuden kun muutama suurempi (ameriikkalainen) yritys hallitsee valtaosaa AI malleista ja tarvittavasta laskentakapasiteetista. Kiina ja Venäjä toivottavasti jää jälkeen väännössä, mutta jos EU ei onnistu keskittämisprojekteissaan, niin ei se kunnian kukko meillekkään laula.

Tarvetta optimoinnille olisi, mitenköhän valideja nämä SSN:n tai "Neuromorphic computing":t yms ovat kehitystyölle, onkohan nähtävissä jotain saumaa pienemmillä pelureille?
Akilleen kantapäänähän on että työkalujen parantuessa, yksittäiset valtiot (Iran/P-Korea/jopa yksityiset tahot) saavat hyvinkin tehokkaita työkaluja erilaisiin destabilointi proggiksiinsa. Ja jälleen heikommassa asemassa ovat pienet kansallisvaltiot joilla ei ole kapasiteettia tehdä edes perustutkimusta, puhumattakaan kykyä kehittää tehokkaita torjuntatyökaluja vaikuttamiseen. Tällöin helpolla ainoaksi vaihtoehdoksi jää liittoutua isompien kanssa ja alkaa käyttämään heidän palveluitaan...

Miten muuten on Suomen tilanne? Onko mitään suurempia (konesali/rauta/tutkimus) hankkeita AI puolella tekeillä? Suomellahan on perinteitä supertietokonepuolella, onko vastaavaa nähtävissä myös AI puolella vai ollaanko jääty junasta?
 
@Raparipa Oma ymmärrys turhan pieni, että osaisi paljoa kommentoida. Kuvan kirjaa tavannut läpi. Siinä on todella hyvin selitetty miten nykyiset neuroverkot toimivat. Ei tunnu tuosta kirjasta löytyvän vastausta siihen miten saataisiin neuroverkot oppimaan vähemmällä laskentakapasiteetilla. Oiva kirja, kun panostettu selkeään tekstiin ja erittäin hyviin kuviin. Matematiikka minimoitu ja sen joutuu jostain muusta kirjasta opettelemaan. Uskon, että tulee olemaan tuo kirja joka työpaikalla ja koulussa.

1706961399786.png


Hyvä havainto kansallistason toimijoista. Aamun uutisia plärätessä löytyi jensen kertomassa, että eri maat heränneet omien konesalien tarpeeseen. Uskon, että kansallistason toimijoilla ongelmaksi tulee hyvien työntekijöiden löytäminen. Yksityisellä puolella huiput saa ihan älyttömän kovia palkkoja.

“It’s become abundantly clear to each one of the countries that their natural resource, which is the data of the country, should be refined to produce intelligence for their country,” Huang said.


Videon sisältö tekstimuodossa: Push for AI sovereignty will see growth of tech sectors in ‘every single country’ worldwide, Nvidia CEO Jensen Huang says
 
Viimeksi muokattu:
Nvidian huhutaan alkavan tekemän asiakaskohtaisesti räätälöityjä piirejä. Räätälöidyt piirit auttavat virrankulutuksessa, suorituskyvyssä ja ratkaisun kokonaishinnassa. Jännittävä nähdä ottaako tämä bisnes tuulta allensa. Räätälöidyille piireille on tarvetta. Tiedetään että suurinpiirtein kaikki isot talot ovat joko miettineet tai tekemässä omia ratkaisuja(meta, amazon, microsoft, google,...)

Nvidia is now attempting to play a role in helping these companies develop custom AI chips that have flowed to rival firms such as Broadcom and Marvell Technology, according to the sources who declined to be identified because they were not authorized to speak publicly.

"If you're really trying to optimize on things like power, or optimize on cost for your application, you can't afford to go drop an H100 or A100 in there," Greg Reichow, general partner at venture capital firm Eclipse Ventures said in an interview. "You want to have the exact right mixture of compute and just the kind of compute that you need."


Oletan, että kustomointi liittyy inferenssi-kuormiin. AI-mallit opetetaan geneerisillä kiihdyttimillä. Mahdollisesti satojen miljoonien ellei miljardien asiakkaiden käyttämien palveluiden inferenssikyselyt menisivät räätälöidyn eli optimoidun piirin läpi. Inferenssipuolella paljon isompi tarve raudalle kuin opetuspuolella olettaen, että google haut, mainokset tai ylipäänsä "kaikki" webbijutut käyttäisivät jonkinlaista AI:ta taustalla.
 
Viimeksi muokattu:
ARM jysäytti jäätävän tuloksen. ARM:in mukaan AI ei ole kupla ja on tullut jäädäkseen.
“AI is not in any way, shape or form a hype cycle,” Rene Haas said in an interview on Bloomberg Television. “We believe that AI is the most profound opportunity in our lifetimes, and we’re only at the beginning.”

Nvidian IP-lisensointi suunnitelmat ilmeisesti alunperin liittyivät yritettyyn arm-ostokseen. Nvidia oli suunnitellut lisensoivansa omia teknologioitaan arm:in kyljessä. Huhut ip-lisensoinnista sen suuntaiset, että nvidia tarjoaisi omaa IP:ta amazon/microsoft/google/openai/... suuntaan. Lisensoija suunnittelee ja valmistuttaa omat piirinsä. Nvidia ei siis tekisi kustomoituja piirejä vaan pelkästään lisensoisi IP:ta. Lisensointi tapahtyy myös arm-pohjaisiin windows koneisiin/mobiiliin, mutta ne on ihan toisten ketjujen aiheita: MediaTek to Use Nvidia GPU Tech for Smartphone, Windows-on-Arm SoCs: Report.

ARMin AI-julistuksen lähde videomuodossa
 

Altman etsimässä lisää pelimerkkejä, kun ei ole tyytyväinen nykyiseen HW saatavuus tilanteeseen. Jos tuollainen 7 jenkki triljoonaa löytyisi, niin sen nopea käyttäminen AI HW saatavuus ongelman ratkaisemiseen itsessään puhaltaisi valtavan kuplan.
 

Altman etsimässä lisää pelimerkkejä, kun ei ole tyytyväinen nykyiseen HW saatavuus tilanteeseen. Jos tuollainen 7 jenkki triljoonaa löytyisi, niin sen nopea käyttäminen AI HW saatavuus ongelman ratkaisemiseen itsessään puhaltaisi valtavan kuplan.
Ongelma saatavuudessa on paketointi. Nvidian kohdalla paketointi vain hbm-muisteista kiinni. AMD:lla chipletit+hbm mi300:ssa niin paketointi vielä pykälän vaikeampaa. Kestää yhden mi300:en tekeminen lisa sun mukaan 7-8kk. Piirejä itsessään saadaan tehtyä tarpeellinen määrä, mutta niitä ei saada paketoitua.

TSMC luvannut paketointikapasiteetin tuplauksen tänä vuonna. Nvidia teki myös diilin intelin kanssa paketoinnista. Jos kysyntä ei kasva niin ehkä nuo paketointikapasiteetin lisäykset riittävät siihen ettei pulaa tuotteista enää ole 2025? Paketointikapasiteettia ei saa sormia napsauttamalla lisää. Olettaen, että openai käyttää hbm-muisteja niin törmäävät samaan paketointiongelmaan kun nvidia ja amd on jo ostaneet kaiken kapasiteetin. Lähteet intel ja tsmc paketointi aikaisemmin ketjussa. Lähde amd 7kk-8kk per piiri kans ketjussa.

OpenAI kai haluaa kustomoidun inferenssiratkaisun. Opetuspuolella edelleen gpu:ta, mutta käyttäjien pyyntöjen(inferenssi) palveleminen kustomoidulla hinta ja virrankulutusoptimoidulla raudalla. Mielenkiintoista nähdä saako esimerkiksi nvidia myytyä ip:nsa microsoft/open ai akselille, lisensoiko openai broadcom/... tai tekeekö täysin itse. Jos nyt alkavat tekemään rautaa niin tuskin alle kahdessa vuodessa saavat tuotantoon. Amazon, microsoft, google jne. myös jahtaavat kustomoitua inferenssiratkaisua.

Kustomoidun inferenssin ymmärtää, kun miettii että mitä tarkoittaa iso tai edes pieni epätehokkuus tulevaisuudessa kun palvellaan miljoonia/satoja miljoonia/miljardeja ai-avustettuja pyyntöjä per päivä. Olettaen siis, että ai-palvelut päätyvät isolla tavalla tuotantoon.
 
Viimeksi muokattu:
millos se AI otti terminaattorissa vallan.. ollaanko kohta lähellä?
 
millos se AI otti terminaattorissa vallan.. ollaanko kohta lähellä?
Ollaan todella kaukana AGI:sta eli todellisesta keinoälystä(Artificial General Intelligence). Nykyiset neuroverkot ovat hyviä ennustamaan mikä kirjain/sana/pikseli/... tulee seuraavaksi. Pohjautuvat tilastoihin ja painoihin. Ei mitään todellista älyä sisässä. Ei tiedetä miten AGIn voisi rakentaa. Laskentakapasiteettia oletettavasti suurimmissa supertietokoneissa on tarpeeksi AGI:n tekemiseen, mutta ei osata koodata sellaista.

Moneen juttuun tuollainen "tyhmä" ennustaminen tosin toimii. Kuvien generointi, tekstin kääntäminen kielestä toiseen, erilaiset chatbotit jne.

Parempi keskustelu AGI:sta, roboteista jne. täällä Robotit ja tekoäly vie työpaikat
 
OpenAI kai haluaa kustomoidun inferenssiratkaisun.
Veikkaisin että hyvin todennäköisesti. OpenAI, ja miksei muutkin vastaavan kokoiset kehittäjät huomaavat potentiaalisesti hyviä algoritmejä, jotka eivät kuitenkaan toimi tehokkaasti nykyisessä parhaassa raudassa, koska siitä puuttuu feature xyz. Jos tuon xyz featuren saisi, niin kyseinen kehittäjä saisi etua.
Ja toisaalta kyseinen xyz ei välttämättä kiinnosta muita kehittäjiä, mikäli heillä eri suuntaisia ideoita tulevaisuuden algoritmeistä.
Tämä ei tietty varmaan ole ainoa syy, mutta joka tapuksessa vaikuttaa olevan kysyntää saada kustom rautaa inferenssiin. Arviota näkynyt että olisi 30mrd markkina (en nyt muista millä aikajaksolla).
 
Veikkaisin että hyvin todennäköisesti. OpenAI, ja miksei muutkin vastaavan kokoiset kehittäjät huomaavat potentiaalisesti hyviä algoritmejä, jotka eivät kuitenkaan toimi tehokkaasti nykyisessä parhaassa raudassa, koska siitä puuttuu feature xyz. Jos tuon xyz featuren saisi, niin kyseinen kehittäjä saisi etua.
Ja toisaalta kyseinen xyz ei välttämättä kiinnosta muita kehittäjiä, mikäli heillä eri suuntaisia ideoita tulevaisuuden algoritmeistä.
Tämä ei tietty varmaan ole ainoa syy, mutta joka tapuksessa vaikuttaa olevan kysyntää saada kustom rautaa inferenssiin. Arviota näkynyt että olisi 30mrd markkina (en nyt muista millä aikajaksolla).
Tuohan se syy siihen kustomiin on. 30 miljardia markkinan koko tänä vuonna ja kasvaa tuosta ollen vähintään tuplat 2025. Suurimmat lisensoijat kustom puolella marvel ja broadcom. Nvidia lähtee tuohon ip-lisensointiin myös mukaan. Toinen "uusi" pelaaja tenstorrent. Tarvii aikalailla jakaa kahtia markkina inferenssiin ja opetukseen. Opetus paljon monimutkaisempi, inferenssiraudat melko yksinkertaisia monessa mielessä lähtien siitä, että opetus tarvii kymmeniä tuhansia kiihdyttimiä, yksi piiri voi palvella montaa inferenssikyselyä yhtä aikaa olettaen että muistia on riittävästi.

Tarve ja halu tehdä kustom piirejä puhuu sen puolesta, että yritykset eivät usko AI:n olevan kupla mikä menee nopeasti ohi. Turha tehdä kustom piiriä mikä on valmis tulevaisuudessa ja palvelee isoja massoja jos "AI" ei lähde lentoon.

 
Viimeksi muokattu:
Sen puolesta mitä tässä on tullut pyöriteltyä erinnäisiä AI-systeemejä, voin veikata että AI on samanlainen "kupla" kuin mikroprosessori, PC ja kännykät/älypuhelimet.
=Hyödyllisiä ja yleistyvät asteittain kaikkialle ja jokapäiväiseen käyttöön.
=Tapahtuu hype vaihe, jossa osan toimijoista osake kuplaantuu (en osaa arvat onko tämä jo takana vai vasta edessä, vai tapahtuuko useana aaltona.)
=Muutamassa vuodessa (kunkin) kuplavaiheen toimijoita on kaatunut, tullut ostetuiksi jne, vaikutus kursseihin on tasaantunut

Ja sitten tavallaan vasta-argumentti / huomio poikkeavuudesta aiempaan:
--> Nythän suurinpiirtein kaikki suurimmat teknopuolen yritykset ovat tekemässä jotain siivua AI:n suhteen. Näin laajalla rintamalla osallistuminen on ennemminkin tyypillistä vasta kuplavaiheen jälkeisessä ajassa, jolloin tekniikka on saavuttanut vakiintunutta asemaa.

Yleistymiselle jokapäiväiseen käyttöön on tietysti oleellista pystyä tuottamaan AI-palveluja riittävän edullisesti / kilpailukykyiseen hintaan.
 
Pudotuspeli alkaa AI-kiihdytinpuolella. Englantilainen graphcore rahallisissa ongelmissa. Ongelmia lisää kiinaa kohtaan olevat pakotteet, jotka iskivät graphcoren kiinan yksikköön. Lisärahoituksen hakeminen ei ole oikein onnistunut. Saapa nähdä miten käy, konkka, joku iso ostaa graphcoren pois, näivettyminen?


Toisissa uutisissa jim keller ja raja koduri väänsivät peistä siitä, onko cuda ai vallihauta vai ei. Kodurin mielestä cuda ei ole este vaan vaikeus tulee siitä, että pitäisi pointteri ja c-tuki toteuttaa gpu:hun. Osa ongelmaa toki ei pelkkä pointteri vaan muistiosoitusten nopeus isoissa klustereissa. Pointteri voi osoittaa toisen gpu:n tai cpu:n muistiin minkä käpisteleminen on hidasta ja ei olisi suotavaa odotella pitkiä aikoja dataa.

1708520885460.png




Jim Kellerin mielestä cuda no loputon suo.

 
Dellin lipsautuksen mukaan nVidian tulevat Blackwell B100 ja B200 kuluttaisivat virtaa 1000W/GPU.
Nousu nykyisestä H100/H200:n 700W virrankulutuksesta olisi aika merkittävä.
Toinen huhu on, että b100:en koostuisi useammasta piiristä samassa paketissa. 18.3 selviää, kun jensen pitää GTC-messujen keynoten. 1000W itsessään ei ole mikään negatiivinen tai positiivinen asia. Lopputuloksen haluttavuus riipuu siitä mikä suorituskyky on. Jossain määrin voi miettiä myös sitä miten paljon tilaa suorituskyky vaatii. Viime vuonna tuli kuunneltua podcasteja konesalien rakentamisesta. Niissä tuli ilmi aika selvästi, että gpu konesalit pitää suunnitella jäähdytyksen ja virransyötön osalta eri tavalla kuin cpu konesalit. GPU:t ottavat enemmän virtaa ja tuottavat enemmän lämpöä kuin cpu:t.

Jensen viittaillut siihen että b100:en suorituskyky on "off the charts" ja saisi pienemmällä klusterilla enemmän aikaan. Tämä lienee siinäkin mielessä oleellista, että saataisiin isompi osa kuormasta pysymään muutaman gpu:n sisällä ja nodejen välistä kommunikaatiota vähemmäksi. Bittien liikuttaminenkin nodejen välillä(nvlink, infinityband) maksaa energiaa ennen kuin miettii edes latenssia ja suorituskykyä.

1709471049399.png


Yksi H200 gpu 700W. 8gpu laatikko missä myös cpu:t, verkko yms. mukana 5.6kW. Virrankulutus/Lämmöntuotto konfiguroitavissa jossain määrin, kun piirien kellotaajuuksia yms. voi säätää.

 
Viimeksi muokattu:
Nvidian GTC keynote missä esittelivät uuden konesaligpu:n



Niin paljon tavaraa etten edes yritä purkaa auki täysin. Blackwell koostuu kahdesta maksimikoon tsmc 4NP teknologialla tehdystä piiristä. Piirit sulautettu yhteen ja piirien välillä 10TB/s kaistaa. Kahdem piirin ratkaisu näkyy yhtenä gpu:na käyttöjärjestelmälle. NVlinkit yms. kans saaneet boostia. Kaksi erilaista blackwell konfiguraatiota. Toisen voi asentaa suoraan hopper-pohjaiseen serveriin ja toinen on natiivi blackwell mitä varten pitää suunnitella/ostaa uusi serveri.

1.8TB/s nvlink on melkein yhtä nopea kuin a100:en muistinopeus. a100:en hbm muistit oli 2TB/s. Jäätävän nopea linkkii tuo nvlink gpu-gpu liikenteeseen. Toki suorituskyky hyytyy kun miettii 72 gpu järjestelmää missä kaikki gpu:t on kytketty toisiinsa kiinni nvlink+nvlink kytkimien avulla.
114833265.jpg

115079234.jpg


Lopputuloksena voi rakentaa entistä massiivisemman supertietokoneen
1710794859055.png
 
Viimeksi muokattu:
Nvidian A6000-näyttiksellä pääsee hyvin alkuun jos haluaa lokaalisti soveltaa valmiita isompia malleja. Viime sukupolven malli on jopa jotenkin järkevissä hinnoissa.
 
Nvidian A6000-näyttiksellä pääsee hyvin alkuun jos haluaa lokaalisti soveltaa valmiita isompia malleja. Viime sukupolven malli on jopa jotenkin järkevissä hinnoissa.
Tän ketjun idea enempi keskustella konesaliraudasta kuin peli gpu pohjaisista korteista. Useampaan otteeseen tullut sanomista, kun hopperista, mi300x:sta tms. yrittänyt geneerisissä gpu-ketjuissa jutella. AI kehitystyölle/testailulle yms. myös omat ketjunsa, jos tekee jotain konkreettista koneoppimisen parissa.
 
Mitähän tuollainen 72gpu blackwell räkki maksaa? 2-3miljoonaa? Painoa vajaa 1400kg, 120kW, 72gpu:ta. 36cpu:ta, 13.5TB HBMe3 muistia, 17.28TB LPPDR5x muistia, laskentatehoa 1.44Exafloppia fp4 formaattia käytettäessä

nvidia_gb200_nvl72_front.jpg

In the case of Nvidia's NVL72, both the compute and NVLink switches are liquid cooled. According to Huang, coolant enters the rack at 25C at two liters per second and exits 20 degrees warmer.

 
Viimeksi muokattu:
Mitähän tuollainen 72gpu blackwell räkki maksaa? 2-3miljoonaa? Painoa vajaa 1400kg, 120kW, 72gpu:ta. 36cpu:ta, 13.5TB HBMe3 muistia, 17.28TB LPPDR5x muistia, laskentatehoa 1.44Exafloppia fp4 formaattia käytettäessä

nvidia_gb200_nvl72_front.jpg




Eiköhän tuo hinta riipu ihan siitä, minkälaista rautaa/ohjelmistoja on kustomoitu ostajalle.

Nvidia debuts massive Blackwell-powered systems

There are several iterations of Nvidia’s existing DGX servers, ranging from 8 Hopper processors to 256 processors and with prices that start at $500,000 and scale to several million. Nvidia is following a similar configuration structure for the Blackwell generation, but no prices are available yet.

NVIDIA DGX Cloud targets generative AI

DGX Cloud instances start at $36,999 per instance per month, with no additional fees for AI software or data transfers. So, that’s $444,000 a year for one instance, and that’s a recurring cost.
 
Viimeksi muokattu:
Intel on esitellyt uutta gaudi 3 AI-kiihdytintä. Nopeampi kuin nvidian hopper. Skaalautuu isoihin asennuksiin.

oUtQy2dL85RoC6KtLEDTa8-1024-80.jpg


Softa on todella tärkeä osa palapeliä
VwYwZ8FWfBSkHTyJ266Ydf-1024-80.jpg


The OAM design has two central 5nm dies with 96MB of SRAM split between the two, providing 12.8 TB/s of bandwidth. The dies are flanked by eight HBM2E packages, totaling 128GB, that deliver up to 3.7 TB/s of bandwidth. A high-bandwidth interconnect between the two dies provides access to all memory present on both dies, thus allowing it to look and act as a single device (at least as far as the software is concerned - latency might vary). Gaudi 3 also has a x16 PCIe 5.0 controller for communication with the host processor (CPU) and different ratios of CPUs and Gaudi accelerators can be employed.
 
Jim Keller sanoo että Nvidian olisi kannattanut käyttää Ethernetiä siihen että Blackwell GPU sirut liitetään yhteen – olisi voinut säästää miljardeja

Ethernet olisi myös tehnyt asiakkaille helpommaksi portata ohjelmistonsa toisille laitealustoille, mitä Nvidia ei välttämättä halua. Suorituskyvyn osalta varsinkin seuraavan sukupolven Ethernet (400GbE ja 800GbE) olisi kilpailukykyinen Nvidian proprietary InfiniBand (200GbE) kanssa.

AI käyttöön ollaan monen ison firman toimesta kehittämässä Ultra Ethernet väylää.

Of course, Nvidia needs to develop data center platforms to use here and now, which is probably at least part of its desire to spend billions on proprietary technologies. If open-standard technologies like PCIe with CXL and Ultra Ethernet will outpace Nvidia's proprietary NVLink and InfiniBand technologies regarding performance and capabilities, Nvidia will have to redevelop its platforms, so Keller advises (or trolls) that Nvidia should adopt Ethernet. However, this may be years away, so for now, Nvidia's designs continue to leverage proprietary interconnects.

 
Jim Keller sanoo että Nvidian olisi kannattanut käyttää Ethernetiä siihen että Blackwell GPU sirut liitetään yhteen – olisi voinut säästää miljardeja

Ethernet olisi myös tehnyt asiakkaille helpommaksi portata ohjelmistonsa toisille laitealustoille, mitä Nvidia ei välttämättä halua. Suorituskyvyn osalta varsinkin seuraavan sukupolven Ethernet (400GbE ja 800GbE) olisi kilpailukykyinen Nvidian proprietary InfiniBand (200GbE) kanssa.

AI käyttöön ollaan monen ison firman toimesta kehittämässä Ultra Ethernet väylää.




Nvidia julkaisi 800GB/s infiniband ja 800GB/s ethernet ratkaisut maaliskuun GTC-messuilla.

The world’s first networking platforms capable of end-to-end 800Gb/s throughput, NVIDIA Quantum-X800 InfiniBand and NVIDIA Spectrum™-X800 Ethernet push the boundaries of networking performance for computing and AI workloads.

Vaikka nvidian referenssiratkaisu käyttää infinibandia niin asiakkaat voivat ostaa nvidian eetterillä olevia ratkaisuja tai käyttää omia verkkokortteja+kytkimiä nvidian sijaan. Nvidian ratkaisuissa on älykkyyttä mikä helpottaa neuroverkkojen kanssa kun osa laskennasta voidaan hoitaa kytkimessä sen sijaan, että data menisi gpu:lle asti. Tyyliin miten läjätään lopputulos usean gpu:n laskennan pohjalta kytkimessä. Säästää verkosta kaistaa kun kytkin suorittaa tulosten yhdistämisen gpu:n sijaan.

72gpu:ta saadaan kytkettyä nvlink:lla yhteen mikä on optimaalisempaa kuin ethernet/infiniband. Blackwell konesalit tuntuvat menevän 72gpu nvlink:lla ratkaisuun. NVL72 paketteja kytketään toisiinsa kiinni infiniband/ethernet:lla missä verkkokortin ei ole pakko olla nvidian valmistama.
Fifth-generation NVLink vastly improves scalability for larger multi-GPU systems. A single NVIDIA Blackwell Tensor Core GPU supports up to 18 NVLink 100 gigabyte-per-second (GB/s) connections for a total bandwidth of 1.8 terabytes per second (TB/s)—2X more bandwidth than the previous generation and over 14X the bandwidth of PCIe Gen5. Server platforms like the GB200 NVL72 take advantage of this technology to deliver greater scalability for today’s most complex large models.

8gpu ja 72gpu järjestelmiä googlen pilveen. 72gpu kytkety yhteen nvlink:lla.

NVIDIA’s newest GPUs based on the NVIDIA Blackwell platform will be coming to Google Cloud early next year in two variations: the NVIDIA HGX B200 and the NVIDIA GB200 NVL72.

The HGX B200 is designed for the most demanding AI, data analytics and high performance computing workloads, while the GB200 NVL72 is designed for next-frontier, massive-scale, trillion-parameter model training and real-time inferencing.

 
Viimeksi muokattu:
Teslan piikiekkotason Dojo-piiri on tuotannossa. Kiekolla 5x5 toimivaa piiriä mitkä on kytketty yhteen niin, että ne näyttävät yhdeltä jättimäiseltä kiihdyttimeltä. Linkin päässä enemmän tieta kuin mitä lainauksissa on
Tesla uses a highly complex voltage-regulating module that delivers 18,000 Amps of power to the compute plane. The latter dissipates as much as 15,000W of heat and thus requires liquid cooling.
Wafer-scale processors, such as Tesla's Dojo and Cerebras' wafer scale engine (WSE), are considerably more performance-efficient that multi-processor machines. Their main advantages include high-bandwidth and low-latency communications between cores, reduced power delivery network impedance, and superior energy efficiency
uPaZBHhGWgoH9AZ3pwq6ma-1024-80.png

 
Tuollaisella 15kW lämpökuormalla ei tarvitse kummoistakaan epätasapainoa tulla jäähdytykseen kiekon eri alueiden välillä, niin pii rapsahtaa rikki. Jos halutaan pidempää käyttöikää, niin saattaa vaatia esilämmityksen ennen käynnistystä ja säädellyn jälkilämmityksen sammutuksen yhteydessä. Samoin ajettaessa lienee joku algo varmistamassa että lämpökuormaa syntyy alueellisesti tasaisesti.
 
Nvidia puhui hieman uusista konesalimurskaimista computex-messuilla. Blackwell päivittyy ultra malliin mikä käyttää 12 kerroksisia hbm muisteja nykyisten 8 kerroksisten tilalta. 2025 julkaistaan rubin konesaligpu missä fokuksessa on virrankulutus. Rubin käyttää 12 hbm4 muistipinoa siinä missä blackwell käyttää kahdeksaa hbm3e pinoa. Sivulauseessa mainittiin nvlinkin päivittyminen suorituskyvyn tuplaavaan kuutosversioon ja uusi arm pohjainen konesali cpu. Nvidia vilautti myös verkkopuolen roadmappia.

Nvidia näyttää oikeasti tuovan uuden konesaligpu:n ulos vuoden välein


 
AMD puhui uusista konesalimurskaimista computex messuilla. 2024 q4:lla tulee mi325x. Se on käytännössä mi300x joka käyttää hbm3e:ta. Kokonaan uudet piirit mi350 ja mi400 seuraavat 2025 ja 2026. Linkin päässä enemmän yksityiskohtia.

AMD vertaa mi325x:aa nvidian h200:een
1717413726378.png


2024-06-03_10-36-57-728x455.jpg


 
MLPerf 4.0 tulokset ulkona. MLPerf on AI-konesalien 3d mark sillä erolla, että MLPerfissä on paljo oikeita kuormia mukana. Osallistua voi yhden kiihdyttimen tuloksista aina konesaliin asti. On myös kategorioita joissa saa tehdä jopa mielivaltaisia optimointeja. AMD ei osallistunut, muut isot pelaajat(google, nvidia, intel jne) ovat osallistuneet. Mielenkiintoista MLPerfissä yksittäisten tulosten lisäksi se miten tulokset kehittyvät ajan funktiona. Softa ja konesalitason optimoinnit auttavat saamaan enemmän tehoa irti niin yksittäisestä raudasta kuin konesalista.

The latest MLPerf Training exercise adds two new benchmarks — LoRA fine-tuning of LLama 2 70B and GNN (graph neural network) — and power metrics (optional) were also added to training. There were more than 205 performance results from 17 submitting organizations: ASUSTeK, Dell, Fujitsu, Giga Computing, Google, HPE, Intel (Habana Labs), Juniper Networks, Lenovo, NVIDIA, NVIDIA + CoreWeave, Oracle, Quanta Cloud Technology, Red Hat + Supermicro, Supermicro, Sustainable Metal Cloud (SMC), and tiny corp.

Muutama poiminta MLPerf tuloksista. Nvidia tylytti tällä(kin) kertaa muita.

MLPerf-Training-4.0-Nvidia-v-Gaudi2.png


Kuvassa nvidian tulosta ja miten vuodessa samasta 512 gpu nodesta saadaan enemmän irti. Linkatussa blogissa selitetty millä keinoin suorituskykyä on saatu lisättyä
1718277966201.png


mlperf löytyy täältä: Benchmark Work | Benchmarks MLCommons
 
Ranskalaisilla on aikeena tehdä omia suorittimia ja AI-kiihdyttimiä. Ranskalaisten piireistä on aikomus kasata eurooppalainen supertietokone. Saa nähdä saavatko tehtyä noita ajallaan vai muuttuuko suunnitelmat matkan varrella.
We think that the EuroHPC JV really wants to have Rhea2 in all of the nodes of the Alice Recoque system and also wants the “Hurricane” EPAC accelerated based on the RISC-V architecture in the system. We think that there will be a high number of these EPAC coprocessors attached to each Rhea2 CPU, and we also think they will be configured in a four to one ratio between CPUs and accelerators.

 
Intel luovuttaa mallien opettamiseen tarkoitettujen konesaliratkaisujen puskemisen ja keskittyy x86 ekosysteemiin perustuviin inferenssiratkaisuihin. Intelin mukaan vaikea nykytilanteessa kilpailla edellä olevien kanssa. Mitä tämä tarkoittaa loppuvuodesta tulevalle gaudi3.lle niin ei ole tiedossa.

“As I view it… in the four-horse race on this side of the page, Nvidia, (AWS’s) Trainium and Inferentia, Google Cloud’s TPU, and AMD, and Intel’s number four… that’s hard,” Gelsinger said.
The company is exiting the AI training market and focusing on inferencing, in which x86 chips help Intel operate from a position of strength, Gelsinger said last month at the Deutsche Bank analyst conference.

Amazon aikoo valmistaa omat piirinsä intelin tehtailla.
As part of the expanded collaboration, Intel will produce an AI fabric chip for AWS on Intel 18A, the company’s most advanced process node. Intel will also produce a custom Xeon 6 chip on Intel 3, building on the existing partnership under which Intel produces Xeon Scalable processors for AWS.

 
Viimeksi muokattu:
12 kerroksisia hbm3e muisteja massatuotannossa. Mahdollistaa ensi vuodelle paremmat konesalikiihdyttimet kun saadaan 50% lisää muistia ja lisää nopeutta. Noi tipahtanee "suoraan" niihin kiihdyttimiin mitkä on suunniteltu 8 kerroksiselle hbm3e muistille kuten nvidian blackwell.


AMD:n mi325x tulossa näillä näppäimillä ulos huhujen mukaan. Tulee olemaan ainakin tovin aikaa muistikuningas massiivisella 288GB kapasiteetilla. Muistipiireinä hbm3e mutta en tiedä onko 8 vai 12 kerroksinen. Virallinen aikataulu mi324x Q4, olisi amd:lle ja asiakkaille kyllä hyvä saada tuo ulos heti kvartaalin alussa eikä lopussa.
 
Nvidian Blackwell tuotanto alkaa olemaan todellista. Google esittelee omaa custom ratkaisuansa
1729071467082.png
 
Konesalikiihdyttimet konesalikokoluokan haaste missä myös softa on iso osa palapeliä. Intelillä softa vaiheessa niin eivät saa myytyä gaudi3:sta aikaisemman ennusteen mukaisesti
Intel says it will now be unable to meet its goal of $500 million in Gaudi 3 sales due to software issues. Meanwhile, AMD plans to rake in $3 billion from its AI GPUs, and while Nvidia doesn't specifically state the amount it makes from AI GPUs for the data center, it is expected to be well north of $80 to $90 billion.

OpenAI tekee broadcomin kanssa yhteistyössä AI-piiriä. Ehkä tuotannossa 2026. OpenAI käyttää myös amd:n piirejä nvidian lisäksi.
OpenAI has assembled a dedicated chip team of approximately 20 people, led by former Google TPU engineers Thomas Norrie and Richard Ho. The company has secured manufacturing capacity with TSMC, targeting a 2026 timeline for its first custom-designed chip. While Broadcom's involvement leverages its expertise in helping companies optimize chip designs for manufacturing and manage data movement between chips—crucial for AI systems running thousands of processors in parallel—OpenAI is simultaneously diversifying its compute strategy. This includes adding AMD's Instinct MI300X chips to its infrastructure alongside its existing NVIDIA deployments. Similarly, Meta has the same approach, where it now trains its models on NVIDIA GPUs and serves them to the public (inferencing) using AMD Instinct MI300X.
 
Amazon rakentaa ihan järjettömän isoja klustereita omista piireistänsä. Amazon myös kertoi hieman tulevasta trainium3 kiihdyttimestä.
Amazon Web Services this week said it is building a machine with hundreds of thousands of its Trainium2 processors to achieve performance of roughly 65 ExaFLOPS for AI. The company also unveiled its Trainium3 processor which will quadruple performance compared to the Trainium2.

Eräs merkittävä käyttäjä amazonin omille kiihdyttimille anthropic.
We are collaborating with AWS to build Project Rainier—an EC2 UltraCluster of Trn2 UltraServers containing hundreds of thousands of Trainium2 chips. This cluster will deliver more than five times the computing power (in exaflops) used to train our current generation of leading AI models.
 
Tästä on jo ollut aikaisemminkin puhetta, mutta nyt Intel ilmeisesti jättää Gaudi 3:n väliin 'ohjelmistohaasteiden' vuoksi ja keskittyy seuraavan sukupolven Falcon Shore -GPUihin.
Ja taitaa siinä piirissä olle myös valmistusteknisiäkin haasteita.
Tuntuu että kun Intel on saamassa jotakin GPU:ta liki tuotantovalmiiksi, kilpailijat ovat jo seuraavassa sukupolvessa, ja piiri käytännössä vedetään pois tuotannosta ennen kuin se ehtii markkinoille.
Nyt hehkutetaan tulevaa Falcon Shorea, mutta sillekin taitaa käydä yhtä ohrasesti.

 

Statistiikka

Viestiketjuista
261 527
Viestejä
4 539 391
Jäsenet
74 817
Uusin jäsen
pepponen

Hinta.fi

Back
Ylös Bottom