AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

RTX 5090 tulee joko 32GB tai 48GB muistilla, näkee sitten. Mutta joo näillä ei ihan Sonnettin tai O1 laatuisia työkaluja voi pyöritellä, mutta voi jotain muuta pienempää. Macci jää pelkän RAM'in kanssa aina hidaaksi juu, en ees lähe kokeilee :)
Kai se on 32GB kun vahvat huhut ettei 3GB gddr7 piirejä ole isona määrinä tarjolla. Ei mikään huhupajakaan ole puhunut 48GB mallista vaan kaikki viittaa 32GB.

Ei tuo m4 max:in hitaus nyt niin haitannut kun sen pohjalta näki jo mihin tän hetkiset lokaalit kielimallit pystyvät tai siis eivät oikeasti pysty versus o1/sonnet. ts. ihan sama mikä rauta olis alla niin ei tuo nykyisten lokaalimallien laatu riitä. Ei hyödytä nopeampi rauta kun ratkaisut eivät ole riittävän laadukkaita.
 
Viimeksi muokattu:
RTX 5090 tulee joko 32GB tai 48GB muistilla, näkee sitten. Mutta joo näillä ei ihan Sonnettin tai O1 laatuisia työkaluja voi pyöritellä, mutta voi jotain muuta pienempää. Macci jää pelkän RAM'in kanssa aina hidaaksi juu, en ees lähe kokeilee :)
Macissa tuo "RAM" on jaettu GPU:n kanssa. Mac on itse asiassa paljon nopeampi kuin RTX 4090, jossa vain 24 GB VRAM, jos malli mahtuu vain tuonne Macin muistiin.

Joku uusi Mac Studio M4 Ultra saattaisi olla mielenkiintoinen, jos vaikka 256 GB tuota jaettua muistia vähän nopeampana ja hintaa reilu 5 000 euroa. M4 Ultran pitäisi olla ainakin RTX 4090 tehoinen. Isojen mallien kanssa paljon nopeampi kuin joku RTX, jonka VRAMiin malli ei mahdu tai jos mahtuu niin hintaa on kymmeniä tuhansia euroja. Siis jos lokaalisti täytyy ajaa malleja. Korjatkaa jos olen väärässä.
 
Macissa tuo "RAM" on jaettu GPU:n kanssa. Mac on itse asiassa paljon nopeampi kuin RTX 4090, jossa vain 24 GB VRAM, jos malli mahtuu vain tuonne Macin muistiin.

Joku uusi Mac Studio M4 Ultra saattaisi olla mielenkiintoinen, jos vaikka 256 GB tuota jaettua muistia vähän nopeampana ja hintaa reilu 5 000 euroa. M4 Ultran pitäisi olla ainakin RTX 4090 tehoinen. Isojen mallien kanssa paljon nopeampi kuin joku RTX, jonka VRAMiin malli ei mahdu tai jos mahtuu niin hintaa on kymmeniä tuhansia euroja. Siis jos lokaalisti täytyy ajaa malleja. Korjatkaa jos olen väärässä.

En ole vielä kuullut, että joku sanoisi, että Mac on nopeampi kuin 4090 näissä, tosin en ole itse lokaalisti malleja testannut. Paras "koti" setuppi on väitetysti/benchmarkattu vieläkin 2x 3090, ja jopa sillä ei saa vielä sellaisia tuloksia kuin haluaisi.

M3 Max -nopeus on jotain 400 GB/s? Ja 4090 jotain 1000 GB/s?
Miten Macci voi olla nopeampi?

Vaikka Macilla on enemmän muistia, ei se korvaa muistiväylän nopeutta (rinnakkaislaskentaa)?
Sekä 4090:llä voi ajaa kvantisoituja malleja. Macilla voi ajaa isompia malleja, mutta hyvin hitaasti, että kuullemma ei ole sen arvoista. Mielestäni koti-setupit eivät vielä ole siinä tilassa, että käyttäisin henk.koht. itse, ainakaan LLM:n kohdalla. 2x 3090 setuppi ehkä jopa ok tietyissä malleissa.

EDIT: Ja niin macin rahalla saa aikan monta 700e 3090 korttia :D Ettei ihan sen arvoista, jos ei ole edes yhtä nopea. Ja ei NVIDIA'n ekosysteemia (CUDA, cuBLAS ja TensorRT)
 
Viimeksi muokattu:
En ole vielä kuullut, että joku sanoisi, että Mac on nopeampi kuin 4090 näissä, tosin en ole itse lokaalisti malleja testannut. Paras "koti" setuppi on väitetysti/benchmarkattu vieläkin 2x 3090, ja jopa sillä ei saa vielä sellaisia tuloksia kuin haluaisi.

M3 Max -nopeus on jotain 400 GB/s? Ja 4090 jotain 1000 GB/s?
Miten Macci voi olla nopeampi?

Vaikka Macilla on enemmän muistia, ei se korvaa muistiväylän nopeutta (rinnakkaislaskentaa)?
Sekä 4090:llä voi ajaa kvantisoituja malleja. Macilla voi ajaa isompia malleja, mutta hyvin hitaasti, että kuullemma ei ole sen arvoista. Mielestäni koti-setupit eivät vielä ole siinä tilassa, että käyttäisin henk.koht. itse, ainakaan LLM:n kohdalla. 2x 3090 setuppi ehkä jopa ok tietyissä malleissa.

EDIT: Ja niin macin rahalla saa aikan monta 700e 3090 korttia :D Ettei ihan sen arvoista, jos ei ole edes yhtä nopea. Ja ei NVIDIA'n ekosysteemia (CUDA, cuBLAS ja TensorRT)
Toivottavaa kuitenkin olisi, että Apple haastaisi NVIDIAn näissä tekoälyhommissa, mutta taitaa vielä olla matkaa. Todella vähävirtaisiahan nuo Applen koneet ovat, niin se pitää kaiketi myös huomioida.
 
En ole vielä kuullut, että joku sanoisi, että Mac on nopeampi kuin 4090 näissä, tosin en ole itse lokaalisti malleja testannut. Paras "koti" setuppi on väitetysti/benchmarkattu vieläkin 2x 3090, ja jopa sillä ei saa vielä sellaisia tuloksia kuin haluaisi.

M3 Max -nopeus on jotain 400 GB/s? Ja 4090 jotain 1000 GB/s?
Miten Macci voi olla nopeampi?
m4 max suurinpiirtein sama kuin desktop 4070 tai parempi verrokki ehkä aavistuksen hitaampi kuin mobiili 4080. Tosin jos rajoitetaan mobiili4080 watit samaan kuin m4 max niin 4080 ei pärjää. Kai huhuttu m4 ultra voi päästä laskentahommissa 4090 tasolle. ultra on huhujen mukaan 2 m4 max piiriä yhteen liimattuna, nopea väylä välissä ja desktop form factor versus virtapihi läppäri.

m4 max:ssa 546GB/s muistikaistaa ja se on kyllä wattien puolesta läppäripiiri. Ei vedä satoja watteja vaan jotain 50W-60W väliin.

En tajua miksi tässä ketjussa pitää vängätä kenen isin gpu on nopein. Ainakin mun pointti oli testata lokaalit kielimallit kera lokaalin aiderin. Testin lopputulos oli, että lokaalit antavat niin paljon huonompia vastauksia verrattuna o1 että en näe itselleni mitään syytä käyttää lokaaleja tässä kohtaa. Toki ihan minä päivänä vain voi tulla lokaalimalli mikä on niin hyvä, että muutan mielipidettä. Llama3.3:70b ja qwen2.5-coder:32B eivät ole riittävän hyviä versus o1.

edit. Jos tekee chatbottia tms. niin lokaali llama3.3:70b on todella hyvä. Tämän ketjun aihe kuitenkin koodiavustimissa, ei geneerisissa chatboteissa.
 
Viimeksi muokattu:
Allaolevasta näkee millä vauhdilla llama3.3:70b jaksaa macbook pro m4 max:lla generoida koodia. Yritti ratkaista päivän advent of code luukkua. Lokaali lama ja pilven claude sonnet 3.5 feilas tuon kanssa. O1 onnistui toisella yrityksellä generoimaan pulmat ratkaisevan koodin. LLama imaisi 44GB muistia. Ei tuosta tällä hetkellä ole iloa vaikka tekisi saman toimimattoman lopputuloksen pikosekunnissa.



advent of coden 13. ja 14. päivän luukkujen kakkososat sellaiset ettei o1,o1 pro eikä cs3.5 osanneet ratkaista.
 
Viimeksi muokattu:
Mitä olen seuraillut ihmisten kokeiluja niin 3090/4090 on yleensä vähintään noin 3x nopeampi kuin M4 LLM pyörityksessä ja tietysti diffusion mallit on nvidialla vielä nopeampia.
 
Mitä olen seuraillut ihmisten kokeiluja niin 3090/4090 on yleensä vähintään noin 3x nopeampi kuin M4 LLM pyörityksessä ja tietysti diffusion mallit on nvidialla vielä nopeampia.
TDP M4 noin 20 W vs RTX 4090 noin 350 W. Suorituskyky wattia kohden (perf/W) on varmasti paljon parempi M4:ssä, joten kaikki vaan ostamaan noita macceja, niin säästetään sähköä.

Onko vertailussa edes paljoa järkeä paitsi, jos lokaali malli vaatii hurjasti muistia (GPU:n käytössä Macilla n. 100 GB vs RTX 4090 24 GB), jolloin Mac loistaa?

Toisaalta hyvät lokaalisti ajetut kielimallit ainakin koodauksessa, joka on ketjun aihe, ovat tulossa vasta tulevaisuudessa ja vaatinevat paljon muistia. Parhaimmat mallit käsittääkseni niin isoja tällä hetkellä, että vaativat satoja GB muistia GPU:lta, eikä niitä edes saa ajettua lokaalisti.
 

O1 koodauksessa aika tasan sonnetin kanssa, paitsi olen aika varma, että jos tuloksia 'iteröidään' / kysytään samaa asiaa uudelleen, on O1 noin 20–30 % parempi. Ja O1 PRO vielä parempi (koska ajattelee pidempään / reasoning more).

EDIT: Ja tästä vielä kun katsoo "Reasoningia", eli kuvittelee nyt jos sulla on O1 PRO Arkkitehtinä (joka ei editoi koodia) ja toinen malli mikä toimii ehkä paremmin editorina :)

Itsellääni nyt parhaat editorit ovat
- 1. gemini-exp-1206 (aider WHOLE mode)
- 2. gemini-2.0-flash-ex (aider DIFF mode)
- 3. deepseek-chat (diff, uusi R1 lite kuullemma hyvää täytyy testaa)
- 4. sonnet-3-5 (diff)

4. on ehkä paras, mutta vika koska liian kallis editoriksi.
1-3 usein saattaa failaa {} (js) kielien kanssa, niin 4. yleenäs sillos pelastaa.. oma projekti suurrimmalta osaalta nyt pythoni niin 1-3 toimii hyvin.


1734609431696.png



Sekä editori testejä: Aider LLM Leaderboards
 
Viimeksi muokattu:
Taitaa openai:n o3:en tammikuun loppupuolella nytkäyttää koodiavustimia melko ison pykälän eteenpäin. Todella lupaavia numeroita openai:lta. SWE bench mittari missä katsotaan miten hyvin malli osaa ratkaista open source projektien githubissa olevia tickettejä ongelman ymmärtämisestä sisään saatuun koodiin. Hyppy 50% pinnasta 70% kova juttu. 3/4:sta tiketistä ratkeaa. Parhaat tän hetken tulokset alle 50% SWE-bench

Ratkoo myös arc challengea hyvin: OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
1734739759993.png


Matematiikka/fysiikkapuolella aletaan lähestyä rajaa missä on vaikea keksiä riittävän vaikeita ongelmia mallien osaamisen mittaamiseen.

1734739773337.png

Parhaat mallit aikaisemmin tässä matemaattisten ongelmien ratkaisussa 2%, o3 10x parempi.

1734739786472.png

lähde:
 
Ilmeisesti tuo o3 on todella kallis järjestelmä ajaa joten tässä vaiheessa ainakaan normaali käyttäjä ei varmaan pääse sitä käyttämään mutta tärkeämpää on että se näyttää että laitteiston skaalaus toimii taas erittäin hyvin uusilla tekniikoilla.
 
Ilmeisesti tuo o3 on todella kallis järjestelmä ajaa joten tässä vaiheessa ainakaan normaali käyttäjä ei varmaan pääse sitä käyttämään mutta tärkeämpää on että se näyttää että laitteiston skaalaus toimii taas erittäin hyvin uusilla tekniikoilla.

Ei tuu ehkä ihan kuluttaja käyttöön näillä hinnoillaa juu :)

1734766182024.png



O1 Pro edelleen paras kuluttajakäytössä (ehkä naamioittu O3 mini)

1734766283471.webp


1734766353895.png
 
Ilmeisesti tuo o3 on todella kallis järjestelmä ajaa joten tässä vaiheessa ainakaan normaali käyttäjä ei varmaan pääse sitä käyttämään mutta tärkeämpää on että se näyttää että laitteiston skaalaus toimii taas erittäin hyvin uusilla tekniikoilla.
Tulee varmaankin osaksi nykyistä 200$/kk tilausta millä saa o1 pro ja rajattomat queryt. Jos on superkallis ajaa voi olla joku rajoite montako o3 querya saa viikossa/päivässä ja rajattomasti o3 mini. Mä maksan tuon 200$/kk tällä hetkellä. Tärkeää sekin, että o3 mini on erittäin nopea ja halpa ajaa. Silti suurinpiirtein saman tasoinen kuin tän hetkinen o1. o3 mini varmaan se mitä eniten käytetään ja ratkoo ison määrän erilaisia ongelmia.

Ei tuo 200$/kk tosin yrityksille pitäisi mikään este olla. Jo nykyinen o1 pro lisää ainakin mun tehojaenemmän kuin mitä maksaa. Mutta tietty se että mä FIREn viettäjänä puuhailen vain kotiprojekteja enkä välitä kaupallisista/yritysten intresseistä. Motivaatio puuhata aika erilainen kun tunnissa saa aikaan sen minkä ilman työkalua "päivässä". Iso nopeusloikka sen takia, että tulee tehtyä random prototyyppejä ilman että on tarkoitus tuotteistaa.
 
Viimeksi muokattu:
Tulee varmaankin osaksi nykyistä 200$/kk tilausta millä saa o1 pro ja rajattomat queryt. Jos on superkallis ajaa voi olla joku rajoite montako o3 querya saa viikossa/päivässä ja rajattomasti o3 mini. Mä maksan tuon 200$/kk tällä hetkellä. Tärkeää sekin, että o3 mini on erittäin nopea ja halpa ajaa. Silti suurinpiirtein saman tasoinen kuin tän hetkinen o1. o3 mini varmaan se mitä eniten käytetään ja ratkoo ison määrän erilaisia ongelmia.

Ei tuo 200$/kk tosin yrityksille pitäisi mikään este olla. Jo nykyinen o1 pro lisää ainakin mun tehojaenemmän kuin mitä maksaa. Mutta tietty se että mä FIREn viettäjänä puuhailen vain kotiprojekteja enkä välitä kaupallisista/yritysten intresseistä. Motivaatio puuhata aika erilainen kun tunnissa saa aikaan sen minkä ilman työkalua "päivässä". Iso nopeusloikka sen takia, että tulee tehtyä random prototyyppejä ilman että on tarkoitus tuotteistaa.

Jos O3 korvaisi devaajan, niin näkisin, että 2000e/kk olisi ok myös startupille, kuullemma siihen suuntaan tämän hintaa tulee olemaan
 
Jos O3 korvaisi devaajan, niin näkisin, että 2000e/kk olisi ok myös startupille, kuullemma siihen suuntaan tämän hintaa tulee olemaan
Aika lujasti luit mun postista ohi jos löysit sieltä ytimenä "korvata devaajan". Mun pointti oli, että jos hyvä devaaja kaikkinensa maksaa yritykselle vaikka 8000e/kk(palkka, sivukulut, pakolliset työkalut jne) niin ei paljon devaajan tehokkuuden tarvi parantua että devaajalle kannattaisi ostaa 200e/kk o3(tai o3-mini jos täysi o3 on kalliimpi) tilaus ts. kustannus yritykselle olisi 8200e/kk eikä 8000e/kk. Varmaankin 2025 on se vuosi kun koodiavustin alkaa olemaan no brainer hankinta devaajalle.

Eiköhän ainakin o3-mini variantit saa nykyisen o1 pro tilauksen hinnalla(200$/kk). Kylkeen ehkä joku rajattu määrä per viikko/päivä o3 kyselyitä. Rajattomat o3(ei mini) kyselyt palvelu voi olla tonneja/kk.
1734958913699.png
 
Viimeksi muokattu:
Aika lujasti luit mun postista ohi jos löysit sieltä ytimenä "korvata devaajan". Mun pointti oli, että jos hyvä devaaja kaikkinensa maksaa yritykselle vaikka 8000e/kk(palkka, sivukulut, pakolliset työkalut jne) niin ei paljon devaajan tehokkuuden tarvi parantua että devaajalle kannattaisi ostaa 200e/kk o3(tai o3-mini jos täysi o3 on kalliimpi) tilaus ts. kustannus yritykselle olisi 8200e/kk eikä 8000e/kk. Varmaankin 2025 on se vuosi kun koodiavustin alkaa olemaan no brainer hankinta devaajalle.

Eiköhän ainakin o3-mini variantit saa nykyisen o1 pro tilauksen hinnalla(200$/kk). Kylkeen ehkä joku rajattu määrä per viikko/päivä o3 kyselyitä. Rajattomat o3(ei mini) kyselyt palvelu voi olla tonneja/kk.
1734958913699.png
Aika lujaa luit mun postin ohitsee, en kertakaan väittänyt, että olisit niin väittänyt lol.

Minun pointtini oli, että 2000e/kk voisi olla OK yritykselle, jos olisi yksi O3 talossa.. ja jotkut huhut on tässä väittänyt ,että saattaa olla sellainen subi tulossa, näkee sitten.
 
Aika lujaa luit mun postin ohitsee, en kertakaan väittänyt, että olisit niin väittänyt lol.
Kuvittelin, että devaajan korvaaminen liittyi suoraan lainattuun postaukseen enkä sitä että lainaus on täysin irrallinen asia leipäteksistä.
 
DeepSeek v3. Näitä tulee kyllä nyt sellaisella vauhdilla.

1735137687194.png


EDIT: Virallinnen julkaisu, sinne meni Sonnetti..
 
Viimeksi muokattu:
On nämä kyllä huikeita työkaluja.

Minulla on vanha koulutuspohja, joka tukee fronttipuolen verkkokehitystä, mutta taidot ovat päässeet ruostumaan. Ymmärrän toki syntaksia ja periaatteessa "kuinka kaikki toimii", mutta en jaksa muistaa puoliakaan mahdollisuuksista ulkoa, ja täten niiden soveltaminenkin on välillä haastavaa. Modernit best practices käytännöt ovat monelta osin hukassa.

Sain hiljattain työpöydälleni erittäin tarkasti speksatun verkkosivutoteutuksen, jossa kaiken piti olla pikselilleen kuten dokumentissa on määritelty. Projektissa oli kustomoituja kuvaslidereitä, responsiivisia menurakenteita, jotka muuttuivat hampurilaisvalikoiksi ja avautuivat tietyllä tavalla animaatioineen. Esimerkkitoteutuksesta piti rakentaa paikallinen Shopify / Liquid versio, ja kaikki osiot oli suunniteltava siten, että ne olisivat loppukäyttäjän muokattavissa ja laajennettavissa teemaeditorin kautta. Ja näihin vielä sivukohtaiset trackaystoiminnot päälle.

Ajattelin eka, ettei ole ihan suoraan mun juttu. Kyselin alustavasti projektin hintalappua muutamalta tutulta toimijalta, ja meinasin lentää perseelleni. Sekä ajalliset että rahalliset arviot järkyttivät. Ei voi olla näin vaikeaa -mietin.

Halusin koittaa itse ja aloitin projektin työstämisen ChatGPT:n kanssa. Aluksi käytin versiota 4o, mutta se oli hieman raskasta, ja vuorovaikutus vaati paljon edes-takaisin vääntöä. Lisäksi siltä unohtui usein jokin tärkeä asia matkan varrella. Tein myös varmasti itse virheen pyytäessäni varmaan liian isoja kokonaisuuksia kerralla. Yhteistyö oli melko turhauttavaa ja olin lyömässä hanskat tiskiin. Päätin kumminkin antaa mahdollisuuden vielä o1:lle ja rupesin pyytämään siltä huomattavasti pienempiä osioita koodiin kerralla, tässä vaiheessa alkoi lyyti kirjoittamaan.

Opin myös itse tällä muutaman viikon matkalla taas ihan tuntuvan paljon uutta ja virkistin muistia jo olemassa olevasta. Minkä lisäksi saimme kuin saimmekin tehtyä yhdessä kaiken tarpeellisen toimivaksi ja siistiksi kokonaisuudeksi.

Pikkurahaa lopulta jopa tuollainen rajoittamattoman o1 tilauksen kuukausikustannus kun miettii, että mahdollisti kirjaimellisesti "kymppien" projektin tekemisen, minkä lisäksi tietysti opetti ja laajensi omaa osaamista tuntuvasti. Helposti voi ottaa tilauksen silloin tällöin kun tarvii jonkun projektin tueksi lisänäkemystä ja apua. Tavallaan lisää tuntuvasti myös itsevarmuutta ottaa vastaan erilaisia projekteja, kun niiden työstöön löytyy täsmä-apuri tuosta. Asiaa melko syvällisesti ymmärtävän henkilön nämäkin toki vaativat toiselle puolelle funtsimaan, testaamaan ja säätämään, mutta työn luonne tavallaan helpottuu / muuttuu tuntuvasti.
 
Viimeksi muokattu:
Advent of Code 2024 luukuista keinoäly ratkaisi 43/50. Suurin osa ratkaisemattomista oli, että ongelmassa oli kikka millä saa laskettua tuloksen nopeasti. AI ei huomannut kikkaa ja teki yritys toisensa perään brute force ratkaisun jonka suorittaminen kestää liian kauan. Suurin osa ongelmista ratkesi suoraan copy/pastesta nopeammin kuin mitä ihminen lukee ongelmakuvauksen läpi.

Claude sonnet 3.5 epäonnistui useassa luukussa minkä o1 tai o1-mini ratkaisi ilman hikoilua. Näillä näppäimillä joudun toteamaan, että adventofcode/leetcode/... algoritmisäädössä openai:n keinoäly on jo o1-sarjassa parempi tai ainakin nopeampi kuin minä. Toki minä en ole eliittitasoa noissa mutta silti,..

Keinoälyn lopputulos. Ehkä paremmin promptailemalla olisi saanut ratkottua loputkin, mutta idea oli kokeilla mihin keinoäly taipuu minimivaivalla ts. copy/paste ja "hei teit väärin, yritä uudestaan", "liian hidas, optimoi nopeammaksi, rinnakkaista ja tee c++ versio pythonin sijaan"
1735220153409.png
 
Viimeksi muokattu:
Täällä palasi palo koodaamista kohtaan, kun otin nämä käyttöön. Kaikki ne osa-alueet, mistä ei tykkää, saa hoidettua aivan vaivattomasti näillä. Itsellä nämä olivat webdev ja kaikki algotrimit joiden luomiseen oma pää ei riitä. Voi keskittyä siihen, mistä eniten diggaa. Kova.

Cursor tuntuu aikas kivalta, ainut vaan että VS Code on aika kurja käyttää C#:n kanssa. Visual Studioon saatava GitHub Copilot (ilmainen nykyään) on ihan hyvä myös, mutta aivan jäätävän hidas.

Vaikka IT-alalla olenkin, mutten koodaajana, niin jännä nähdä kyllä miten vaikuttaa alaan.. sen verta hyvin sylkee varsinkin tuota webbipuolta ulos.
 
Täällä palasi palo koodaamista kohtaan, kun otin nämä käyttöön. Kaikki ne osa-alueet, mistä ei tykkää, saa hoidettua aivan vaivattomasti näillä. Itsellä nämä olivat webdev ja kaikki algotrimit joiden luomiseen oma pää ei riitä. Voi keskittyä siihen, mistä eniten diggaa. Kova.
Mulla täysin samat fiilikset ja omat rajoitteet. Avustimet tuo niin paljon iloa puuhailuun kun saa helposti aikaan eikä tule päivän suota "tunnin" hommasta.

En malta odottaa, että tulee parempia ja parempia malleja. Jalat on odotusämpärissä o3:en suhteen. Jännä nähdä ratkooko o3 adventofcode luukkuja mitkä jäi o1 pro, claude sonnet 3.5, llama3.3b:70 jne. malleilla ratkaisematta.

---

Vaikka tämä ei ole rautaketju niin nostan silti nvidian CES-uutuuden tapetille. Digits AI-pikkulaatikko missä 128GB muistia, mediatek 20core arm prossu ja blackwell piiri. Ihan mahtava firmoihin koodereille ai-avustimeksi. Noita saa kaksi kytkettyä nopealla verkolla yhteen ja 400B malleja(fp4?) ajoon. Saisi tehtyä supernopean ei pilvipohjaisen ts. lokaalin koodiavustimen. Hinta boxilla alkaen 3000$+verot. Tuollainen boxi puhtaaseen kielimallikäyttöön ihan eri tavalla kätevä kuin vaikka 4090/5090 tai ada rtx 6000(48GB).

Kaksi tullaista boxia ja 400B mallit ajoon maksaisi varmaan saman kuin yksi hyvä devaaja kuukauden ajaksi. Paljonko tuollaisella saisi projektiin lisätehoa kun jakaa 2*boxin usean devaajan kesken? Maksaa hetkessä itsensä takaisin.

Powered by the NVIDIA GB10 Grace Blackwell Superchip, Project DIGITS delivers a petaflop of AI performance in a power-efficient, compact form factor. With the NVIDIA AI software stack preinstalled and 128GB of memory, developers can prototype, fine-tune, and inference large AI models of up to 200B parameters locally, and seamlessly deploy to the data center or cloud

Tosi pieni ja toimii normaalitöpselistä toisin kuin järeämmät ratkaisut. Silti HC nopea.
1736341229995.jpeg

 
Viimeksi muokattu:
Zuckerberg roganin podcastissa arvioi, että meta ja muut ai yritykset saavat 2025 aikana tehtyä koodihärvelin mikä toimis "mid level engineer" tasolla. Sanoi, että tuollainen olisi todella kallis ajaa, mutta halpenee tulevaisuudessa. Eletään jännän äärellä miten koodiavustimet ja ehkä agentit kehittyvät 1v-5v aikajänteellä.
 
Zuckerberg roganin podcastissa arvioi, että meta ja muut ai yritykset saavat 2025 aikana tehtyä koodihärvelin mikä toimis "mid level engineer" tasolla. Sanoi, että tuollainen olisi todella kallis ajaa, mutta halpenee tulevaisuudessa. Eletään jännän äärellä miten koodiavustimet ja ehkä agentit kehittyvät 1v-5v aikajänteellä.
Minusta nuo ennustukset on ihan roskaa. Käytänössä mid engineer olisi jo AGI.
 
Minusta nuo ennustukset on ihan roskaa. Käytänössä mid engineer olisi jo AGI.
Riippuu miten AGI: määrittelee. AI voi osata yhden jutun paremmin kuin keskiverto ihminen(esim. matematiikka o1 pro, o3 jo tänään) ja toisen asian todella huonosti/ei ollenkaan.

Uskoisin, että zuckerberg:lla on jonkinlainen näkemys asiaan kun meta on AI jutuissa aallonharjalla. Se tärkeä osa huomata tuossa on "very expensive". Se määrä mikä laskentaa tuohon tarvitaan todennäköisesti paljon kalliimpi kuin sen mid level engineerin palkkaaminen. o3 swe-bench:ssa antaa jotain osviittaa missä ollaan tänään. Vuosi sitten ai:t swe-bench:ssa käytännössä nolla.
 
On vähän harhaanjohtavaa vertailla kuluja henkilön palkkaamiseen, kun sovelluskehitystyö kuitenkin on paljon muuta kuin koodaaminen ja osaavan tiimin velositeetin pullonkaula ei välttämättä ole syntaksin kirjoittaminen. Niissä rooleissa missä olen itse toiminut on koodaaminen ollut luokkaa 20-70 %, joka tietenkin on aikaa mitä voisi tehostaa ja jota kuuluu käyttää tuohon hintavertailuun.
 
Oikeaan suuntaan ollaan menossa kuitenkin työn tehostamisen kanssa, AIt osaavat jo kohtalaisesti kirjoittaa commit messageja, ja jopa pitämään osittaista kirjaa palavereista. Seuraavana lienee erilaisten testisuunnitelmien ja projektiselosteiden kirjoittelu AI:n avustamana (ehkä AI Scrum master?). Todella hyödyllistä olisi, jos jostain saisi etäpalaveri- ja tuntikirjanpitoAIn.
 
On vähän harhaanjohtavaa vertailla kuluja henkilön palkkaamiseen, kun sovelluskehitystyö kuitenkin on paljon muuta kuin koodaaminen ja osaavan tiimin velositeetin pullonkaula ei välttämättä ole syntaksin kirjoittaminen. Niissä rooleissa missä olen itse toiminut on koodaaminen ollut luokkaa 20-70 %, joka tietenkin on aikaa mitä voisi tehostaa ja jota kuuluu käyttää tuohon hintavertailuun.
Mun tarkoitus ei ollut kuluvertailu siinä mielessä että ihminen korvattaisiin. Kulun toin esille, kun näyttää siltä että antamalla neuroverkkojen kuten o1/o3/claude sonnet3.5 jauhaa kauemmin saadaan parempia tuloksia ulos. Kertoo että ei olla osuttu vielä seinään mihin ai skaalaantuu ja algoritmipuolella olisi parannettavaa että saataisiin ajoaikaa alaspäin.

Claude sonnet 3.5:en saivat käyttämällä merkittävästi ememmän laskenta-aikaa skaalaantumaan 20% paremmaksi swe-bench:ssa. 60% SOTA tulos swe-bench:. lähde: SOTA on swebench-verified: (re)learning the bitter lesson

Epäilen, että isot rikkaat firmat joilla on omat konesalit voivat jättää konesaleja jauhamaan taskeja samalla kun ihmiset keskittyvät juurikin siihen muuhun osaan työstä kuin mekaaniseen naputteluun. Backlogia lyhemmäksi koneavustimella? Enemmän laskenta-aikaa tuntuu olevan myös tie mitä o3 tarjoilee paksulompakkoisille. Joku google, microsoft, nvidia jne. voivat löytää myös idle aikaa supertietokoneistaan mihin voi laittaa backlogista taskeja ajoon. Hullua ajatella, miten paljon esimerkiksi nvidialla on supertietokonetta sisäisesti käytössä, maa/maanosa tason toimijatkaan ei välttämättä omista vastaavia myllyjä. Nvidian uusin 500M$ israeliin: Nvidia to plow $500M into Israel R&D cluster

---

Google refaktoroi koodia ai: avulla. Ei taikaluoti, mutta säästi about puolet aikaa. Googlelta selitystä ai:n avulla refaktoroinnista linkin päässä
With LLM assistance, it took just three months to migrate 5,359 files and modify 149,000 lines of code to complete the JUnit3-JUnit4 transition. Approximately 87 percent of the code generated by AI ended up being committed with no changes.

Oikeaan suuntaan ollaan menossa kuitenkin työn tehostamisen kanssa, AIt osaavat jo kohtalaisesti kirjoittaa commit messageja, ja jopa pitämään osittaista kirjaa palavereista. Seuraavana lienee erilaisten testisuunnitelmien ja projektiselosteiden kirjoittelu AI:n avustamana (ehkä AI Scrum master?). Todella hyödyllistä olisi, jos jostain saisi etäpalaveri- ja tuntikirjanpitoAIn.
Testasin advent of codeen(Advent of Code 2024) niin o1 ratkaisi 44/50 luukkua. Kaikenlaiset kuvauksesta algoritmi jutut AI tekee jo nyt todella hyvin koodiksi. Yksikkötestien luonti, koodirefaktorointi toimii myös hyvin. Dokumentaation seulominen ja kysymyksiin vastailu ja protokoodit saa ai:lta paremmin kuin googlelta/stack overflow. AI code complete maagisen hyvä. Mielenkiinnolla odotan mitä o3 tuo kun se nostaa swe bench tuloksen 70% pintaan. Swe-bench mittaa miten hyvin ai-agentti saa ymmärrettyä ja toteutettua open source projektien github tikettejä. Vuosi sitten ai-agentit sai 0% tiketeistä tehtyä, o3 nostaa tuon 70%:iin kun tulee ulos loppukuusta.
 
Viimeksi muokattu:
Muuttuisikohan tuo o1:n AoC ratkaisukyky jos githubissa ei olisi satoja ratkaisuja kaikkiin tehtäviin? Eikö tuo kuitenkin ole ns. livemalli?
 
Muuttuisikohan tuo o1:n AoC ratkaisukyky jos githubissa ei olisi satoja ratkaisuja kaikkiin tehtäviin? Eikö tuo kuitenkin ole ns. livemalli?
Ei ole livemalli tuossa mielessä. Luukut tulevat yksitellen tarjolle tiettynä ajanhetkenä ja kokeilin ratkoa niitä heti. Ne mitkä ei ratkenneet heti ei ratkea tänäänkään eli en usko, että on o1:sta fine tunetettu 2024 advent of coden osalta. O3:ssa 2024 advent of code saattaa olla mukana opetusdatassa.

Samaa voi testata esim. keväällä ja syksyllä laajan matematiikan ja fysiikan tehtävillä. O1 pro ratkoo ne ilman mitään ongelmaa. Mallit alkavat oikeasti olemaan aika hyviä ratkomaan jos ongelma on hyvin kuvattu. Laskenta-aikaa lisää antamalla + työkalut(käännä koodi, aja koodi, katso tulos) mallit skaalaa tosi pitkälle mutta erittäin kalliita ajaa.

Mun on vaikea kuvitella enää koodaavani ilman AI-avustinta. Mielenkiinnolla seurailen ja testailen miten avustimet kehittyvät 2025. Saadaanko agentteja kotikoneisiin ajoon jotka osaisivat loopin kysy tarkennuksia, generoi koodi, käännä, testaa, katso tuloste - generoi koodi,. Agentti jää ajoon taskin kanssa kun lähtee nukkumaan ja aamulla kasa jotain tarjolla.
 
Viimeksi muokattu:

Koodaajat unohtavat miten koodataan kun käytetään avustimia ilman rajoituksia.

Tämä tuskin on hirveä ongelma kokeneille ja kannuksensa keränneille, mutta voiko ikänsä chatgpt:llä koodanneesta tulla koskaan firman johtavaa softa-arkkitehtiä?

Vai käykö niin, ettei arkkareitakaan tarvita kun kontekstia voi aina laajentaa ja lyödä vaan ”refactor whole codebase” ja koko tuote kirjoittautuu uusiksi seuraavaan päivään mennessä jos skaalautuvuus loppuu tjsp?
 
Junioreita ei enää tarvita. Eli jos uusia junioreita ei synny, ei tule myöskään uusia senioreita. Mutta eihän tuo haittaa, koska senioritkin korvataan varmasti jossain vaiheessa.. nyt ollaan jo hyvin vaiheessa missä arvostetaan senioreita promptaus skilleillä.
 
Voipi olla, että juttuja voi tehdä ihan yhtälailla kuin autoa voi ajaa vaikkea osaisi rakentaa tyhjästä moottoria.

Paljon varmaan tulee mahdollisuuksia tehdä softia lisää kun pienempien työkalujen tekeminen halvempaa kuin ennen. Ehkä juniorit tekee pikkusoftia ja sennut isompia.

Seuraava askel lienee agentit jotka itsenäisesti väsäävät. Ihmiselle jää tech lead/arkkitehti positio?
 
AI 4GL ohjelmointiympäristö? Piirrät vain vuokaavion ja AI koodaa sen. Mielenkiintoisia tuotoksia varmasti luvassa, hyvässä ja pahassa.
 
AI 4GL ohjelmointiympäristö? Piirrät vain vuokaavion ja AI koodaa sen. Mielenkiintoisia tuotoksia varmasti luvassa, hyvässä ja pahassa.
Varmaan ennemminkin opetetaan ihmisiä tekemään speksit oli se sitten ui design, vaatimukset tai jira-tiketti tavalla joka mahdollistaa ai agentin toimivan fiksusti. Sitten iteroidaan. Ihminen tekee sen mitä kone ei vielä osaa. AI:n voi käskeä tuottamaan ensin designin dokumenttien pohjalta, iterointia. Lopuksi käskee muuttamaan suunnitelman koodiksi.

Swe-bench mittaa miten hyvin ai toteuttaa open source projektien github-tikettejä. Vuosi sitten ai 0%, openai:n o3 70%: SWE-bench
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
266 103
Viestejä
4 605 072
Jäsenet
75 764
Uusin jäsen
Voippari

Hinta.fi

Back
Ylös Bottom