AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Miksuu · 04.12.2025

finWeazel sanoi:
On niissä paljon eroja jopa samankin mallin sisällä. Esim. clauden uusin opus niin sitä voi ajaa erilaisilla määrillä "työtä". Suosittelevat, että isoihin taskeihin/suunnitteluun high ja kun on palasteltu niin medium:lla toteutusta. Kuvassa opus 4.5 mallin suorituskyky swe-bench:ssa eri "työ" parametrilla.

Eri työkaluista kun käyttää malleja niin asetuksia on voitu optimoida eri tavalla(kontekstin koko, effortti, jne). Työkalun sisässä on prompti kielimallille ja logiikka mitä/miten työkalu laittaa kontekstiin. Sama malli samoilla asetuksilla voi toimia eri tavalla työkalusta riippuen. Jopa sillä, että importtaa sairaan määrän mcp-servereitä ja työkaluja kontekstiin voi myrkyttää mallin osaamisen ja käytettävien tokeneiden määrä kuuhun==kallista.

Ei olla vielä semmoisessa "it just works" ajassa. Jos/kun joku ei onnistu niin voi katsella, että toimisko eri mallilla/eri tavalla homman alustamalla vai onko vielä tekemätön paikka AI:lle.

Nyt alkaa silmät painaa liikaa ja liikaa infoa näihin tunteihin mun pienille avoille, ni mä harrastan viikonloppuna lisää

varsinkin ko si nähny kuinka yö automatio nyt toiminut fiksausten jälkeen
Edit toki siinä tehdesaäkin huomasin et ohitti välillä koko koodin ja keskittyi vain juuri ongelmaan, ja piti ohjeistaa palauttamaan koko kokonaisuus. Mut se oli helpoa. Niin ja sillon ollu viellä got repoa, ihan filua luki ja chatissa annoin jsonia node rediltä. Ni paikkas siis vaan yhen ongelman yksin ja muut toiminnot siis jäi pois, mut kun huomautti tuntui tulevan toimiva kokonaisuus

mlackke · 04.12.2025

finWeazel sanoi:
OpenAI julisti jonkin "code red" tilan, huhuttu että ihan asap. tulossa ulos jotain paremmaksi tuunattua mallia.

Luin että joku paniikki OpenAI:lla kun muut mallit menivät sivusta ohi. En usko että ihan heti pystyvät paremman tekemään ellei tule joku purkkaratkaisu.

finWeazel · 04.12.2025

mlackke sanoi:
Luin että joku paniikki OpenAI:lla kun muut mallit menivät sivusta ohi. En usko että ihan heti pystyvät paremman tekemään ellei tule joku purkkaratkaisu.

Altman sanoi joskus syksyllä, että heillä olisi parempia malleja mutta ei riitä konesalissa kapasiteetti niiden tarjoamiseen isolle massalle. Voi olla, että kaivavat jonkin tuollaisen naftaliinista ja ottavat lyhytaikaisesti turpaan kalliin mallin kanssa jota ei voi tarjota kaikille.

Eilen kuuntelin anthropicin CEO:n jutustelua. Se siunaili, että hyvä juttu että tuli valittua enterprise asiakkaat niin ei tarvi openai/google nokitteluun osallistua vaan voi tehdä vähän pitkäjänteisemmin. Ilmeisesti anthropicin isompi asiakasmassa ei ryntää joka rasahduksen perässä palvelusta toiseen.

Sparky · 05.12.2025

Claude codessa on Opus 4.5 oletuksena päällä, mutta se automaattisesti tekee simppelit asiat Haiku-agentilla. Nopeuttaa paljon eikä kuluta pääagentin kontekstia.

mlackke · 05.12.2025

El Toro sanoi:
Tuohon tulee kyllä hyvin intuitio, nykyään aina takaraivossa jyskyttää "tähän tarvii Codex Max Extra highillä, tuohon Gemini, tätä pitää selvittää Grokilta..".

Samoilla linjoilla, itse lajittelen hommat näin:

Pieni taski: pieni konteksti, "lähdemateriaali" selkeä ja lopputulos helppo/nopea määritellä (ei oikeastaan tarvitse plan-modea) > Haiku.

Keskikokoinen taski: Vaatii suunnitelman, jota pitää iteroinnissa hieman hioa. Lopputuloksen määrittely voi jäädä osittain avoimeksi, koska se voi olla monivaiheinen tai kompleksinen > Opus/Sonnet.

Iso taski: Tarvitsee useamman iteraation, lopputulosta on vaikea tarkasti määritellä, mutta lähtökohtaisesti odotetaan, että se menee kuitenkin sinnepäin, joten palastellaan pienempiin osiin myöhemmin > GPT 5.1.

B12 · 06.12.2025

En ole koodari tai edes sinne päin. Joskus jotain simppeliä HTML:ää ja sitten nuorempana töissä CNC-ohjelmoijana pari vuotta.

Ihan siis maallikkona koneinsinöörinä ajauduin kokeilemaan miten tekoäly osaa koodata Shelly releen skriptiä. Kokeilin ensin Copilotilla ja kyllähän se koodia väänsi ja ehdotteli kaikkea. Pyysin skriptin, jolla säädän auton lämmityksen ajastinta seuraavan aamun sääennusteen mukaan. Copilot teki koodin ja sitten ihan huvikseni annoin sen chatgpt:lle. chatgpt ehdotti parannuksia, jotka käskin tekemään ja korjasi pari virhettä. Ihan leikkimielellä käytin vielä Githubin Copilotin kautta, joka sitten teki omia ehdotuksiaan ja halusi palauttaa yhden MS Copilotin tekemän alkuperäisen virheenkin. Muutaman kerran leikittelin edestakaisin ja "kilpailutin" tekoälyjä. tekoäly korjasi virheet tosi hyvin, kun vain pastetti virheilmoituksen.

Skriptillä mittaa n 300 riviä ja toimii suunnitellusti. Siis en osaa koodata Shellyn koodia, mutta toki jotakin ymmärrän koodia lukemalla. Tekoälyn avulla tein toimivan skriptin ihan maallikkopohjalta.

mlackke · 06.12.2025

finWeazel sanoi:
Voi olla, että kaivavat jonkin tuollaisen naftaliinista ja ottavat lyhytaikaisesti turpaan kalliin mallin kanssa jota ei voi tarjota kaikille.

Huhut kertoo, että GPT 5.2 julkaisu ensi-viikolla..

Tuomi0 · 06.12.2025

mlackke sanoi:
Huhut kertoo, että GPT 5.2 julkaisu ensi-viikolla..

Mielenkiintoista, itellä ollu jonkun aikaa 5.1 maksullinen. Olen testaillut asiakirjoilla ja kuvien rajauksia ymv. Periaatteessa logiikka on olemassa, mutta ne toimivat hyvin epäsäännöllisesti. Jostain syystä esim. jos pyydä rajaamaan kuvan, niin ensimmäinen on lähellä ja sen jälkeen progressiivisesti huonompaan suuntaan. Vaikka pyytää nollaamaan tilanteen, välillä nollauksissa pyytää lähettämään kuvan uudelleen ym.

Asiakirjoissa ei toistaiseksi ole tullut mitään hyötyä, mutta kokeilen seuraavalla kerralla AI ystävällisempiä versioita. Yritin siis käyttää niitä kuten assistenttia, annan yksinkertaisen hieman aikaavievän tehtävän.

Sparky · 12.12.2025

Sieltähän se 5.2 tuli, hyvin pärjää benchmarkeissa.

finWeazel · 12.12.2025

Sparky sanoi:
Sieltähän se 5.2 tuli, hyvin pärjää benchmarkeissa.

Mielenkiintoinen oli uusi swe-bench pro missä on muitakin ohjelmointikieliä kuin python ja vaikeampia tehtäviä.

swe-bench-verified tuloksia ja hinta millä tulos on saatu. Tästä puuttuu mallien ajo parhailla asetuksilla

mlackke · 12.12.2025

finWeazel sanoi:
Mielenkiintoinen oli uusi swe-bench pro missä on muitakin ohjelmointikieliä kuin python ja vaikeampia tehtäviä.

Summarum, taidan katsoa jatkossa vain SwePro tuloksia johtuen noista syistä. Lisää infoa:
SWE-Bench Pro (Public Dataset)

Ja huomaa kyllä, että eipä mallien ratkaisuprosentit 80% tuntumassa:

Tosin kyllä hämmentää että GPT 5.2 luvataan 55.6% ratkaisuprosenttia, GTP 5.1 50.8%, mutta eipä tuloksia näy.

finWeazel · 12.12.2025

mlackke sanoi:
Tosin kyllä hämmentää että GPT 5.2 luvataan 55.6% ratkaisuprosenttia, GTP 5.1 50.8%, mutta eipä tuloksia näy.

Taitaa olla vähän petkuhuijausta ja optimoivat erityisesti benchmarkkeihin malleja. Toiset enempi, toiset vähempi. Varsinkin open source lokaalimallit niin osaavat jotain leetcode tehtäviä mitkä opetusdatassa tosi hyvin mutta kun antaa oikeaa tehtävää niin hajoavat täysin.

finWeazel · 12.12.2025

Mistralilta koodaukseen tarkoitettu 123B malli + työkaluja. Näinköhän joutuu pian lopettamaan jankkaamisen siitä ettei ole olemassa lokaalisti edes pienissä projekteissa hyvin toimivia koodiavustimia

On Tuesday, French AI startup Mistral AI released Devstral 2, a 123 billion parameter open-weights coding model designed to work as part of an autonomous software engineering agent. The model achieves a 72.2 percent score on SWE-bench Verified,

it released a new development app called Mistral Vibe. It’s a command line interface (CLI) similar to Claude Code, OpenAI Codex, and Gemini CLI that lets developers interact with the Devstral models directly in their terminal. The tool can scan file structures and Git status to maintain context across an entire project, make changes across multiple files, and execute shell commands autonomously. Mistral released the CLI under the Apache 2.0 license.

A new open-weights AI coding model is closing in on proprietary options

Devstral 2 model scores 72% on industry benchmark, nearing proprietary rivals.

arstechnica.com

edit. Näyttää olevan devstral2 isona ja pienempänä versiona ollamassa tarjolla. Vois tuolle syöttää muutaman adventofcode tehtävän ja katsoa ratkaiseeko vai ei

finWeazel · 12.12.2025

Ei tarvi 123B devstralia kuvitella käyttävänsä 5090:lla. Teki sitten oikein tai väärin niin ei universumissa riitä aika tällä minkään tekemiseen. Tarvii kokeilla jaksaako macbook pro m4 max paremmin kun siinä ainakin muisti riittäisi paremmin. Tuskin sekään on ... nopea ...

Linkki: https://www.youtube.com/watch?v=d9iZO-DMHIY

m4 max:lla paljon nopeampi kuin 5090:lla(muisti riittää). Silti niin hidas, että ennemmin maksaisin pilvestä kuin kärsisin tämän kanssa.

Linkki: https://www.youtube.com/watch?v=anwphFzezr4

AkiL · 18.12.2025

Töissä ollut nyt jonkun aikaa (jokusen kuukauden) käytössä GitHubin CoPilot. Opettelua siis vielä. Yksittäinen kurssi käyty asian parissa, plus harrastuneisuutta vähän chatgpt:n ilmaisen webbiversion kautta jonkun verran. Hyvin minimaalisesti ehtinyt vielä lukea best practiceistä, yms. saati edistyneemmistä asioista, kuten MCP:istä.

Koodipohja (jonka kanssa joudun elämään toistaiseksi) on siis legacy webbisofta koostuen sadoista perl-scripteistä (joita kutsutaan Apachen kautta cgi-scripteinä). Parhaimmillaan yksi scripti on muutaman sata riviä, pahimmillaan 10k riviä. Lähes täysin "pötkökoodia", subeja on korkeintaan johonkin "muodosta timestamppi just meidän tarvitsemassa formaatissa". Olio-ohjelmoinnista ei tietoakaan. Oikea painajainen siis. Oikeita kirjastoja ei siis ole tehty tähän softaan, vaan jotain hyödyllisiä subeja kerätty "kirjastoon", joka "käännöksessä" concatenoidaan alkuperäiseen scriptiin.

Alasajo-moodissa, korvataan tuoreemmilla tuotteilla. Uutta toiminnallisuutta ei tule tehtyä muutoin kuin pakottavissa tilanteissa ("tämä toiminnallisuus on pakko saada just-nyt-heti, jo ennenkuin korvaava toteutus tälle koko ominaisuus-modulille tulee").

Uudet ominaisuudet (lähinnä pieniä pakottavia muutoksia, uusia kenttiä lomakkeisiin, muutama pieni uusi työnkulku käyttäjälle, jne...) muodostuu kyllä mun kokemuksen mukaan kohtuullisen näppärästi pohjalla olevan scriptin pituudesta riippumatta oikeastaan millä tahansa mallilla. Välillä olen kokeillut tehdä saman homman vertailun vuoksi eri malleilla, eikä tuloksissa sinänsä mitään merkittävää eroa. Katselmointi näyttää olevan hyvin tärkeää, mallista riippumatta. Vaikkei varsinaisia virheitä ehkä sinänsä koodissa ole ollut, tulee katselmoidessa hyvin ilmi promptin puutteet. Hauskaa on myös huomata, että eri mallit näyttävät katselmoivan koodia ihan pätevästi, vaikka en uskallakaan ulkoistaa muutosten katselmointia pelkästään kielimalleille. Katselmoinnissa huomatut virheet (promptin puutteet tai oikeasti virheet tuotetussa koodissa) korjautuu myös näppärästi. Mutta jos samaa muutosta/koodia iteroi monia kertoja (kymmeniä prompteja samaa asiaa parantaen, lisäten, korjaten), olen huomannut että parempi jatkaa taas uudella tyhjällä historialla. Jostain syystä samoja virheitä, joita on jo korjattu, alka palaamaan koodiin takaisin uusien muutosten myötä, ellei ihan spesifisti promptaa, että "korjaa vain ja ainoastaan just tämä yksi spesifi ongelma, äläkä koske yhtään mihinkään muuhun".

Vanhan koodin debuggauksessa ja analysoinnissa (virhetilanteessa, "analysoi miksi ja missä tilanteissa tämä scripti voi päätyä lopputulokseen x-ja-y") eroja sen sijaan alkaa muodostua selkeästi eri kielimallien kanssa. Itse olen Clauden Sonnetista (meillä käytössä olevista malleista) eniten vakuuttunut, GPT5 mini tuntuu alkavan hidastua ja sekoilemaan hyvin äkkiä tuollaisten pitkien pötkökoodien kanssa.

Sparky · 18.12.2025

Claude on paras, mutta siinäkin pitää huomioida konteksti-ikkunan täyttyminen, eli aloittaa uusi sessio kun edellinen on täynnä. Lisäksi hyvä olla claude.md tms ohjetiedosto joka selittää perusasiat mallille uuden session alkajaisiksi.

tjkoo · 18.12.2025

Sparky sanoi:
Claude on paras, mutta siinäkin pitää huomioida konteksti-ikkunan täyttyminen, eli aloittaa uusi sessio kun edellinen on täynnä. Lisäksi hyvä olla claude.md tms ohjetiedosto joka selittää perusasiat mallille uuden session alkajaisiksi.

Ei ole, GPT 5.2 on parempi nykyään, claude on vanhentunut.

kaenkky · 18.12.2025

Käytin tänään töissä codexissa gpt 5.2:sta ja 5h päiväaika loppui epäaktiivisella käytöllä alle neljässä tunnissa. Codexi keksi viimeisellä promptilla ratkaisun makroon jota olen kauan halunnut saada toimimaan. Codex ei vain kertonut miten makro toimii ja ei ottanut enää prompteja vastaan:

Ensin näytti että se kirjoitti +300 riviä koodia, joka näytti maailman tyhmimmältä - mutta testasin ensin toimivaksi ja piti alkaa rivi riviltä käymään läpi niin se oli epäintuitivinen mutta samalla erittäin kompakti tapa ratkaista ongelma

finWeazel · 18.12.2025

kaenkky sanoi:
Käytin tänään töissä codexissa gpt 5.2:sta ja 5h päiväaika loppui epäaktiivisella käytöllä alle neljässä tunnissa. Codexi keksi viimeisellä promptilla ratkaisun makroon jota olen kauan halunnut saada toimimaan. Codex ei vain kertonut miten makro toimii ja ei ottanut enää prompteja vastaan:

Ensin näytti että se kirjoitti +300 riviä koodia, joka näytti maailman tyhmimmältä - mutta testasin ensin toimivaksi ja piti alkaa rivi riviltä käymään läpi niin se oli epäintuitivinen mutta samalla erittäin kompakti tapa ratkaista ongelma

Eikun selittään esiolennolle miten kannattaa maksaa AI:sta enempi että työteho lisääntyy. Kalliimmissa tilauksissa enempi tokeneita +pro malli. Viime kädessä APIn kautta euroilla niin paljon tokeneita lisää kuin haluaa.

kaenkky · 18.12.2025

finWeazel sanoi:
Eikun selittään esiolennolle miten kannattaa maksaa AI:sta enempi että työteho lisääntyy. Kalliimmissa tilauksissa enempi tokeneita +pro malli. Viime kädessä APIn kautta euroilla niin paljon tokeneita lisää kuin haluaa.

Ei minulla varsinaisesti työteho ole ainakaan vielä kasvanut vibettäessä. Ihan hyvä että jotain rajoja on.

Ai:lla vaan tulee kokeiltua asioita mitä ei muuten kerkeä tekemään. Viimeiset pari viikkoa töissä on kyllä ollut varsinaisten työtehtävien kanssa hyvinkin luokattomia. Ai vielä työllistää minua enemmän kuin minä Ai:ta

finWeazel · 18.12.2025

kaenkky sanoi:
Ei minulla varsinaisesti työteho ole ainakaan vielä kasvanut vibettäessä. Ihan hyvä että jotain rajoja on.

Ai:lla vaan tulee kokeiltua asioita mitä ei muuten kerkeä tekemään. Viimeiset pari viikkoa töissä on kyllä ollut varsinaisten työtehtävien kanssa hyvinkin luokattomia. Ai vielä työllistää minua enemmän kuin minä Ai:ta

Pahoittelut, kuvittelin että sun skripta oli joku työjuttu jonka jatkaminen vaikeutui kun loppui tokenit. Kalliin tilauksen mukana tuleva pro malli kyykyttää perus gpt5.2:sta koodaus/skriptausjutuissa.

kaenkky · 18.12.2025

finWeazel sanoi:
Pahoittelut, kuvittelin että sun skripta oli joku työjuttu jonka jatkaminen vaikeutui kun loppui tokenit. Kalliin tilauksen mukana tuleva pro malli kyykyttää perus gpt5.2:sta koodaus/skriptausjutuissa.

Niinhän siinä kävikin, mutta oikeastaan olisin varmana tehnyt makron korvaavan koodin 5x lyhyemmässä ajassa, makro ratkaisi geneerisen ongelman ja nyt minun pitää jatkossa kutsua vain makroa. Pitkällä aika välillä nopeuttaa, mutta käytännössä työt seisoo kun koitan saada AI:ta toimimaan mieleni mukaan

finWeazel · 19.12.2025

kaenkky sanoi:
Niinhän siinä kävikin, mutta oikeastaan olisin varmana tehnyt makron korvaavan koodin 5x lyhyemmässä ajassa, makro ratkaisi geneerisen ongelman ja nyt minun pitää jatkossa kutsua vain makroa. Pitkällä aika välillä nopeuttaa, mutta käytännössä työt seisoo kun koitan saada AI:ta toimimaan mieleni mukaan

Tässä voi miettiä, että olisiko pro malli säästänyt paremmin aikaa versus perus 5.2. Jossain määrin AI on myös taito mitä tarvii opetella. Ne jotka hylkää AI:n niin käy kuin hevosmiehillä auton aikaan vaikka pitääkin aluksi opetella uusi juttu.

Joku 200e/kk pro:sta nyt ei kummoinen hinta ole kun vertaa mitä moni työnantaja maksaa työntekijästä kuukaudessa(palkka, sivukulut, työkalut). Ei tarvi kummoinen juttu tapahtua AI:n avulla per kuukausi niin työkalu maksanut itsensä takaisin. AI:n voi jättää myös agenttimoodissa nikkaroimaan vaikka testejä tms. kun menee itse lounaalle tai nukkumaan.

mlackke · 19.12.2025

tjkoo sanoi:
Ei ole, GPT 5.2 on parempi nykyään, claude on vanhentunut.

Ei ole parasta mallia, GPT 5.2 on paljon huonompi tietyissä asioissa mitä Claudet.

kaenkky sanoi:
Niinhän siinä kävikin, mutta oikeastaan olisin varmana tehnyt makron korvaavan koodin 5x lyhyemmässä ajassa,

Jos oletetaan koodin tekoon menee 25min AI:lla ja sinulla 5min. Kun koodin on valmis, sitten pitäisi vielä kirjoittaa yksikkötestit,readme,ajaa lintterit ja korjata mahdolliset virheet...jne

Lopputulos: AI on saanut homman valmiiksi 45min kohdalla, sinä naputat readme:ta vielä lounaan jälkeenkin.

tjkoo · 19.12.2025

mlackke sanoi:
Jos oletetaan koodin tekoon menee 25min AI:lla ja sinulla 5min. Kun koodin on valmis, sitten pitäisi vielä kirjoittaa yksikkötestit,readme,ajaa lintterit ja korjata mahdolliset virheet...jne

Lopputulos: AI on saanut homman valmiiksi 45min kohdalla, sinä naputat readme:ta vielä lounaan jälkeenkin.

Kyllähän tuo AI:n tuotos pitää käydä rivi riviltä läpi kuitenkin, mukaan lukien ne readme:t, eli voidaan laskea AI:n työ = AI:n työ + oma työ.

2112 · 19.12.2025

Mitkäs ovat tällä hetkellä parhaita käytäntöjä näiden välineiden eristämiseen, etteivät ne lue mitä tahansa tiedostoja sieltä levyltä tai suorittele mitä tahansa komentoja?

Aiderilla oletusmenetelmä taitaa olla se, että jokainen tiedosto lisätään kontekstiin erikseen tai ainakin se kyselee lupia sellaisten tiedostojen lukemiseen, joita käyttäjä ei ole vielä lisännyt. OpenCode tekee paljon itsenäisemmin hommia; tuohon virittelin konttia, jonka sisällä OpenCodea voisi ajaa eristettynä muusta kuin siitä koodista, johon se tarvitsee pääsyn. OpenCode taitaa myös nykyisellään pääasiassa kysellä lupaa komentorivin käyttämiseen, mikä varmaankin vähentää riskiä näiden "liian omatoimisten" toimenpiteiden suorittamiseen. Mutta on tässä varmaan jotain muutakin huomioitavaa. Mitä välineitä väki täällä käyttää?

finWeazel · 19.12.2025

tjkoo sanoi:
Kyllähän tuo AI:n tuotos pitää käydä rivi riviltä läpi kuitenkin, mukaan lukien ne readme:t, eli voidaan laskea AI:n työ = AI:n työ + oma työ.

Järkevissä firmoissa ihmisten tuotokset käydään myös rivi riviltä läpi(koodiarvostelu) + ci putkessa automatisoidut testit yms. Toki on niitäkin pajoja missä on trust me bro meininki ja koodit sisään ilman arviointia. En ennusta trust me bro pajoille hyvää tulevaisuutta jos firma kasvaa tai vaihtuu tekijä huonompaan jne. AI koodiarvostelijana voi auttaa samalla tapaa kuin lintterit, staattiset analysaattorit yms. Mitä parempaa menee arvosteluun sitä vähempi turhaa kähinää vertaisarvioinnissa ja vähemmän iteraatioita.

finWeazel · 19.12.2025

Eilen tuli gpt5.2-codex versio

In SWE-Bench Pro⁠⁠⁠⁠, a model is given a code repository and must generate a patch to solve a realistic software engineering task. Terminal-Bench 2.0 is a benchmark for testing AI agents in real terminal environments. Tasks include compiling code, training models and setting up servers

https://openai.com/index/introducing-gpt-5-2-codex/

mailbag · 19.12.2025

Jostain syystä vscode+cline+openrouter alkanut yskimään paljon viimeaikoina niin kokeilin googlen anti gravityä, tämähän on näköjään vscode forkki ja tätä kautta voi käyttää kaikkia googlen uusia malleja ilmaiseksi tällä hetkellä vissiin ilman mitään rajoja, gemini 3 pro:lla kasailin kaikenlaisia projekteja, aika hyvä fiilis jäi siitä.

jak_pdgm · 20.12.2025

Copilotin ilmaisversion käyttökerrat loppui lyhyeen, kannattaako maksaa pro-versiosta vai saako samalla hinnalla tai ilmaiseksi jotain parempaa vscodeen integroitua? Käyttö harrastekoodailu C:llä, mielestäni tuosta on ollut ihan jopa hyötyä.

mlackke · 20.12.2025

finWeazel sanoi:
Eilen tuli gpt5.2-codex versio

https://openai.com/index/introducing-gpt-5-2-codex/

Oliskohan OpenAI:lla ylitarjontaa mallien suhteen, on low/high,codexia/max turbo codexia, mutta kumminkin erot niin pieniä että voidaan laskea virhemarginaaliin piikkiin.

Eiköhän Claude 5 tule 6kk sisään ja parannukset 10%+

mlackke · 20.12.2025

jak_pdgm sanoi:
Copilotin ilmaisversion käyttökerrat loppui lyhyeen, kannattaako maksaa pro-versiosta vai saako samalla hinnalla tai ilmaiseksi jotain parempaa vscodeen integroitua? Käyttö harrastekoodailu C:llä, mielestäni tuosta on ollut ihan jopa hyötyä.

No jos tuo Google AG on ilmainen niin menisin sillä.

mailbag · 20.12.2025

Mulle tuo AG sanoi että ilmainen ja unlimited mutta tänään huomasin että oli iskenyt ainakin 3 Pro High mallille limitit päälle ja käytti uutta flash mallia että tiedä häntä.

finWeazel · 20.12.2025

mlackke sanoi:
Oliskohan OpenAI:lla ylitarjontaa mallien suhteen, on low/high,codexia/max turbo codexia, mutta kumminkin erot niin pieniä että voidaan laskea virhemarginaaliin piikkiin.

Eiköhän Claude 5 tule 6kk sisään ja parannukset 10%+

Osa noista on vain pieniä tuunauksia reasoning parametreihin. Toinen puoli, että minimallit on aika pakollinen kun isojen ajaminen kallista. Nykyään kun on paljon post training härveleitä niin voi siltäkin puolelta tulla samoille pohjille ok. kustomointia. En siis näe pahana, että tehdään monta versiota.

Varmaan seuraava iso epäjatkuvuuskohta kun tulee nvidian GB300:lla opetetut mallit. Muistimäärät pompsahtaa ylöspäin kiihdyttimissä mikä toivottavasti auttaa opetuksen lisäksi myös siinä että saadaan entistä isompia malleja. Ensimmäinen GB300 opetettu malli taitaa tulla xai:lta alkuvuodesta. Varmaan muutkin kerkeää ennen kesää riippuen ja roikkuen millon saivat konesalit jiiriin. Voluumimyyntihän noilla alkoi q3:lla.

mlackke · 20.12.2025

finWeazel sanoi:
Osa noista on vain pieniä tuunauksia reasoning parametreihin. Toinen puoli, että minimallit on aika pakollinen kun isojen ajaminen kallista. Nykyään kun on paljon post training härveleitä niin voi siltäkin puolelta tulla samoille pohjille ok. kustomointia. En siis näe pahana, että tehdään monta versiota.

Toki pitää olla pieniä ja isoja malleja, esim itsellä 75% tokeneista palaa haikun kanssa, koska nopeus/hyöty...tjsp on todella hyvä.

Mutta jos low/med/high/xhigh ja vielä joku codex erikoisversio niin tuleeko niiden välillä, esim medium vs codex selvää eroa normikäytössä kun en ole itse vaivautunut testaamaan? Benchmarkit toki sanoo % sinne tänne, mutta näkyykö ne käytännössä missään.

finWeazel · 20.12.2025

mlackke sanoi:
jos low/med/high/xhigh ja vielä joku codex erikoisversio niin tuleeko niiden välillä, esim medium vs codex selvää eroa normikäytössä kun en ole itse vaivautunut testaamaan? Benchmarkit toki sanoo % sinne tänne, mutta näkyykö ne käytännössä missään.

Noi low, med,... varmaan ihan sama malli mitä ajetaan eri tavalla. Reasoning yksinkertaistetusti sellaista, että ajetaan samaa kyselyä rinnakkain x-kappaletta, katsotaan vastaukset, valitaan paras vastaus ja ajetaan uudestaan x-kertaa mallia vastauksen parantamiseksi. Mitä enempi efforttia sitä enemmän ajetaan looppia.

Ainakin vielä on ihan selkeetä näyttöä että kustomoitu malli on parempi kuin geneerinen. Mallin opettaminen jaetaan kolmeen osaan, pretraining, training, post training. Post training on tärkeä osa nykyään. Ajoituksen pohjalta veikkaan että codex on sama malli kuin 5.2 mutta tehty post training kikkailua jolla kustomoidaan geneerisestä mallista rajatumpi paremmin koodaamista osaava malli. On tämä järkevää ainakin vielä tällä hetkellä. Samalla kun porukka C tekee post trainingiä niin porukka A voi olla jo tekemässä seuraavan mallin pretrainingia, menee rinnakkain.

Sparky · 21.12.2025

tjkoo sanoi:
Ei ole, GPT 5.2 on parempi nykyään, claude on vanhentunut.

Höpö höpö

mailbag · 21.12.2025

Sparky sanoi:
Höpö höpö

Omissa jutuissa claude, gemini, chatgpt huippumallit ajaa asiansa about ihan yhtä hyvin, mieluummin käyttää vaan sitä mikä on edullisin.

takomo · 21.12.2025

finWeazel sanoi:
Ei tarvi 123B devstralia kuvitella käyttävänsä 5090:lla. Teki sitten oikein tai väärin niin ei universumissa riitä aika tällä minkään tekemiseen. Tarvii kokeilla jaksaako macbook pro m4 max paremmin kun siinä ainakin muisti riittäisi paremmin. Tuskin sekään on ... nopea ...

Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://www.youtube.com/watch?v=d9iZO-DMHIY

Ei tuossa 5090 ole tukossa vaan CPU. Kun malli ei mahdu GPU:lle, suuri osa (valtaosa?) laskennasta jää CPU:lle. Jos haluaa ajaa mallia, niin ei taida olla muuta mielekästä vaihtoehtoa kuin investoida rautaan, jossa VRAM ei lopu kesken? Edes 64 GB ei oikein ole tarpeeksi vaan pitäisi olla 96 GB.

Kuriositeettikokeiluun riittää kevyempikin rauta, mutta suorituskyky jää helposti 1 token/s -tasolle.

Sparky · 22.12.2025

mailbag sanoi:
Omissa jutuissa claude, gemini, chatgpt huippumallit ajaa asiansa about ihan yhtä hyvin, mieluummin käyttää vaan sitä mikä on edullisin.

Eipä se noinkaan mene. Koodausavustimista kun puhutaan, niin opus 4.5 on edelleen ykkönen, toki joissain tilanteissa gemini (UI-kehitys) ja chatgpt (hyvä speksaamaan) pitävät puoliaan. Mutta kun kokonaisuutta tarkastellaan niin Opus on edelleen kingi. Jos haluaa kaikista saada parasta irti niin rahaa kuluu, se on varmaa. Itsekin käytän parisen sataa kuussa.

mlackke · 22.12.2025

Sparky sanoi:
Eipä se noinkaan mene. Koodausavustimista kun puhutaan, niin opus 4.5 on edelleen ykkönen, toki joissain tilanteissa gemini (UI-kehitys) ja chatgpt (hyvä speksaamaan) pitävät puoliaan. Mutta kun kokonaisuutta tarkastellaan niin Opus on edelleen kingi. Jos haluaa kaikista saada parasta irti niin rahaa kuluu, se on varmaa. Itsekin käytän parisen sataa kuussa.

Minusta ei ole mitään järkeä käyttää Opusta jatkuvasti, ellei raha ole täysin toissijainen tekijä. Monissa tehtävissä halvan ja kalliin mallin välillä ei ole käytännössä eroa lopputuloksessa. Ainoa ero on se, että kulutat jopa kymmenkertaisen määrän tokeneita ja joskus myös odotat pidempään.

Sparky · 22.12.2025

Claude Max -tilaus on aika antelias, aika harvoin olen saanut käyttörajat täyteen. Ja Opus on hitaimmillaankin varsinainen raketti jos vertaa OpenAI:n malleihin

Andan · 22.12.2025

Mikäs olisi paras ilmainen/halpa setuppi kotiprojekteihin, mielellään VS Codeen hyvin integroituva? Kuinka hyvin esim. VS Code + ilmainen copilot yhdistelmällä pärjää vai loppuuko quota heti jos vähänkin enemmän tekee paremmilla malleilla? Jäänyt omalla ajalla tuo koodin vääntäminen aika vähälle viime aikoina, niin ei ole vielä tullut kokeiltua, mutta nyt olisi yksi projekti ajatuksissa väsätä joulutauolla.

Töissä ei ole ongelmia, kun on maksullinen copilot + VS Code käytössä ja hommat pyörii hyvin, yleensä Clauden kanssa. Tietty voisi törkeästi tehdä omaa harrasteprojektia tuolla työsysteemillä, mutta ehkä mieluummin kuitenkin omalla koneella ihan vain varmuuden vuoksi

Onko muuten olemassa jotain palvelua, joka toimii samaan tapaan kuin tuo business copilot eli ei vuoda/käytä omia tekeleitä tekoälyn koulutukseen vai onko ne sitten heti tolkuttoman kalliita, kun ovat suunnattu lähinnä yrityskäyttöön? (tämä tuskin on omille kokeiluille ongelma, mutta mahtaako tuollaisia olla yksityisille kuinka tarjolla)

finWeazel · 22.12.2025

Andan sanoi:
MIkäs olisi paras ilmainen/halpa setuppi kotiprojekteihin, mielellään VS Codeen hyvin integroituva? Kuinka hyvin esim. VS Code + ilmainen copilot yhdistelmällä pärjää vai loppuuko quota heti jos vähänkin enemmän tekee paremmilla malleilla? Jäänyt omalla ajalla tuo koodin vääntäminen aika vähälle viime aikoina, niin ei ole vielä tullut kokeiltua, mutta nyt olisi yksi projekti ajatuksissa väsätä joulutauolla.

Töissä ei ole ongelmia, kun on maksullinen copilot + VS Code käytössä ja hommat pyörii hyvin, yleensä Clauden kanssa. Tietty voisi törkeästi tehdä omaa harrasteprojektia tuolla työsysteemillä, mutta ehkä mieluummin kuitenkin omalla koneella ihan vain varmuuden vuoksi

Onko muuten olemassa jotain palvelua, joka toimii samaan tapaan kuin tuo business copilot eli ei vuoda/käytä omia tekeleitä tekoälyn koulutukseen vai onko ne sitten heti tolkuttoman kalliita, kun ovat suunnattu lähinnä yrityskäyttöön? (tämä tuskin on omille kokeiluille ongelma, mutta mahtaako tuollaisia olla yksityisille kuinka tarjolla)

OpenAI ainakin integroituu hyvin VSCodeen codex-pluginilla jos on plus tilaus tai parempi. Ilmaisella ei taida onnistua. Ei kai se niin hirveä asia ole kertaluontoisesti maksaa plussasta kuukausitilausta. Toki plussakaan ei tarjoa buffettia, mutta riittänee pienempään nypläykseen.

Taitaa ainakin openai ja anthropic härveleissä olla webbisivujen kautta yksityisyysasetuksissa mahdollisuus kieltää käyttäjädatan käyttäminen mallien opettamiseen. Päteekö nuo asetukset ilmaiseen, en tiedä.

mailbag · 22.12.2025

Sparky sanoi:
Eipä se noinkaan mene. Koodausavustimista kun puhutaan, niin opus 4.5 on edelleen ykkönen, toki joissain tilanteissa gemini (UI-kehitys) ja chatgpt (hyvä speksaamaan) pitävät puoliaan. Mutta kun kokonaisuutta tarkastellaan niin Opus on edelleen kingi. Jos haluaa kaikista saada parasta irti niin rahaa kuluu, se on varmaa. Itsekin käytän parisen sataa kuussa.

No sanoinkin että omissa juttuissa, kotikäyttöön tarkoitetuissa softissa, niissä jokainen noista malleista antaa about saman lopputuloksen.

Sparky · 22.12.2025

Andan sanoi:
Mikäs olisi paras ilmainen/halpa setuppi kotiprojekteihin, mielellään VS Codeen hyvin integroituva? Kuinka hyvin esim. VS Code + ilmainen copilot yhdistelmällä pärjää vai loppuuko quota heti jos vähänkin enemmän tekee paremmilla malleilla? Jäänyt omalla ajalla tuo koodin vääntäminen aika vähälle viime aikoina, niin ei ole vielä tullut kokeiltua, mutta nyt olisi yksi projekti ajatuksissa väsätä joulutauolla.

Töissä ei ole ongelmia, kun on maksullinen copilot + VS Code käytössä ja hommat pyörii hyvin, yleensä Clauden kanssa. Tietty voisi törkeästi tehdä omaa harrasteprojektia tuolla työsysteemillä, mutta ehkä mieluummin kuitenkin omalla koneella ihan vain varmuuden vuoksi

Onko muuten olemassa jotain palvelua, joka toimii samaan tapaan kuin tuo business copilot eli ei vuoda/käytä omia tekeleitä tekoälyn koulutukseen vai onko ne sitten heti tolkuttoman kalliita, kun ovat suunnattu lähinnä yrityskäyttöön? (tämä tuskin on omille kokeiluille ongelma, mutta mahtaako tuollaisia olla yksityisille kuinka tarjolla)

eikös vähän kaikista avustimista ole se noin 10-20 euroa kuussa maksava vaihtoehto, jossa tietoja ei käytetä tekoälyn koulutukseen.

finWeazel · 22.12.2025

Mielenkiintoinen juttu, että voisiko open source maailma saada isosti etua siitä, että dokumentaatio, koodi ja jossain määrin myös keskustelut, koodiarvioinnit yms. julkisia. AI oppii tekemään paremmin open source mokkuloihin/open sourcen päälle ratkaisuja versus proprietaryt? Voisi olla jonkinlainen kilpailuetukin ajatella että koodilla itsellään ei ole kovinkaan arvoa==annetaan llm:ien oppia kaikesta ja arvo otetaan ulos palveluista. Tavallaan iso osa maailmasta on jo tällaista jos miettii mistä mokkuloista joku pilvipalvelu tai android puhelin koostuu.

Andan · 22.12.2025

Sparky sanoi:
eikös vähän kaikista avustimista ole se noin 10-20 euroa kuussa maksava vaihtoehto, jossa tietoja ei käytetä tekoälyn koulutukseen.

En ole noihin ei-business versioihin pahemmin perehtynyt, mutta hyvä jos tuo kuuluu hintaan. Ei sillä, että tarkoitus olisi ainakaan nyt tehdä mitään hys-hys hommaa, mutta jos sellaiseen jossain vaiheessa innostusta tulee

burmanm · 22.12.2025

Sparky sanoi:
Eipä se noinkaan mene. Koodausavustimista kun puhutaan, niin opus 4.5 on edelleen ykkönen, toki joissain tilanteissa gemini (UI-kehitys) ja chatgpt (hyvä speksaamaan) pitävät puoliaan. Mutta kun kokonaisuutta tarkastellaan niin Opus on edelleen kingi. Jos haluaa kaikista saada parasta irti niin rahaa kuluu, se on varmaa. Itsekin käytän parisen sataa kuussa.

(vain yksi ihana osa näistä quoteista). Nämä "koska maksan, niin tämä on paras" keskustelut voisi jättää edes jonkinlaisen perustelun mielipiteilleen. Opus 4.5 ei varsinaisesti johda yhdessäkään koodaukseen liittyvässä benchmarkissa enää, sillä kun kyseisillä benchmarkeilla ikinä on ollut hirveästi väliäkään. Mutta ovat ne ainakin kaikkien markkinointimateriaalissa.

Cursorin vertailustakin GPT-5.2-Codex vs Opus 4.5 saa tällaisia:

SWE-bench Pro	56.4	50
Terminal-bench 2.0	64.0	59.3
ARC-AGI-2	54.2	39.3

Luvut ovat siis Antropicin tai OpenAI:n itse julkaisimia (ja ennen kuin sanot jotain SWE-Benchistä, niin tämä ei ole sama asia kuin se kevyempi versio jossa jokainen malli alkaa saamaan sen ~80%) joten jokainen tietysti voi uskoa mitä lukuja ainoastaan haluaa. Mutta näiden valossa Opus 4.5:n kutsuminen kingiksi on jo aika kyseenalaista, näissä benchmarkeissa se ei ainakaan enää pärjää. Mikäli se tuottaa jonkun mielestä maailman parhaan pelikaanin pyöräilemässä SVG:nä, niin ehkä se on siinä asiassa sitten parempi (mutta en muista Simonin vertailua näistä). Mutta missään valossa sen kutsuminen erityisesti edelläkävijäksi verrattuna muihin ei oikein mene läpi nykypäivänä.

Opuksen 200k context window on sinällään yksi vitsi tosin, sen puolustaminen on jo aika hankalaa. Se on todella pieni luku missään monimutkaisessa tilanteessa ja aiheuttaa aivan surkuhupaisia tilanteita valitettavasti, mikään kunnollinen malli ei saisi rajoittaa noin pieneen lukemaan. Se rajoittaa käyttökelpoisuutta missä tahansa tilanteessa jossa oikeasti tutkimista tarvitsisi.

Sparky · 22.12.2025

Jos olet perehtynyt asiaan, tiedät että benchmarkit ovat lähinnä viitteellisiä. Ja missä mallissa >200k konteksti-ikkuna oikeasti toimii? Ei ainakaan Geminissä...
Tässä lisää infoa:

AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi