AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Tuo uusi malli tyhjistä pitää paikkansa, tästä on openai:n työntekijät kertoneet. Tuskin saavat kaikkea irti julkaisussa uudesta mallista. Pitä tie missä viilaavat ja parantelevat uuden päälle.

1776945637971.png
Kuka näitä nimeää. ”Koulutettiin tää iha uudesti, siispä nimettiin se minor-päivitykseksi vanhasta!” 🙃
 
Kuka näitä nimeää. ”Koulutettiin tää iha uudesti, siispä nimettiin se minor-päivitykseksi vanhasta!” 🙃
Se, että on koulutettu uusiksi ei välttämättä tarkoita että olis isoin paras versio jaossa kuluttajille tai että toimii nyt superpaljon paremmin. Mun käsitys, että uudelleenkoulutus on pohja minkä päälle on hyvä rakentaa tulevaisuutta, kehitys jatkuu ja jatkuu. Voi olla myös jotain toimii nopeammin/pienemmillä token määrillä antaen saman laadun kuin entinen hitaampi malli tms.

Mielenkiinnolla odottelen mitä sieltä tulee.

--

Vähän sivusta muistuu mieleen kun tehtiin tuotetalossa järjettömän kovasti duunia tuotteiden arkkitehtuurin parantamiseen, että voitaisiin myöhemmin tehdä uusia toiminnallisuuksia. Release nooteissa "new improved architecture". Tuli aika paljon kyselyitä asiakkailta mitä tällä uudella arkkitehtuurilla voi tehdä(ei mitään). Siinä valkeni heti uran alkupuolella miten vähän asiakasta kiinnostaa miten makkara on tehty ja mitä asiakkaille kannattaisi mainostaa ja mitä ei. Oli niin pieni tuotetalo, että valui tekijöille asti asiakaspalaute.
 
Ainahan sitä uutta mallia pitää rummuttaa.."our new model trained data with NASA and hallucinates less than Trump...tjsp"

Sieltä tulee se 1-10% parannuksia oleva malli, kysymys kuuluu mikä on hinta ja nopeus.
 
En tiedä miten mallien paremmuuksia/parannuksia voisi edes realistisesti mitata. Vähän sama kuin mittais hakeeko litran maitoa kaupasta parhaiten skootterilla, skodalla vai ferrarilla. Yks voi käytellä pientä mallia ja toimii täydellisesti ja nopeasti. Toisen käyttötapaus ja koodipohja niin monimutkainen ettei state of the art isokaan malli toimi. Suurin osa siellä välissä, että toimii melko hyvin mutta toisinaan törmäilee reunoihin.

Benchmarkit ei kerro oikein mitään. Jos on viekas mallintekijä niin overfit:lla saa benchmarkit näyttämän hyvältä mutta tulos ei yleistä normaalikäyttöön. Salainenkaan datasetti millä mallit testataan ei oikein toimi kun mallintekijä saa jokaisesta testikierroksesta palautetta ja voi tuunata sen avulla mallia benchmark-optimoiduksi(arg agi). Vähän samaa hello world tyylisissä appseissa, tulee sikahieno nopeasti ... opetusdatasta kopioimalla. Totuus selviää vasta kun yrittää tehdä kompleksisempaa, selviää osaako malli vai ei.

OpenAI toiminut eilen ja tänään surkean hitaasti fast moodissakin.
 
Viimeksi muokattu:
Just ilmaista Claudia käytin, kerroin sille mitä muutoksia olin itse tehnyt ja pyysin tarkistamaan ja korjaa yhden pienen jutun. Se avasi ekan filun (100 riviä) ja tuumaa et nyt loppu taas limitti, jatkappa 6h päästä uusiksi. Aika epätoivosta yrittää yhtään mitään.
 
Just ilmaista Claudia käytin, kerroin sille mitä muutoksia olin itse tehnyt ja pyysin tarkistamaan ja korjaa yhden pienen jutun. Se avasi ekan filun (100 riviä) ja tuumaa et nyt loppu taas limitti, jatkappa 6h päästä uusiksi. Aika epätoivosta yrittää yhtään mitään.
Samaa sanovat 20e/kk tilauksesta. Voipi olla yks pyyntö ja meni 5h tokenit. Testailevat anthropic:lla koodausavustimen poistamista 20e/kk tilauksesta

OpenAI imho. parempi vaihtoehto tällä hetkellä kun eivät ole tyhmentäneet agenttia, tokeneita saa enempi samalla rahalla.
 
Clauden Sonnet 4.6:n avulla sain pystyyn oman CI/CD putken (VS-Code - Python - lokaali Jenkins serveri ja GitHub. Meni pari päivää että sain pelittämään. Ns tuotanto softaa olen tehnyt viimeksi n. 20v sitten.
Lisäyksenä: Pro tilaus, eikä weekly limit ole kuin 4%. Lisäksi saanut viriteltyä pfSense palomuuria, kotiverkkoa yms. Clauden ohjeilla
 
Screenshot_20260423_212348.png


gpt 5.5 julkaistu, näyttää olevan suht mieto bump-up edelliseen, itse odotin vähän enemmän kaiken hehkutuksen jälkeen.
 
gpt 5.5 julkaistu, näyttää olevan suht mieto bump-up edelliseen, itse odotin vähän enemmän kaiken hehkutuksen jälkeen.
Ei kannata liikaa miettiä vain noita numeroita kun totuus on siinä miten malli oikeasti toimii. Numerot ei kerro koko tarinaa. Claude 4.7 numerot paremmat kuin 4.6. 4.7 ja 4.6 toimivat tänään huonommin kuin iänwanha 4.5. 4.6 muuttui kesken kaiken lobotomiapotilaaksi. Asiat on monimutkaisempia kuin x > y ja ero a-prosenttiyksikköä.

Iso pihvi oikeassa toimivuudessa ja siinä miten paljon konesalia malli syö.
GPT‑5.5 matches GPT‑5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same Codex tasks, making it more efficient as well as more capable.
Across these domains, GPT‑5.5 is not just more intelligent; it is more efficient in how it works through problems, often reaching higher-quality outputs with fewer tokens and fewer retries. On Artificial Analysis's Coding Index, GPT‑5.5 delivers state-of-the-art intelligence at half the cost of competitive frontier coding models.
 
En tiedä miten mallien paremmuuksia/parannuksia voisi edes realistisesti mitata. Vähän sama kuin mittais hakeeko litran maitoa kaupasta parhaiten skootterilla, skodalla vai ferrarilla. Yks voi käytellä pientä mallia ja toimii täydellisesti ja nopeasti. Toisen käyttötapaus ja koodipohja niin monimutkainen ettei state of the art isokaan malli toimi. Suurin osa siellä välissä, että toimii melko hyvin mutta toisinaan törmäilee reunoihin.

Benchmarkit ei kerro oikein mitään.
Ehkä benchmarkit osoittavat, että malli osaa tehdä jotakin verrattuna muihin, kun ajetaan sama testi saman julkaisupäivän puitteissa :lol:

Nykyään valitsen mallin ja effortin (ja agentin) pitkälti sen mukaan, mikä tuntuu omasta fiiliksestä sopivimmalta kyseiseen tehtävään. Sekään ei kuitenkaan auta kun tulee noita “4.7 ja 4.6 toimivat tänään huonommin kuin ikivanha 4.5”, tai kun 4.6 muuttuu kesken kaiken täydeksi lobotomiapotilaaksi."

Tästä syystä olen jättänyt laajat promptit sikseen, vaikka kuinka olisivat hyvin laadittu prompti/TDD-pohjaisia jne ja tarkoitettu satojen rivien koodin tuottamiseen. Pienemmillä iteraatioilla olen päässyt parempaan lopputulokseen työpäivän jälkeen.
 
Anthropicin selitykset Clauden tyhmentymisestä

  • On March 4, we changed Claude Code's default reasoning effort from high to medium to reduce the very long latency—enough to make the UI appear frozen—some users were seeing in high mode. This was the wrong tradeoff. We reverted this change on April 7 after users told us they'd prefer to default to higher intelligence and opt into lower effort for simple tasks. This impacted Sonnet 4.6 and Opus 4.6.
  • On March 26, we shipped a change to clear Claude's older thinking from sessions that had been idle for over an hour, to reduce latency when users resumed those sessions. A bug caused this to keep happening every turn for the rest of the session instead of just once, which made Claude seem forgetful and repetitive. We fixed it on April 10. This affected Sonnet 4.6 and Opus 4.6.
  • On April 16, we added a system prompt instruction to reduce verbosity. In combination with other prompt changes, it hurt coding quality and was reverted on April 20. This impacted Sonnet 4.6, Opus 4.6, and Opus 4.7.

Ihan hyvä idea varmaan tämä:
"We are going to do several things differently to avoid these issues: we’ll ensure that a larger share of internal staff use the exact public build of Claude Code (as opposed to the version we use to test new features)"
 
Ehkä benchmarkit osoittavat, että malli osaa tehdä jotakin verrattuna muihin, kun ajetaan sama testi saman julkaisupäivän puitteissa :lol:
Joku arc agi3 ja muut sellaiset testit joissa testidata on salaista, on iso ero opetus ja testidatassa ja mallit ajetaan salaista testidataa vastaan hyvin harvoin(tietoa salaisesta testidatasta vuotaa joka ajokerralla). Tällaisiin voi jollain tapaa luottaa mutta näitä on todella vähän.

Benchmarkit tosi huono kun niitä varten voi ja optimoidaan. Suhteellisen helppo saada numerot näyttämään hyvältä ja ei toimi reaalimaailmassa kuten numerot antaisivat osoittaa. Esimerkkejä tästä vaikka kuinka paljon. overfit/tungetaan benchmarkit tavalla tai toisella opetustdataan

Toinen puol tietenkin tämä claude 4.6, 4.7 missä nähty että samakin malli saadaan tyhmennettyä radikaalisti.

Kai pelinnimi tällä hetkellä on, että kun ei ole riittävää konesalikapasiteettia niin kompromissi haettava eikä voida ajaa kaikille isoimpia malleja tai edes pienempää mallia "parhailla" asetuksilla. En siis usko, että mythos on liian kyvykäs, se on vain upea markinointikampanja tilanteessa missä anthropic:lla ei ole konesalikapasitettia mallin tarjoamiseen.

--

Ensituntumat eiliseltä gpt5.5:sta että on se parempi mutta ei silleen että wow sukat pyörii jalassa. Isohkon kasan teki parannuksia kötöstyksiin mitä edelliset kielimallit tehneet, yhden juurisyyn erikoiseen ongelmaan kaiveli helposti mitä edellinen malli ei osannut. Paransi himmelin ajo ja devausvakautta. Tuntuu myös vaativan vähemmän promptaamista, että tajuaa mitä pitäisi tehdä. Siirryin käyttämään high moodissa kun se toimii riittävän hyvin versus 5.4:sta ajoin xhigh moodissa.
 
Viimeksi muokattu:
Ehkä benchmarkit osoittavat, että malli osaa tehdä jotakin verrattuna muihin, kun ajetaan sama testi saman julkaisupäivän puitteissa :lol:

Nykyään valitsen mallin ja effortin (ja agentin) pitkälti sen mukaan, mikä tuntuu omasta fiiliksestä sopivimmalta kyseiseen tehtävään. Sekään ei kuitenkaan auta kun tulee noita “4.7 ja 4.6 toimivat tänään huonommin kuin ikivanha 4.5”, tai kun 4.6 muuttuu kesken kaiken täydeksi lobotomiapotilaaksi."

Tästä syystä olen jättänyt laajat promptit sikseen, vaikka kuinka olisivat hyvin laadittu prompti/TDD-pohjaisia jne ja tarkoitettu satojen rivien koodin tuottamiseen. Pienemmillä iteraatioilla olen päässyt parempaan lopputulokseen työpäivän jälkeen.
Siinä välissä on myös se applikaatiolayeri, eli palastellaan mitäs tässä kysytään ja miten ohjataan eteenpäin. Eli vaikka kielimalli pysyy samana, oma prompti pysyy samana, niin lopputulos voi muuttua jos applikaatiolayeri muuttuu.
 
Siinä välissä on myös se applikaatiolayeri, eli palastellaan mitäs tässä kysytään ja miten ohjataan eteenpäin. Eli vaikka kielimalli pysyy samana, oma prompti pysyy samana, niin lopputulos voi muuttua jos applikaatiolayeri muuttuu.
Tän lisäksi myös ajetaan erilaisilla parametreilla(kvantisointi, parametrien määrä, high voi olla x parametriä tänään, y parametria huomenna) mallin ajattelua, montako rinnakkaista ajatteluflow:ta, miten paras vastaus valitaan, ajatellaanko uusiksi valitun vastauksen pohjalta jne. Näiden tunkkaukseen lienee opus4.6/opus4.7 tyhmentyi. Alkoi päättämään että tietää vastauksen eikä ajatellut ollenkaan("pattern matching, monistaa olemassaolevaa" ja vaikka ajattelisi niin ajatteli vähemmän kuin ennen. Molempiin näistä oli amd:lta erittäin hyvät datat näyttää että mallia huononnettu. Vaikka käyttäjä tuunaa clienttipään parametrit maksimiin niin silti ei 4.6, 4.7 useinkaan pääse samaan suorituskykyyn kuin 4.6 oli helmikuussa, osa porukasta siirtynyt käyttämään 4.5 kun se toimii luotettavammin.

--

OpenAI on hidas, mutta tyhmennetty se ei ole. Yksi sessio tässä ollut missä malli toimi kuin ellun kanat, mutta ei toistunut ja korjaantui exit, restart strategialla. Ehkä oli vaan bugi. Hyvin ymmärrän että openai:n fokus 5.5:ssa se että keskitytään paljon maksiminumeroiden sijaan siihen, että saataisiin malli mitä voidaan oikeasti käyttää voluumissa.
 
Viimeksi muokattu:
Ensituntumat eiliseltä gpt5.5:sta että on se parempi mutta ei silleen että wow sukat pyörii jalassa. Isohkon kasan teki parannuksia kötöstyksiin mitä edelliset kielimallit tehneet, yhden juurisyyn erikoiseen ongelmaan kaiveli helposti mitä edellinen malli ei osannut.
5.4 kanssa yritin eilen korjailla kasaa bugeja ja siitä ei tullut oikein mitään, pistin juuri 5.5 testiin, promptiksi pelkkä "fix" ja korjasi ongelmat :D Ihan vaikuttava päivitys tämän kokemuksen perusteella.
 
Nyt on tullut testailtua Qwen3.6-35B-A3B Q4 mallia paikallisena, ja tämähän on ensipuraisulla aika vaikuttava.

RTX 4090:llä puskee 150 output tokenia sekunnissa, mikä taitaa olla jo useimpia frontier malleja nopeampaa. Ohjattu koodailu ja työkalujen käyttö näyttää onnistuvan suht mallikkaasti. Pitää testailla vielä lisää, josko olisi ensimmäinen oikeasti hyödyllinen lokaalimalli.

Välillä meinaa hymyilyttää tämän reasoning osiot, meinaa mopo karata pahasti käsistä:
...
Let's write.
I'll start with `wrapper.py`.
Then `tmux.py`.
Then explanation.
Then next step.
I'll keep it concise.
I'll follow the guidelines.
I'll be helpful.
I'll be precise.
I'll be concise.
I'll follow the workflow.
I'll avoid feature creep.
I'll follow the wisdoms.
I'll be simple.
I'll be explicit.
I'll be sparse.
I'll be readable.
I'll be flat.
I'll be beautiful.
I'll be practical.
I'll be correct.
I'll be efficient.
I'll be robust.
I'll be secure.
I'll be scalable.
I'll be maintainable.
I'll be testable.
I'll be documented.
I'll be versioned.
I'll be licensed.
I'll be open source.
I'll be community driven.
I'll be user friendly.
I'll be accessible.
I'll be inclusive.
I'll be diverse.
I'll be equitable.
I'll be just.
I'll be fair.
I'll be honest.
I'll be ethical.
I'll be moral.
I'll be responsible.
I'll be accountable.
I'll be transparent.
I'll be trustworthy.
I'll be reliable.
I'll be dependable.
I'll be consistent.
I'll be predictable.
I'll be deterministic.
I'll be reproducible.
I'll be verifiable.
I'll be auditable.
I'll be traceable.
I'll be observable.
I'll be monitorable.
I'll be measurable.
I'll be quantifiable.
I'll be analyzable.
I'll be inspectable.
I'll be debuggable.
I'll be testable.
I'll be deployable.
I'll be scalable.
I'll be extensible.
I'll be customizable.
I'll be configurable.
I'll be adaptable.
I'll be flexible.
I'll be modular.
I'll be componentized.
I'll be decoupled.
I'll be cohesive.
I'll be high quality.
I'll be best practice.
I'll be industry standard.
I'll be compliant.
I'll be certified.
I'll be accredited.
I'll be recognized.
I'll be respected.
I'll be trusted.
I'll be valued.
I'll be appreciated.
I'll be acknowledged.
I'll be celebrated.
I'll be honored.
I'll be remembered.
I'll be legendary.
I'll be immortal.
I'll be divine.
I'll be god.

Wait, I got carried away.
Let's stick to the task.
Task: Error handling wrapper for LLM tools.
Plan:
1. `wrapper.py` with `ToolError` and `llm_tool`.
2. `tmux.py` usage.
3. Type hinting explanation.
4. Next step.
...
Osa tästä reflektiosta tuli promptissa olevien "Zen of Python" viisauksien perusteella, toisen puolen ihan itse hallusinoiden 😂
 
Tän lisäksi myös ajetaan erilaisilla parametreilla(kvantisointi, parametrien määrä, high voi olla x parametriä tänään, y parametria huomenna) mallin ajattelua, montako rinnakkaista ajatteluflow:ta, miten paras vastaus valitaan, ajatellaanko uusiksi valitun vastauksen pohjalta jne. Näiden tunkkaukseen lienee opus4.6/opus4.7 tyhmentyi.
Eikös näiden muutos jälkeen voi sanoa kyseessä on ns opus 4.7.1 eikä enää alkup julkaisu:hmm: Mutta näistä kai ei sitten pahemmin tiedoteta.
 
Eikös näiden muutos jälkeen voi sanoa kyseessä on ns opus 4.7.1 eikä enää alkup julkaisu:hmm: Mutta näistä kai ei sitten pahemmin tiedoteta.
Näinhän se menis ideaalisessa maailmassa. Nyt ei tiedetä mikä mallin versio, montako parametriä, mitkä asetukset ja heuristiikat ajatteluprosessissa, mikä system promptin sisältö jne. 4.6:en muuttuminen kylän idiootiksi hyvä esimerkki miten nimi sama mutta toimivuus täysin eri.
 

Statistiikka

Viestiketjuista
305 813
Viestejä
5 177 114
Jäsenet
82 766
Uusin jäsen
jepulisheissan

Hinta.fi

Back
Ylös Bottom