AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

1000043806.jpg

Taitaa GPT 5.5 olla sopiva paikka iskeä tälläisen julkaisun jälkeen.
 
Vaikuttaa siltä että Anthropic on ajanut itsensä kuseen ja siellä on hommat pahasti sekaisin. Tulee taas mieleen että siellä kun jos tekoäly koodaa tekoälyä, niin se on alkanut degeneroitumaan. Ensin hitaasti ja hyvin vähän, mutta nyt ollaan jo lumivyöryvaiheessa.

Tuo malware ongelma olisi paljastunut ihan pienellä testauksella.
 
Otin Claude Coden (Pro) uudestaan testiin, kun viimeiset 3-4kk käyttänyt käytännössä pelkkää Codexia.

Samassa projektissa Codexilla (GPT5.4, Medium) saa työskenneltyä n. 2h ennen kuin 5h limit tulee täyteen, Claudella (4.6 Sonnet, Medium) max 20min, parhaimmillaan yhdessä promptissa mennyt koko 5h usage. Samat skillit ja AGENTS.md/CLAUDE.md käytössä. Prompteja saa Codexiin 50+ ja Claudeen max 10. :confused: Puhumattakaan jostain Opuksesta, se on pari minuuttia ja usage on täynnä.

Teenkö(hän) jotain väärin? Molempien laatu aika samaa, eli hyvää kunhan promptaa kunnolla. Sen kyllä huomasin, että Claude työskentelee pidempään kun taas Codex pysähtyy kyselemään enemmän. Tällä hetkellä kaksi ChatGPT Plus-tilausta vaikuttaa paremmalta diililtä kun nämä kaksi erikseen.
 
Samassa projektissa Codexilla (GPT5.4, Medium) saa työskenneltyä n. 2h ennen kuin 5h limit tulee täyteen, Claudella (4.6 Sonnet, Medium) max 20min, parhaimmillaan yhdessä promptissa mennyt koko 5h usage.
Tässäpä se juuri on että "älykkäin malli" ei ole enää paras vaihtoehto, jos ns 5% "tyhmemmän" mallin saa useita kertoja halvemalla (ns token hinta)

Kun katsotaan mallin hinta/nopeus/älykkyys/hallusinaatio raja..jne niin tämän päivän lisäoptioilla (mcp:t, subagentit..jne) minusta opuksen hinnoittelu on todella surkea vrt muihin.
 
Mistä saa jo GPT-5.4-codexin käyttöön vai käytätkö siis tavallista GPT-5.4?
Tavallinen GPT-5.4 siis. Codexin sovelluksen kautta käytän, siksi mainitsin tuon.

Jaahas, Codexistakin tuli päivitys.
Näyttää aika isolta päivitykseltä. Windows-versiota odotellessa.

Tässäpä se juuri on että "älykkäin malli" ei ole enää paras vaihtoehto, jos ns 5% "tyhmemmän" mallin saa useita kertoja halvemalla (ns token hinta)
Tuntuu kyllä siltä, että mallin tuotosten laadussa ei hirveästi ole edes eroa. Enemmän tuntuu vaikuttavan promptaus, konteksti ja skillit. Voisi vaikka huvikseen seuraavan resetin jälkeen testailla miten Haiku 4.5 toimii, paljonko saa käyttää ja miten tulokset eroaa vaikka Sonnetista.
 
gpt 5.4 codexissa

qwen 3.6 35b paikallisesti clinessä

Ihan mielenkiinnosta hostasin paikallisesti ton uuden 3.6 qwenin ja tein ton redditistä bongatun SVG testin gpt:llä ja paikallisella qwenillä, yllättävää kyl mihin toi pikkumalli pystyy, täytyykin alkaa kokeilemaan mitä se onnistuu tekemään omissa codebaseissani on meinaan ihan sika nopea 200 tok/sec ja osaa clinessä automaattisesti hakea inffoa netistä.
 
Kyllähän tuon kehityksen kuvittelisi niin menevän, että kun mallien kyvykkyys kasvaa niin pikkujutuissa/pienissä projekteissa ei enää tarvi parasta mallia. Jossain kohtaa lokaalikin alkaa olemaan riittävän kyvykäs moneen asiaan. Toisella puolella isot ja kompleksiset projektit joissa AI ei välttämättä ole edes riittävän hyvä ja parempaa kaipaisi.

Sitä päivää odottaessa kun voi promptata vaikka "ota Android Open Source project sisään ja muuta kaikki C-koodi mukaanlukien linux kerneli RUST:lle. Tee kattavat testit sekä rust että C. Varmista toteutusten identtisyys". Saa vettä vielä virrata joessa tovin,...

Näissä mun kotiprojekteissa voi todeta, että openai ja anthropic molemmat toimivat niin hyvin, että aika vähän löytyy reunatapauksia missä tarvii itse enää koodata. Mutta pieniähän nämä projektit ovat ja monella tavalla täysin triviaaleja.
 
gpt 5.4 codexissa

qwen 3.6 35b paikallisesti clinessä

Ihan mielenkiinnosta hostasin paikallisesti ton uuden 3.6 qwenin ja tein ton redditistä bongatun SVG testin gpt:llä ja paikallisella qwenillä, yllättävää kyl mihin toi pikkumalli pystyy, täytyykin alkaa kokeilemaan mitä se onnistuu tekemään omissa codebaseissani on meinaan ihan sika nopea 200 tok/sec ja osaa clinessä automaattisesti hakea inffoa netistä.
Kannattaa myös Gemma 4:lle antaa mahdollisuus. Se on itsellä ollut viime aikoina käytössä ja tuottanut hyvin vakuuttavaa jälkeä. Sekä 31B että 26B A4B.

Itse en vielä ole ehtinyt Qwen 3.6 testaamaan, mutta pitää ottaa kokeiluun lähipäivinä. Benchmarkit näyttää vähän liian hyvälle ollakseen totta A3B-mallille, kun esim. vasta julkaistu "iso" 31B Gemma 4 jää muka lähes kaikessa jalkoihin.
 
Redditissä kyllä revitään huumoria anthropicin kustannuksella... Ei valittamista openai:sta. Koodasi uart-härpättimen pc-amiga väliin mitä claude code ei saanut aikaiseksi.
Ollut mielenkiintoista seurata miten sössivät asiansa, firman fanitus oli aikaisemmin ihan överiä ja nyt näkee jatkuvasti enemmän Codexiin vaihtaneita ja juuri tuommoisia kokemuksia, että tämähän on ihan hyvä, ellei jopa parempi ja saa käyttääkin paljon enemmän. Jos kilpailijat ei sössi vastaavasti niin moniko vaihtaneista on enää palaamassa?
 
Ollut mielenkiintoista seurata miten sössivät asiansa, firman fanitus oli aikaisemmin ihan överiä ja nyt näkee jatkuvasti enemmän Codexiin vaihtaneita ja juuri tuommoisia kokemuksia, että tämähän on ihan hyvä, ellei jopa parempi ja saa käyttääkin paljon enemmän. Jos kilpailijat ei sössi vastaavasti niin moniko vaihtaneista on enää palaamassa?
imho. claude oli ennen tyhmennystä parempi ainakin minun käyttöön kuin tämä nykyinen openai 5.4xhigh moodissa. Minä en ole palaamassa anthropic:iin kun openai:nkin palvelu toimii riittävän hyvin. Jos openai alkaa sössimään niin sitten tulee google testiin seuraavaksi.

Upeasti kyllä anthropic kussut omiin muroihinsa. Harvoin näkee ja pääsee kokemaan tällaista hajoamista(onneksi).
 
Opus 4.7 tuli kokeiltua tänään töissä ja hyvin se pärjäsi ainakin verrattuna siihen miten huono 4.6 on ollut viime aikoina. En ole silti vielä vakuuttunut että se on yhtään parempi kuin 4.6 oli alunperin.

API-hinnoittelu on kyllä melko kallista, kun muutamassa tunnissa tuli melkein 100 dollaria laskua, mutta sain yhden projektin etenemään mukavasti. Hintansa arvoinen siis ainakin tänään, mutta saa nähdä miten nopeasti tämä malli alkaa huonontumaan.
 
Näköjään porukka on keksinyt uuden merihevosen. Kun AI:lta (esim. Claude) kysyy "Is 2027 the next year?" niin se vastaa:

No, 2027 is not the next year. The current date is Friday, April 17, 2026, so the next year would be 2027, but we're still in 2026 right now. The next year (2027) will begin on January 1, 2027, which is about 8.5 months away.

ChatGPT sekoili ihan samalla tavalla:

No — 2027 is not the next year.
The current year is 2026, so the next year is 2027, but only after 2026 ends.

So:
  • Current year: 2026
  • Next year: 2027 ✅
If you’re asking in real-time terms, then yes — 2027 is the upcoming next year, but it hasn’t happened yet.
 
Reasoning of your initial answer?

Honestly? I don’t have a saved trace of my internal reasoning to show you — I can only reconstruct what likely went wrong after the fact.
My best reconstruction: I probably parsed “next year” as “the year that comes after the current one” and felt an urge to anchor the answer in today’s date (April 17, 2026). So instead of just confirming “yes, 2027 follows 2026,” I pivoted to explaining that 2026 is the current year and 2027 is upcoming — which technically agreed with you but buried the “yes” and made it sound like I was correcting you with that opening “No.”
The “No” was the real error. Your question had a yes answer, and I led with the opposite word because I was answering a slightly different question in my head (something like “is it 2027 already?”). Classic case of answering the question I imagined instead of the one you asked.

Eli, liibalaaba :rofl2: Opus 4.7 on parempi koodaamaan ku selaamaan almanakkaa
 

Statistiikka

Viestiketjuista
305 387
Viestejä
5 172 530
Jäsenet
82 671
Uusin jäsen
nexplorer

Hinta.fi

Back
Ylös Bottom