AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Nyt kun pystynyt koneella istumaan niin on tuo opus 4.6 paljon hitaampi kuin 4.5. Miettii ja miettii, tosin tekee hyvää. Alkaa olemaan sen tason hidas, että pitäisi ehkä suosiolla siirtyä ajamaan rinnakkaisia agentteja+taskeja.
Luin tuossa juuri pöhinää ja oli mielenkiintoista miten paljon Codexia kehutaan nyt, valittivat paljon tuosta Opuksen hitaudesta ja kuinka juuri mikään ei ole muka parantunut. Siihen päälle vielä Codexia surkeammat käyttörajat. Jännä nähdä miten Anthropic vastaa jos tuo asenne tuosta nyt yleistyy. Oletko itse vertaillut noita?
 
Luin tuossa juuri pöhinää ja oli mielenkiintoista miten paljon Codexia kehutaan nyt, valittivat paljon tuosta Opuksen hitaudesta ja kuinka juuri mikään ei ole muka parantunut. Siihen päälle vielä Codexia surkeammat käyttörajat. Jännä nähdä miten Anthropic vastaa jos tuo asenne tuosta nyt yleistyy. Oletko itse vertaillut noita?
Mulla on vain anthropicin max tilaus nyt. Tykkään tuosta claude code:sta sen verran + tekee niin hyvin ettei tällä erää ole tarvetta ajaa jotain toista palvelua sen rinnalla. Hidas tuo 4.6 on, jos olisi kiire niin kannattaisi ajaa useampaa taskia rinnakkaisilla agenteilla niin saisi enemmän taskeja läpi samassa ajassa.

En tiedä kannattaako noita palveluita vaihdella kuin kalsareita. Tilanteet muuttuu kovin nopeasti. Kohta enivei multa loppuu koodauskausi kun tyrähomma paranee ja alkaa kalastus+kesäkausi. Ens talvena uutta matoa koukkuun sen hetkisen tilanteen pohjalta. Mulla aika lyhyt slotti talvella missä koodaus jaksaa kiinnostaa, muu vuosi toisten harrastusten parissa. Tosin tää agenttijuttu voi muuttaa tilannetta, jos/kun tuntuu ettei tarvi enää itse koodata, riittää tikettien kirjoittaminen. Tehnyt tyyliin ihan kourallisen koodirivejä parin viime viikon aikana, claude toimittaa upeasti sellaista mihin ei tarvi itse koskea.
 
Viimeksi muokattu:
Manaillut tässä, että harmi kun winuae:hen ei voi helposti lähettää komentoja. Kysyin AI:lta, että kirjoitappa skripti joka lähettaa prosessin ikkunaan tekstin ja sehän suoritti. Nyt on integroituna agenttilooppiin systeemi missä agentti saa laukaistua emulaattorissa binaarin päälle. Emulaattorissa ajossa oleva binaari tallettaa logit tiedostoon jonka agentti pystyy lukemaan. Nyt pystyy agentti itsenäisesti verifioimaan osan asioista. Mietin, että teen samalla tapaa framebufferin tallettamista tiedostoihin niin ehkä agentti pystyy katsomaan myös piirtyikö asiat edes suurinpiirtein oikein. Heikkous tässä skriptissä, että pitää emulaattorissa olla shell-aktiivisena että applikaatio käynnistyy. Jos jaksaisi voisi lisätä hiiren klikkauksen shellin aukaisemiseksi/aktivoinniksi.

Koodi:
# Send a command to a running WinUAE instance
# Usage: .\run_in_winuae.ps1 [command]
# Default command: mighty.exe
param(
    [string]$Command = "mighty.exe"
)
Add-Type @"
using System;
using System.Runtime.InteropServices;
public class Win32 {
    [DllImport("user32.dll")]
    public static extern bool SetForegroundWindow(IntPtr hWnd);
    [DllImport("user32.dll")]
    public static extern bool ShowWindow(IntPtr hWnd, int nCmdShow);
}
"@
$process = Get-Process | Where-Object { $_.ProcessName -like "*winuae*" } | Select-Object -First 1
if (-not $process) {
    Write-Error "WinUAE is not running."
    exit 1
}
$hwnd = $process.MainWindowHandle
if ($hwnd -eq [IntPtr]::Zero) {
    Write-Error "WinUAE window handle not found."
    exit 1
}
# Restore if minimized (SW_RESTORE = 9), then bring to foreground
[Win32]::ShowWindow($hwnd, 9) | Out-Null
[Win32]::SetForegroundWindow($hwnd) | Out-Null
Start-Sleep -Milliseconds 500
Add-Type -AssemblyName System.Windows.Forms
[System.Windows.Forms.SendKeys]::SendWait("$Command{ENTER}")

---

Tässä kun isompia juttuja antanut AI:n agentin koodata ja verifioida itsenäisesti niin alkaa tuntumaan että aika se ja sama mikä mallin nopeus on olettaen että agentti tekee isomman taskin hyvälaatuisesti valmiiksi. Asia on aika erilainen jos malli pystyy tekemään 30min, 1h, 8h, viikon,... työtä itsenäisesti versus pitää ihmisen olla loopissa 30s välein korjaamassa. Siinä kun eka taski raksuttaa niin laittaa seuraavaa sisään ja seuraavaa sisään jne. Nopeus tulee rinnakkain asioiden tekemisestä/tutkimisesta. Ehkä opus 4.6 "hitaus" oletusasetuksilla ei ole niin huono asia kun tulee priimaa ulos. Kai tuon sais nopeammaksi, jos ruuvais asetuksia alaspäin mutta sitten ottaa riskiä että pitää iteroida useampi kerta. Toki tässä on se heikkous, että pitää olla jonkinlainen looppi mitä agentti voi iteroida eli tapa varmistaa tuloksen oikeellisuus. TDD onkin uusi vanha juttu ja taas pinnalla.
 
Viimeksi muokattu:
Toisin sanoen, hyvällä TDD:llä Opus voisi tehdä implementaation, vielä paremmin jos joku muu on jo tehnyt itse testit . Mikä ei ole välttämättä yhtään huono asia, mutta alun: "We tasked Opus 4.6 using agent teams to build a C Compiler, and then (mostly) walked away." on täyttä hevonpuppua.
Tähän näin vielä selityksen, että sen kääntäjän tekeminen maksoi 20k. Juu, kun joku muu oli kaikki ne testit ym. kirjoittanut ja Claudella oli ainakin pari esimerkkitoteutusta käytössä.
 
Äh, Claudella teettänyt tilastokäppyröitä parina iltana, mutta nyt loppui hyvin nopeasti tokenit ja hommat jatkuu vasta viiden jälkeen. En kuitenkaan viitsi alkaa enempää maksamaan tästä harrastuksesta niin eipä tässä auta kuin odottaa.
 
Äh, Claudella teettänyt tilastokäppyröitä parina iltana, mutta nyt loppui hyvin nopeasti tokenit ja hommat jatkuu vasta viiden jälkeen. En kuitenkaan viitsi alkaa enempää maksamaan tästä harrastuksesta niin eipä tässä auta kuin odottaa.
Tsekkaa settings->usage asetus. Siellä voi olla odottamassa lahjanappi millä saa 50$ edestä tokeneita lisää. Anthropicilla tuollainen kampanja menossa, sain ton lahjan eilen lunastettua.
 
Huomasin joo, mutta siinä pitäisi sallia että Claude ajelee yli minun varojen. Minulla on se extra usage pois päältä ettei tule kivoja ylläreitä.

Ja ai niin, käytän tuota VS Coden kautta, se ei vielä tuo 4.6:tta. Tein yhden projektin sillä Clauden terminaalilla ja siinä lähti itsellä homma lapasesta, en vaan oikein pysynyt kärryillä. Tässä on paljon helpompi seurata mitä tapahtuu. Neovimiin olisi kanssa kiva viritellä tämä mutta en tiedä onko tällaisessa hommassa niin paljon etua.
 
Viimeksi muokattu:
Huomasin joo, mutta siinä pitäisi sallia että Claude ajelee yli minun varojen. Minulla on se extra usage pois päältä ettei tule kivoja ylläreitä.

Ja ai niin, käytän tuota VS Coden kautta, se ei vielä tuo 4.6:tta. Tein yhden projektin sillä Clauden terminaalilla ja siinä lähti itsellä homma lapasesta, en vaan oikein pysynyt kärryillä. Tässä on paljon helpompi seurata mitä tapahtuu. Neovimiin olisi kanssa kiva viritellä tämä mutta en tiedä onko tällaisessa hommassa niin paljon etua.
Naksauttaa rajoitukset takaisin päälle kun alkaa olemaan 50$ käytetty. Claude Coden kanssa joutuu hyväksymään, että se on kuin ihminen. Suunnittelun käyttäminen auttaa kun näkee, että askeleet ja valitut lähestymistavat/palikat hyviä ennen kuin säntää toteutukseen. Roolien käyttäminen hyvä kun voi käskeä koneen tekemään suunnitelmalle/koodille/testeille/... esim. vertaisarvioinnin ennen ihmiselle tuotoksen esittelyä. VIBE code kirja on oikeasti hyvä.

En oikein näe tarvetta enää käyttää AI:ta parempana auto completena kun ainakin tuo 4.5 ja 4.6 opus claude code:ssa toimii isompienkin taskien kanssa hyvin itsenäisesti. Ei tarvi enää murunen kerrallaan yrittää kuten vuosi sitten.
 
Ei tuo Code VS:ssäkään toimi auto completena. Ihan samalla tavalla ne ohjeet annetaan chatissa. Mutta tuo UI toimii itsellä paremmin ylipäätään. Jos haluan vielä vaikka uudestaan tarkastaa, mitä CC teki, niin se on tuossa samassa työkalussa, terminaalin kanssa pitää oikeastaan olla samat koodit toisessa editorissa auki samaan aikaan. Anthropic toki haluaa että kaikki hirttäytyy tuohon heidän terminaaliinsa, silloin ei mallia vaihdeta niin vain.

Minä taidan monimutkaisempia konsteja odotella. Jos nyt säntää jokaisen uuden idean perään niin ei tässä muuta ehtisikään. Joka viikko tulee joku uusi muka mullistava konsti käyttää AI:ta. Katsotaan mihin suuntaan homma kääntyy ja mitkä oikeasti todetaan best practiceiksi.
 
Tähän jää koukkuun. Olen testaillut eri kielimalleja, mistral, qwen 2.5, llama 3, granite3, granite4, phi4-mini ja niillä on jokaisella oma "luonne". Jotkut jaarittelevat iloisesti ummet ja lammet, toiset pysyvät tiukasti asiassa.

Samalla oppinut että roolipelaamalla voi parantaa kielimallin käyttäytymistä. Esimerkiksi prompti joka alkaa esim. "You are a disciplined C developer who writes efficient and robust code." voi parantaa lopputulosta huomattavasti.
 
Viimeksi muokattu:
Samalla oppinut että roolipelaamalla voi parantaa kielimallin käyttäytymistä. Esimerkiksi prompti joka alkaa esim. "You are a disciplined C developer who writes efficient and robust code." voi parantaa lopputulosta huomattavasti.
Tämä on todella hyvä huomio. Jos tekee vaikeampaa niin jäänyt käyttöön patterni "review the plan as expert ..." ja kun koodi pullahtaa ulos niin sama "as expert of xyz review the code". Ja tietenkin se että kun ei ne lue ajatuksia niin aika hyvä painottaa prompteissa haluaako suorituskykyä, ylläpidettävyyttä, välttää copy/pastea jne. Monessa jutussa erittäin nohevia ja sitten lyö päin naamaa joku älyttömyys minkä saa pois paremmin promptaamalla.

Noi kakkoskierrokkset eri kulmasta parantaa laatua merkittävästi. Tämähän se idea taitaa olla claude coden uudessa versiossa kun voi roolittaa koko tiimillisen agentteja mitkä laittaa koodin kimppuun. Eri agentit katsovat eri kulmista niin tulee parempi kuin naivisti yhdellä agentilla tekemällä. Näissä hyvä käskeä ajamaan rinnakkain niin saa tokeneita palamaan :)

Tuota samaa tullut viimeksi ajettua tänään koko amigakoodipohjaan. Do expert review of whole codebase, pay attention especially to,...
 
Viimeksi muokattu:
Tämä saattaa vähän harmittaa joitakin, mutta laitan kuitenkin. Joku oli testannut tuota Clauden tuottamaa kääntäjää ja tässä ajatuksia:
The Most Expensive Crappy Toy Compiler Ever Built?

You've probably seen the stream of posts. Anthropic let AI agents using Opus 4.6 build a Rust-based C compiler. It cost 20 000 USD in API fees, which is nothing compared to the cost of having real compiler engineers build an industrial-strength optimizing retargetable C compiler. What previously took hundreds of engineers decades to create can now be easily done by AI. And so on. And so forth. But is that really true?

What the agents actually produced is a crappy toy. I hesitate even to call it a C compiler because it ignores so many parts of the C standard that it almost feels like a crime against computer science. In low-level programming, "looks like it's working" is often worse than "not working at all" because it introduces silent bugs.

I ran some very basic tests (see the screenshots). The compiler completely ignored the const keyword. It didn't mind me defining the same variable multiple times in a row with different types. Compiling with -O3 produced the exact same binary as with -O0. The optimization passes are also toy-level compared to GCC's.

These are just some random findings. It's not that there are some finishing touches left; the problems with this compiler are massive. What we have here is a happy-path compiler at best, and the happy path is the easy part. The GCC torture tests seem like an impressive test suite to pass with a 99% success rate - particularly if you focus on the name. But they're precisely the test suite to focus on if you have these types of problems and wish to pass a lot of tests anyway.

The whole story is a masterclass in marketing for agentic workflows, of course. It might also be a masterclass in agentic orchestration, but it's a failure in compiler engineering. Sure, this might be the worst this compiler will ever be, as they always say, but to me, it proves that AI isn't anywhere near ready to replace compiler engineers. A cheap but crappy alternative is nice for a random startup's web app demo, but not for a compiler.

Another take on this is that AI had to cheat by using GCC as an oracle to pull this off. It wasn't enough that Opus 4.6 surely has been trained on the content of numerous compiler books, compiler source code, compiler theory lecture notes, etc. It hasn't actually "mastered" the C standard; it's performing a high-speed trial-and-error search until it matches the output of a human-built tool. A very tricky part of building a C compiler front-end is understanding and translating the standard text into code. The agents did nothing of the kind.

Could the agents have created a C compiler from only the standard document, without ever being trained on compiler source code? With the current LLM architecture, the answer is almost certainly no. It feels like we are witnessing the Dunning-Kruger effect of AI agents. I admit it's an interesting experiment, well executed, but it doesn't deserve the amount of "wow" reactions it's getting right now.
 
Tämä saattaa vähän harmittaa joitakin, mutta laitan kuitenkin. Joku oli testannut tuota Clauden tuottamaa kääntäjää ja tässä ajatuksia:
Tuossa menee nyt kokonaan ohi se mikä oli blogipostauksen ja kääntäjäharjoituksen pointti. TLDR, kokeilla millä reunaehdoilla voi tehdä rinnakkaisilla agenteilla melko autonomisesti kohtuullisen kompleksisen applikaation jonka toimivuus voidaan tarkistaa reaalimaailmassa. Tuosta saa vinkkejä omiin projekteihin ja saa esimerkkejä siitä mikä toimii ja mikä ei (vielä) toimi. Esim TDD että agenttilooppi voi toimia itsenäisesti verifioiden tulosta ja korjaten virheitä. Pointti ei ollut "oho, tehtiin kääntäjä halvalla" tai että tehtiin hyvä kääntäjä.
 
Viimeksi muokattu:
En tiedä kannattaako noita palveluita vaihdella kuin kalsareita. Tilanteet muuttuu kovin nopeasti. Kohta enivei multa loppuu koodauskausi kun tyrähomma paranee ja alkaa kalastus+kesäkausi. Ens talvena uutta matoa koukkuun sen hetkisen tilanteen pohjalta. Mulla aika lyhyt slotti talvella missä koodaus jaksaa kiinnostaa, muu vuosi toisten harrastusten parissa. Tosin tää agenttijuttu voi muuttaa tilannetta, jos/kun tuntuu ettei tarvi enää itse koodata, riittää tikettien kirjoittaminen. Tehnyt tyyliin ihan kourallisen koodirivejä parin viime viikon aikana, claude toimittaa upeasti sellaista mihin ei tarvi itse koskea.
Mökillä kirjoittelet vaikka huussitauoilla tikettejä ja ei projektit ole jäissä kesää :kippis:

Tuossa menee nyt kokonaan ohi se mikä oli blogipostauksen ja kääntäjäharjoituksen pointti.
Taitaa olla tahallista se, katsoin mitä tuon tekstin tuottaja kirjoitellut muuta ja löytyi pitkä lista valitusta tekoälystä LinkedInissä. Vaikka olisi tehnyt täydellisen kääntäjän ei se sittenkään olisi hyvä, vaan argumentti olisi joku "kopioi vain koodia, aivan paska".
 
Tuossa menee nyt kokonaan ohi se mikä oli blogipostauksen ja kääntäjäharjoituksen pointti.
Valtaosalla kommentoijista on mennyt pointti ohi. Minulla on nyt tuolla Linkkarin puolella n. joka toinen viesti hehkutusta, miten 20k saatiin aikaan C-kääntäjä. Eli Anthropicin hypejuttu on mennyt todella hyvin läpi.
 
Taitaa olla tahallista se, katsoin mitä tuon tekstin tuottaja kirjoitellut muuta ja löytyi pitkä lista valitusta tekoälystä LinkedInissä. Vaikka olisi tehnyt täydellisen kääntäjän ei se sittenkään olisi hyvä, vaan argumentti olisi joku "kopioi vain koodia, aivan paska".
Mistäs sinä nämä postaukset löysit? Katsoin kaverin profiilia ja featured posts sisältää C- ja matalan tason ohjelmointiin liittyviä juttuja.

Eikä kyllä näytä olevan AI-valitusta muutenkaan: LinkedIn Login, Sign in | LinkedIn
 
Rantissa oli hyvää ja huonoa. Olin itse jo lukematta varma että lopputulos ei ole tuotantotason koodia.

Ajatuksia:
- C on standardina aika löyhä. Mikä ei ole kiellettyä, voi olla sallittua, paitsi joskus se ei ole sallittua.
- C on standardina myös aika laaja. Mikä versio? K&R? ANSI-C, C23, vai kaikki?
- Nuo yllä olevat, tokeneita ja kontekstia palaa.
- Tehdään Rustilla. Kiva. Tokeneita ja kontekstia palaa matalan tason koodiin vielä lisää.

Mitä olen tämän viikon aikana AI:sta oppinut niin tiivistäminen auttaa. Vaikka kontekstit ovat nykyään isoja, niin mitä kompaktimmat säännöt sitä parempi. Joten projektit missä vaaditaan pitkän sääntökirjan noudattamista onnistuvat huonommin.

Vastaavasti tekoäly toimii paremmin kun se voi muokata koodia suoraan oman mallinsa avuilla, ilman lisättyä kontekstia.

Tämä on minun mielipide perustuen omiin kokemuksiin ja ymmärrykseen.
 
Valtaosalla kommentoijista on mennyt pointti ohi. Minulla on nyt tuolla Linkkarin puolella n. joka toinen viesti hehkutusta, miten 20k saatiin aikaan C-kääntäjä. Eli Anthropicin hypejuttu on mennyt todella hyvin läpi.
Jos sen olisi teettänyt alihankintana, niin tuolla rahalla olisi saanut pelkän projektipäällikön kuukaudeksi.

C:
int main() {
    // TODO: compiler
    return 0;
}
 
No juu, jos tavoite on tehdä huono C-kääntäjä Rustilla, niin toki käsityönä olisi ollut kalliimpaa.
 
Mökillä kirjoittelet vaikka huussitauoilla tikettejä ja ei projektit ole jäissä kesää :kippis:
Githubiin koodit + ci-putki, käännös+emulaattori kontteihin. Emusta tallettelee framebuffereita kuviin. Antaa sitten kavereiden kirjotella tiketit, katsoo githubista PR:t+koodit ja mergeää hyvät sillon kun jaksaa(puhelimella). Ne PR:t missä emussa otetut kuvat romua niin voi heittää suoraan kuikkaan.

Nyt on upea kun on emulaattori+logit loopissa niin agentin voi antaa iteroida. Vielä en ole kokeillut tajuaisiko agentti ruutukaappauksia niin sais osan visuaalisesti verifikaatiostakin agentille annettua. Miettinyt, että laittas oikean amigan looppiin niin vois antaa agentin hioa suorituskykyä. Nyt on aika kasa benchmark-koodia tehtynä niin agentti vois ensin microbenchmarkkeja+kääntäjäasetuksia iteroida, vertaa myös lopputuloksia generoituun assyyn. Lopussa kun on c-puoli täysin jiirissä niin käskee tekemään inline assya, inline assy mikrobenchmarkkeja ja optimoimaan koodiin assylla innerloopit. Agentti tämmöisessä täysin tunnoton niin vois ihan brute forcettaa inline assya 24/7/365 siitä mihin äly ja algoritmillinen optimointi loppuu. Inline assyyn kivan pohjan saa gcc:n tuottamasta niin AI:n saa juoksevan alun, samalla löytyy loput huonot c-rakenteet koodista joista ei generoitunut sellainen koodi kuin olisi kuvitellut.
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
299 975
Viestejä
5 110 448
Jäsenet
81 744
Uusin jäsen
Hugelius

Hinta.fi

Back
Ylös Bottom