Olen ottanut periaatteeksi, että tekoäly on alihankkija. Alihankkija esittää todisteet että toimitettu tuote vastaa vaatimuksia - eli testit, validoinnit, benchmarkit toimituksen mukana. En todellakaan ala käymään läpi tuhansia rivejä koodia. Seuraan kyllä millaista koodia AI tekee ja ohjaan tarvittaessa. Testikoodeja kannattaa tietysti vilkaista että ovat järkeviä ja tarvittaessa täydentää.Mitä mallia käytät, niissä on valtavia eroja. anthropic(Claude code cli)paras malli max effort moodissa on upea jos ei törmää viime ajan bugeihin. Openain paras on hyvä. Muut mukaanlukien google on jäljessä. Lokaaleille voi painaa suoraan deleteä jos ajetaan kuluttajarautoihin mahtuvia versioita. Sama malli ei toimi samalla tavalla eri työkaluissa, esim. anthropicin mallit ovat paljon parempia heidän omassa claude code cli:ssa kuin cursor ai:hin integroituna.
Avain onneen on agenttiloopit ja systeemi missä AI voi iteroida itsekseen esim. testejä vastaan sen sijaan että ihminen olisi koko ajan loopissa. Agentin ei tarvi one shotata kun voi testata, korjata virheet, testata jne. Vaatii, että agentin ympärille rakennuttaa/rakentaa asioita, ei voi vain "make me an X" ja odottaa että tulis hyvä.
Yksi, mitä pidän myös tärkeänä, on, että AI etenee mahdollisimman pienissä stepeissä. Se pitää kontekstin pienenä ja vähentää kohinaa. Kaikki ylimääräiset kilkkeet, ohjeet ym. vaikka malli on iso niin se lisää silti pienen määrän kohinaa. Sitä kannattaa välttää jos pystyy.Aina kun agentti tekee virheen niin syytä päivitellä agentin muisti/taidot/ohjeet niin että samanlaiset virheet (yritetään) välttää tulevaisuudessa. Ilman näitä kolmea agentit tekee mitä sattuu, uudestaan ja uudestaan. MCP-serverit viimeinen silaus auttamaan.
Mulla ehkä auttaa että teen kaiken C#:lla, GPU-koodia myöten, ja kaikki ovat uusinta standardia. C++ voi olla kiharaisempi.
Ja tietysti: tekoälyn ymmärrys toimii parhaiten englanniksi.