Paikallisesti pyörivät LLM koodausavustimet

mailbag · 22.04.2026

SOTA:lla meinasin noita just mitä itse olen käyttänyt 5.3/5.4 gpt, kimi k2.5, sonnet ja opus 4.6 ennen uusimpia päivityksiä yms tommosia perus harrastelin realistisesti halvalla käytettäviä malleja, toki sisäisiä malleja ja kaikenlaisia ultra-thinking moodeja tietenkin löytyy mitä nyt en ihan laske.

Jos tätä tahtia 5.4 tasoisen mallin saa omalla 5090 rullaamaan ens tammikuussa niin maistuu.

finWeazel · 22.04.2026

edup sanoi:
En tiedä miten relevantteja Mythokset yms. nyt sitten on, kun niitä kyetään tarjoamaan hyvin harvoille, todennäköisesti NDA:n alla niin että mitään testejä ei saa julkaista, ja niitä ei tosiaan käytännössä saa käyttöön jos ei ole harvalukuisessa joukossa firmoja töissä. Kun sitten Anthropicilta ja Open AI:lta saa kuun asennosta riippuen vähän mitä sattuu, nousee näiden lokaalien mallien pisteet vertailussa aina vaan korkeammalle.

Argumentti oli miten kaukana state of the art lokaali on state of the art pilvestä.

--

Lokaalin puolesta imho. hyvä argumentti on se, että riittää käyttöön x,y,z. Joskus riittävän hyvä on tarpeeksi, ei tarvi parasta. Sama juttu projektien koon, muistimäärien, kauanko jaksaa odotella vastausta yms. kanssa. Pilvessä on näkyvissä, että rauta nopeutuu ja muistinmäärät kasvavat vuosittain, vera-rubin nvl72 10x loikka versus blackwell. Lokaalissa järkevällä hinnalla vaikea nähdä että nvidia/amd seuraava peligpu olisi muuta kuin sama muistimäärä kuin 5090:ssa ja 30% nopeampi kuin 5090:en. APU puolella voi jotain tapahtua muistimäärien kanssa, mutta laskentateho tuskin kasvaa samalla vauhdilla kuin pilvessä.

mailbag · 22.04.2026

Tällaisen RSS feed combinerin teki 3.6 27b Q6_K_XL. 1 yritys, kaikki toimii ei tarvinnut korjailla mitään tätä testiä varten.

Pyöri noin 50-60 tok/sec 5090 näyttiksellä ja oli valmis nopeammin kuin isot pilvimallit.

finWeazel · 22.04.2026

mailbag sanoi:
Pyöri noin 50-60 tok/sec 5090 näyttiksellä ja oli valmis nopeammin kuin isot pilvimallit.

Tuo nyt on tavallaan yhdenlainen minimaalinen hello world best case. Miten käy reaalimaailman miljoona riviä c/c++ koodipohjan kanssa. Tarpeita on monenlaisia, yhdelle riittää, toiselle ei. Just semmoset pienet webbisivut, pikkuskriptit yms. ensimmäiset mitkä saa lokaalilla tehtyä versus isommat projektit.

mailbag · 22.04.2026

Omat projektit on ollut max 30k riviä, yleensä kuitenkin alle 10k niin en osaa sanoa siitä.

finWeazel · 22.04.2026

Jäi mietityttää, että minkä kokoisia nuo reaalimaailman projektit nykyään on. Unreal Enginessä googlen mukaan 30-40miljoonaa koodiriviä + dokumentaatiot päälle.

Omassa projektissa mitä viime viikot tunkannut allaolevat statsit. c:lla tehty serveri amigalle + yksikkötestihärveli niin, että saadaan x86:lla yksikkötestattua c-koodit. Kaksi python ui:ta eri käyttötarkoituksiin. Päälle repossa muutama eri sdk(verkko, näyttökortti, amigan käyttiksen rajapinnat) jotka eivät mukana numeroissa mutta joita AI joutuu käyttämään että saa koodia integroitua koneeseen. Python koodissa pakko olla joku tajuton käpy AI:lla kun ei sitä pitäisi NOIN paljoa olla kun katsoo toiminnallisuutta mikä appseissa on. Laskisin tän ihan pikkuprojektiksi ja puuhailuksi versus mitä työelämässä koodipohjat olivat.

edup · 22.04.2026

finWeazel sanoi:
Jäi mietityttää, että minkä kokoisia nuo reaalimaailman projektit nykyään on. Unreal Enginessä googlen mukaan 30-40miljoonaa koodiriviä + dokumentaatiot päälle.

Omassa projektissa mitä viime viikot tunkannut allaolevat statsit. c:lla tehty serveri amigalle + yksikkötestihärveli niin, että saadaan x86:lla yksikkötestattua c-koodit. Kaksi python ui:ta eri käyttötarkoituksiin. Päälle repossa muutama eri sdk(verkko, näyttökortti, amigan käyttiksen rajapinnat) jotka eivät mukana mutta joita AI joutuu käyttämään että saa koodia integroitua koneeseen. Python koodissa pakko olla joku tajuton käpy AI:lla kun ei sitä pitäisi NOIN paljoa olla kun katsoo toiminnallisuutta mikä appsissa on. Laskisin tän ihan pikkuprojektiksi ja puuhailuksi versus mitä työelämässä koodipohjat olivat.

Mä en ole ihan täysin vakuuttunut siitä, että koodirivien kokonaismäärä on relevantti asia. Jo nyt käytännössä aliagentit lukee koodipohjaa läpi ja filtteröi sieltä läpi ne osat koodista ja dokumentaatiosta mitkä on relevantteja käsillä olevan tehtävän suorittamiseen. Tehtävästä ja projektista riippuen väitän että relevanttia koodia harvoin on edes kovin montaa prosenttia, ellei ole joku ihan pikkuprojekti kyseessä.

mailbag · 22.04.2026

Joo eikai nuo enää lue koko codebasea läpi, eka joillain grepeillä ja findeilla ettii relevantit tiedostot ja funktiot ja sitten yleensä näkyy jotain luettu R60-120, R450-500, R1800-R1860 kun agentti jahtaa jonkun toiminnon läpi ja sitten ok minulla on tarpeeksi tietoa asiasta ja sitten kirjoitetaan insertti tai lisätään jokaiseen joku lisäys.

finWeazel · 22.04.2026

edup sanoi:
Mä en ole ihan täysin vakuuttunut siitä, että koodirivien kokonaismäärä on relevantti asia. Jo nyt käytännössä aliagentit lukee koodipohjaa läpi ja filtteröi sieltä läpi ne osat koodista ja dokumentaatiosta mitkä on relevantteja käsillä olevan tehtävän suorittamiseen. Tehtävästä ja projektista riippuen väitän että relevanttia koodia harvoin on edes kovin montaa prosenttia, ellei ole joku ihan pikkuprojekti kyseessä.

Jos ei ei ymmärrä kokonaisuutta ja ei näe kokonaisuutta niin lopputulos ei välttämättä integroidu järkevästi. Usein parhaat taskit AI:lle on isompia refaktorointeja/migraatioita mitä ihmisvoimin ei kannata enää nykypäivänä tehdä. Mutta jätän tähän, ei ollut tarkoitus aloittaa mitään sotaa lokaali vs. pilvi. Jokainen käyttänee sitä mikä riittää omaan tarpeeseen. Tarpeita vain on kovin monenlaisia.

Yksi juttu mistä viime aikoina tykännyt kun voi heittää AI:lle 4k ruudulta screenshotin ja sanoa että pieleen meni. Hyvin tajuaa logitekstit lukea screenshotista tai python appsin kohdalla korjaa leiska ja teemajuttuja screenshoteista. Myös se, että näiden pureskelu tapahtuu about heti eikä vartin päästä.

edup · 23.04.2026

Tuo Qwen3.6 27B vaikuttaa todella hyvälle ensikokeilujen perusteella. Ajattelutokeneita tulee paljon järjellisempi määrä kuin 35B-A3B:llä, ja tuntuu olevan hyvin pitkälti no-bullshit-linjalla niin että asiat edistyy. Kauheasti ei ole tarvinnut tuon tekemisiä korjailla vielä.

I'maRobot · 23.04.2026

finWeazel sanoi:
Mutta jätän tähän, ei ollut tarkoitus aloittaa mitään sotaa lokaali vs. pilvi. Jokainen käyttänee sitä mikä riittää omaan tarpeeseen. Tarpeita vain on kovin monenlaisia.

Mutta täähän on koko tämän jutun ja forumin suola. Väittely. Siinä oppii sivullisetkin kaikkein parhaiten kun kaksi asiantuntijaa vänkää 'paremmuudesta' joka on kuitenkin loppukädessä aina subjetiivinen eli oikeaa vastausta ei ole. Kannustan väittelyyn. Se ei todellakaan ole sotaa. Se on oppimista ja tiedon jakamista.

Vain suomalainen sanoo väittelyä riitelyksi (aka sodaksi). Vain suomalainen ottaa kaiken totuutena vastaan mitä kirjoitetaan ja 'ylhäältä' annetaan jota ei saa kiistää tai jumala rankaisee.

finWeazel sanoi:
Myös se, että näiden pureskelu tapahtuu about heti eikä vartin päästä.

Siis tässä tulee se ammattikäyttö ja ajan hinta mukaan kuvioon vs. paikallinen asennus.

Toisaalta, paikallista voi kiihdyttää rahalla melkein rajattomasti. Kun kuitenkin infra on olemassa, eli tietokone jolla työtä nytkin tehdään, niin kyse on oikeastaan siitä kuinka paljon kotelon sisäiseen rautaan eli prossuun, muistiin ja GPU:n haluaa investoida suhteessa siihen että ostaa pilvestä nopeutta. Väitän että jos investoi -lisää- 24x200e=4800e omaan rautaan (CPU+GPU+muisti) saa jo aikamoisen paikallisen tykin pureskelemaan ongelmia/koodia. (/ 24x200e = 200e/kk x 2v takaisinmaksu). Ja tuo rauta on käytettävissä myös seuraavan koneinvestoinnin jälkeenkin vaikka toisena toisena myllynä jakamassa kuormaa mutta tuo 4800e on mennyt ilman että jää mitään jäljelle. Vain pilvipalvelun ylläpito kiittää ja kuittaa.

Matt Damon · 23.04.2026

I'maRobot sanoi:
Mutta täähän on koko tämän jutun ja forumin suola. Väittely. Siinä oppii sivullisetkin kaikkein parhaiten kun kaksi asiantuntijaa vänkää 'paremmuudesta'

Jätän lainauksen tohon. Parhaiten kaikki oppii esimerkeistä ja onnistumisista. Ei todellakaan netin täyttävästä vänkäämisestä.

I'maRobot · 23.04.2026

Matt Damon sanoi:
Jätän lainauksen tohon. Parhaiten kaikki oppii esimerkeistä ja onnistumisista. Ei todellakaan netin täyttävästä vänkäämisestä.

Asiantuntijoiden hyvin perusteltu väittely on nopea ja tehokas tapa oppia ja saada näkökulmia joita sitten itse jalostaa.

Pitkälle jalostettuja hyviä esimerkkejä ei vain ole (yleensä ne on yrityssalaisuuksia tai niillä on ns. kaupallista arvoa) ja yritys/erehdys/onnistuminen prosessina ei yleensä johda optimaaliseen tulokseen ja on ajallisesti pitkä tie. Pään seinään hakkaaminen ei tuota lisäarvoa, se vain tuottaa harmia, vitutusta, kyllästymistä eikä nauti lopputuloksesta.

Kun väittely on perusteltua eikä alakoululaisen juupas/eipäs -tasoista niin sitä on mielenkiintoista kuunnella. Kun on riittävän monta kertaa istunut esim. jenkkiyliopistojen postgradu ja postdoctor tyyppien väittelyissä niin tietää mitä on kun oikeasti väitellään eikä vängätään. Suomalaisilla on paljon oppimista väittelemisestä joka on taito itsellään.

Optimaalista paikallista mallia tässä koodaamiseen olen suunnittelemassa. Parasta sellaista kun ei aika eikä viitseliäisyys oikein anna periksi mennä perse edellä puuhun ja lopulta oppia 'onnistumisista'. Ehdotuksia? Siis oikeasti tuotannossa olevia ratkaisuja eikä vain harrastelijoiden yritys/erehdys onnistumisia.

edup · 23.04.2026

I'maRobot sanoi:
Optimaalista paikallista mallia tässä koodaamiseen olen suunnittelemassa. Parasta sellaista kun ei aika eikä viitseliäisyys oikein anna periksi mennä perse edellä puuhun ja lopulta oppia 'onnistumisista'. Ehdotuksia? Siis oikeasti tuotannossa olevia ratkaisuja eikä vain harrastelijoiden yritys/erehdys onnistumisia.

Lokaalien mallien ketjussa kun ollaan, niin tällä hetkellä tuo Qwen3.6 27B vaikuttaa todella pätevälle. Vaatii silti järeän GPU:n jotta toimii järkevällä nopeudella. Pikkuveli 35B A3B taas on nopea, mutta ainakaan itseäni ei sen ajatusprosessin pituus ja usein kehään päätyminen oikein lopulta vakuuttaneet.

Myös molemmat Gemma 4:t on varsin hyviä, mutta itse tämänhetkisellä kokeilulla suosittelisin tuota Qwen3.6 27B. Se tuli ulos alle 2 päivää sitten, joten ei ole ihan vielä ehtinyt tuotantoon saakka ainakaan allekirjoittaneen toimesta.

Näissä kannattaa myös heti asennoitua siihen että muutaman kuukauden päästä joltain on taas vielä parempaa ulkona saman kokoluokan malleissa.

Harb · 26.04.2026

Ehkä tää ketju on paras paikka kysymykselle, joka tuli tuossa mieleen. Onko hajautetussa laskentakapasiteetissa mitään järkeä ja onko markkinoilla ratkaisuja siihen?

Isommilla yrityksillä on kuitenkin aika paljon omaa laskentakapasiteettia ja tarve optimoida oman kapasiteetin hyödyntäminen vs. palveluntarjoajan käyttäminen skaalautumiseen.

Tietysti palveluntarjoajat varmaankin haluaisivat lukita yritykset käyttämään pelkästään heidän kapasiteettiaan mutta luulisi että olisi suht helppoa rakentaa rajapinta, joka ylivuotaa oman kapan loppuessa kyselyt palveluntarjoajalle.

edup · 26.04.2026

Harb sanoi:
Ehkä tää ketju on paras paikka kysymykselle, joka tuli tuossa mieleen. Onko hajautetussa laskentakapasiteetissa mitään järkeä ja onko markkinoilla ratkaisuja siihen?

Isommilla yrityksillä on kuitenkin aika paljon omaa laskentakapasiteettia ja tarve optimoida oman kapasiteetin hyödyntäminen vs. palveluntarjoajan käyttäminen skaalautumiseen.

Tietysti palveluntarjoajat varmaankin haluaisivat lukita yritykset käyttämään pelkästään heidän kapasiteettiaan mutta luulisi että olisi suht helppoa rakentaa rajapinta, joka ylivuotaa oman kapan loppuessa kyselyt palveluntarjoajalle.

Riippuu siitä mitä tarkalleen ottaen tarkoitat hajautetulla laskentakapasiteetilla. Jos siis on oikeasti kyvykästä konetta joko isommilla työasema GPU:illa tai serverikorteilla, niin senkus tunkkaa vaikka vLLM:llä palvelun pystyyn niissä sijainneissa missä haluaa, ja ohjaa jonkin sorttisella load balancerilla liikennettä niille.

Jos taas sitä, että firmalla on 10 000 läppäriä missä joku keskitehoinen CPU mikä idlaa 95% ajasta, niin mitään järjellistä niistä ei saa irti.

EDIT: Ja jos joku nyt innostuu virittelemään moista hajautettua systeemiä load balancerin kanssa, kannattaa pyrkiä siihen että yhden käyttäjän kutsut ohjataan aina samalle nodelle, johtuen siitä että tällöin prefix caching toimii fiksusti kun käyttäjän työkalulta tulevien promptien alkupätkä todennäköisemmin löytyy suoraan cachesta. Sama homma sitten jos usea käyttäjä käyttää samanlaista setuppia/työkalua jolla noita malleja hyödyntää.

finWeazel · 08.05.2026

Osui silmiin taiwanista PCIE pohjainen ai-kiihdytin minkä väitetään pystyvän ajamaan 700B parametrikoon malleja. Muistia laitteessa 384GB. Jos tämä kiihdytin on todellinen ja ei mikään järjettömän kallis niin aika monta asiaa muuttui sormia napsauttamalla

HyperThought is architected for flexible scaling across different form factors — packaged as an SoC or card, from edge to mini data center. Scaling from 1 chip to 6 chips on a single card, with memory capacity ranging from 32GB to 384 GB, HyperThought serves models from 4B to 700B parameters — letting enterprises right-size their deployment to actual workload requirements without over-provisioning.

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

/PRNewswire/ -- Ahead of COMPUTEX 2026, Skymizer Taiwan Inc., a pioneer in AI inference solutions, today previewed a major advancement in on-premise AI...

www.prnewswire.com

This PCIe AI Accelerator Card Can Run 700B LLMs Locally With 384 GB Memory at Just 240W, Less Than Half The Power of RTX PRO 6000 Blackwell

Taiwanese company unveiled its new PCIe AI accelerator card that can run 700B LLMs locally at just 240W, ending need for large GPU clusters.

wccftech.com

jkaart · 08.05.2026

finWeazel sanoi:
Osui silmiin taiwanista PCIE pohjainen ai-kiihdytin minkä väitetään pystyvän ajamaan 700B parametrikoon malleja. Muistia laitteessa 384GB. Jos tämä kiihdytin on todellinen ja ei mikään järjettömän kallis niin aika monta asiaa muuttui sormia napsauttamalla

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

/PRNewswire/ -- Ahead of COMPUTEX 2026, Skymizer Taiwan Inc., a pioneer in AI inference solutions, today previewed a major advancement in on-premise AI...

www.prnewswire.com

This PCIe AI Accelerator Card Can Run 700B LLMs Locally With 384 GB Memory at Just 240W, Less Than Half The Power of RTX PRO 6000 Blackwell

Taiwanese company unveiled its new PCIe AI accelerator card that can run 700B LLMs locally at just 240W, ending need for large GPU clusters.

wccftech.com

Voisin veikata hinnaksi (384GB mallilla) jotain 10k -12k, kun pelkkien muistien osuus on jo 6k+...

finWeazel · 08.05.2026

jkaart sanoi:
Voisin veikata hinnaksi (384GB mallilla) jotain 10k -12k, kun pelkkien muistien osuus on jo 6k+...

Joku 12ke olis vielä halpa kun miettii että rtx6000 pro taitaa olla 8ke pinnassa ja muistia "vain" 96GB. Tosin ei tuo taiwanin ihme kai mikään älyttömän nopea ole, mutta 700B mallilla vois olla toivoa jättää agenttilooppi pyörimään 24/7/365 ja ehkä se itsekseen jauhaa ajan kanssa asioita kasaan. Saishan tuolla 10x+ isomman mallin ajoon kuin 5090:lla.

Vois sellainenkin olla mielenkiintoinen että tuolla 384GB muistilla olevalla ajoon suunnitelmat+vaikeat asiat ja delegoi 5090:lle helpompia nakkeja tai valmiiksi pureskeltua suunnitelmaa mikä vaatii vähemmän älykkyyttä ja enemmän ohjeiden seuraamista. tech lead + juniori systeemi.

finWeazel · 08.05.2026

AMD:lta 144GB hbm-muistilla oleva AI-kiihdytin pcie-väylään. Tämäkin erittäin kiinnostava mun mielestä. OIkeaa hintaa ei ole kerrottu, nettihuhut liikkuu 15k-30ke välimaastossa. Vielä kun joku tekisi tuollaisia kortteja missä olisi oma liitin piirien välille että voisi jakaa pömpelissä kuorman useammalle kortille ilman pcie:n läpi menemistä.

AMD unveils Instinct MI350P with 144GB memory, its first 600W PCIe card with 12V-2x6 power connector - VideoCardz.com

AMD Instinct MI350P launches with 4.6 PFLOPS MXFP4 compute AMD has launched the Instinct MI350P, a new PCIe accelerator based on the CDNA 4 architecture.

videocardz.com

El Toro · tänään klo 18:38

Pistin Qwen3.6-35B-A3B testiin, melko turhalta vaikuttaa tuommoiseen vähän isompaan projektiin, tekee aivan järkyttävän määrän virheitä ainakin Rustin kanssa ja suurin osa ajasta menee niitä ihmetellessä. Kaipa tuolle jotain käyttöä keksii vaikkapa pikkuskripteihin tai ehkä joksikin aliagentiksi.

Miten te hyötykäytätte näitä?

Paikallisesti pyörivät LLM koodausavustimet

mailbag

finWeazel

mailbag

finWeazel

mailbag

finWeazel

edup

mailbag

finWeazel

edup

I'maRobot

Matt Damon

I'maRobot

edup

Harb

edup

finWeazel

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

This PCIe AI Accelerator Card Can Run 700B LLMs Locally With 384 GB Memory at Just 240W, Less Than Half The Power of RTX PRO 6000 Blackwell

jkaart

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

This PCIe AI Accelerator Card Can Run 700B LLMs Locally With 384 GB Memory at Just 240W, Less Than Half The Power of RTX PRO 6000 Blackwell

finWeazel

finWeazel

AMD unveils Instinct MI350P with 144GB memory, its first 600W PCIe card with 12V-2x6 power connector - VideoCardz.com

El Toro

Uutiset

Uutisia lyhyesti

Uusimmat viestit

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi