Tekoäly

Taitaapi olla OpenAI:n avoimen mallin julkaisu lähellä. Llama.cpp githubissa iso pull request sille.


edit: sieltähän se pullahti. Itse malli ja blogi:


 
Viimeksi muokattu:
Taitaapi olla OpenAI:n avoimen mallin julkaisu lähellä. Llama.cpp githubissa iso pull request sille.


edit: sieltähän se pullahti. Itse malli ja blogi:


Muistivaatimukset malleille, isompi malli vaatii 80GB ja pienempi 16GB,. Taitaa olla valmiiksi jo kvantisoitu niin, että ei ole ilmaisia lounaita jos yrittäisi tuota isompaa mallia mahduttaa esim. 5090:en muistiin.

OpenAI utilizes quantization to reduce the memory footprint of the gpt-oss models. The models are post-trained with quantization of the mixture-of-experts (MoE) weights to MXFP4 format, where the weights are quantized to 4.25 bits per parameter. The MoE weights are responsible for 90+% of the total parameter count, and quantizing these to MXFP4 enables the smaller model to run on systems with as little as 16GB memory, and the larger model to fit on a single 80GB GPU.
Vaikuttaa fiitsöreiden puolesta hyvälle
  • Agentic capabilities: Use the models’ native capabilities for function calling, web browsing (Ollama is introducing built-in web search that can be optionally enabled), python tool calls, and structured outputs.
  • Full chain-of-thought: Gain complete access to the model’s reasoning process, facilitating easier debugging and increased trust in outputs.
  • Configurable reasoning effort: Easily adjust the reasoning effort (low, medium, high) based on your specific use case and latency needs.
  • Fine-tunable: Fully customize models to your specific use case through parameter fine-tuning.
  • Permissive Apache 2.0 license: Build freely without copyleft restrictions or patent risk—ideal for experimentation, customization, and commercial deployment.
Tarvii tuota isompaa mallia testata kunhan lataus valmistuu.

edit. Ollaman uusi UI kiva, ei tarvi enää kärvistellä terminaalin kanssa.
 
Viimeksi muokattu:
OpenAI:n 20B malli sylkee ~160 tokenia sekunnissa 4090:llä (koko roska mahtuu VRAMiin) ja 120B mallikin 20 tok/s, kun eksperttejä keskusmuistiin offloadattuna, eli todella hyvin toimii noin teknisesti ottaen.

Mutta jotenkin huvittavan nurinkurista että juuri yhdysvaltalainen malli on niin saatanan sensuroitu ettei se suostu edes kirjoittamaan kolumnia, jossa esitetään AI turvallisuuden vastainen näkökulma. Kiinalaisten mallien sensuuri ihan lasten leikkiä tämän rinnalla ja enimmäkseen ohitettavissa yksinkertaisilla promptaustekniikoilla.
 
OpenAI:n 20B malli sylkee ~160 tokenia sekunnissa 4090:llä (koko roska mahtuu VRAMiin) ja 120B mallikin 20 tok/s, kun eksperttejä keskusmuistiin offloadattuna, eli todella hyvin toimii noin teknisesti ottaen.

Mutta jotenkin huvittavan nurinkurista että juuri yhdysvaltalainen malli on niin saatanan sensuroitu ettei se suostu edes kirjoittamaan kolumnia, jossa esitetään AI turvallisuuden vastainen näkökulma. Kiinalaisten mallien sensuuri ihan lasten leikkiä tämän rinnalla ja enimmäkseen ohitettavissa yksinkertaisilla promptaustekniikoilla.
Taitaa aika paljon riippua promptista toimiiko keskusmuistin kanssa pelaaminen vai ei. Jos tekee oikeasti eri experttejä vaativia prompteja niin nopeus tankkeroi. Tyyliin "tunnista tehtävänanto kuvasta ja ... ... "

macbook pro m4 max ollaman kautta ajettuna antaa tämmöiset nopeudet 120B mallille
total duration: 54.385587125s
load duration: 56.703541ms
prompt eval count: 74 token(s)
prompt eval duration: 2.75607425s
prompt eval rate: 26.85 tokens/s
eval count: 1899 token(s)
eval duration: 51.572172958s
eval rate: 36.82 tokens/s

Mielenkiintoista tuolla 120B mallilla kokeilla saisko tuosta jonkinlaisen koodausagentin tehtyä versus maksulliset pilvipalvelut. Kaikki aikaisemmat mitä kokeillut niin pilvi ollut niin paljon parempi ettei edes ilmaista lokaalia viitsi käyttää kun laatu ei vaan lokaaleissa ole riittänyt.
 
Viimeksi muokattu:
Tänään 20 aikaan openai:n striimi missä julkaistaan gpt-5. Github:ssa kävi käpy. Blogipostaus missä tietoa gpt5:en ominaisuuksista oli hetken aikaa julkinen
GPT-5 will have “enhanced agentic capabilities” and can handle “complex coding tasks with minimal prompting.”
GPT-5 will have four model variants, according to GitHub:
  • gpt-5: Designed for logic and multi-step tasks.
  • gpt-5-mini: A lightweight version for cost-sensitive applications.
  • gpt-5-nano: Optimized for speed and ideal for applications requiring low latency.
  • gpt-5-chat: Designed for advanced, natural, multimodal, and context-aware conversations for enterprise applications.
 
Viimeksi muokattu:
suuri iteraatio taas menossa. Eurooppalaista mallia odotellessa. Pieni ai pohdinta odotellessa.
mitä ai keskusteluita kuunnellut TED yms nousee esille muutos. Promptaus tekniikoiden hyödyntäminen on historiaa.
Riittää että kommunikoit sanallisesti hyvin saat aikaan asioita. Eli perus verbaalinen kommunikaatio taidot nousee kunniaan. Meinaan että joku CEO voi saada tekoälyllä hyvää aikaan missä huonosti kommunikoiva insinööri ei niinkään.
englanti on pian yleisin koodauskieli. Lisätään kuva että on uskottavuutta. Koska aina on asialle epäiliöitä. Ton tekstin voi vaikka googlettaa.
1754586543729.png
 

Statistiikka

Viestiketjuista
283 448
Viestejä
4 870 126
Jäsenet
78 660
Uusin jäsen
napp1

Hinta.fi

Back
Ylös Bottom