Tekoäly

Toki, mutta ei näitä paikallisia malleja oikeasti käytä kuin pieni harrastelijoiden joukko.
Näkisin asian toisin päin. Harrastelijoilla on harvemmin rautaa 600B+ kokoisen mallin ajamiseen.

Sitten taas sellaiset yritykset, yliopistot, tutkimusryhmät ym. jotka nyt käyttävät suljettuja malleja voivat nyt käyttää R1:stä lokaalisti (olettaen että saavat käsiinsä riittävästi rautaa). Tämä avaa heille myös uusia ovia, koska voivat käyttää salaisella aineistolla ilman pelkoa että OpenAI tai muu palveluntarjoaja vakoilee. MIT lisenssi käsittääkseni sallii myös kaupallisen käytön.

edit: tarkistin ja jep, lisenssi sallii käytännössä kaiken. Erittäin merkittävä juttu instituutioiden ja yritysten kannalta.

This code repository and the model weights are licensed under the MIT License. DeepSeek-R1 series support commercial use, allow for any modifications and derivative works, including, but not limited to, distillation for training other LLMs.
 
Viimeksi muokattu:
Näkisin asian toisin päin. Harrastelijoilla on harvemmin rautaa 600B+ kokoisen mallin ajamiseen.

Sitten taas sellaiset yritykset, yliopistot, tutkimusryhmät ym. jotka nyt käyttävät suljettuja malleja voivat nyt käyttää R1:stä lokaalisti (olettaen että saavat käsiinsä riittävästi rautaa). Tämä avaa heille myös uusia ovia, koska voivat käyttää salaisella aineistolla ilman pelkoa että OpenAI tai muu palveluntarjoaja vakoilee. MIT lisenssi käsittääkseni sallii myös kaupallisen käytön.

edit: tarkistin ja jep, lisenssi sallii käytännössä kaiken. Erittäin merkittävä juttu instituutioiden ja yritysten kannalta.
No joo, lähinnä tarkoitin tuolla muuta käyttäjäkuntaa yritysten ja eri tutkimuslaitosten ulkopuolelta.
 
Siitä mallista löytyy myös kaikenlaisia pienempiä versioita joita voi ajaa helposti kotikoneella, itsellä myös käytössä mm. deepseekin malleja.
 
Siitä mallista löytyy myös kaikenlaisia pienempiä versioita joita voi ajaa helposti kotikoneella, itsellä myös käytössä mm. deepseekin malleja.
Ja tämä taas on juuri sitä harrastajaporukan toimintaa mitä tarkoitin. Vähän sama kuin prossujen kellotus jne. Siinä ei ole mitään väärää, päinvastoin, mutta suuressa mittakaavassa se on kuitenkin vielä ainakin nykypäivänä melko niche-tason puuhastelua.

Paikallisen kielimallin kanssa tietosuoja/tietoturva on paremmalla tolalla, mutta toisaalta laskuteho rajallinen. Saa nähdä mihin suuntaan maailma näiden kanssa kehittyy.
 
Ainakin se paikallinen 1.5B (miljardia parametria) malli jota testasin on lähes yhtä huono kuin muutkin vastaan kokoiset. Nyt testailen 32B mallilla CPU:lla ja tulokset ovat hieman lupaavampia.
Hirveästi tämä selittää verrattuna esim. pelkkään vastaavankokoiseen Qwen malliin tai aiempaan DeepseekV2-liteen (16B) verrrattuna, mutta tulokset ovat etenkin 1.5B mallilla aikalailla asian vierestä.

Voisivat rajata malleja vähän enemmän johonkin tiettyyn tarkoitukseen. Esim. ohjelmointi on aika laaja käsite, mutta jos rajaisi mallin vaikka pelkästään C-ohjelmointiin, voisi saada ihan kohtalaisen mallin siedettävällä muistinkäytöllä.
 
Testasin mitä paikallisesti koneellani pyörivät mallit kertoi Tiananmenin tapahtumista suomeksi:

deepseek-r1:32b
Tiananmenin aukion tapahtumat 1989 ovat merkittäviä ja rikollisesti tarinoita modernin historioiden. Tapahtumat alkivat huhtikuuta 1989, kun opinnot alkoivat kerätä Pekingin Tiananmenin aukiolle vapauden ja demokratian vaatimassa. Tämä oli osa laajempaa liike.activity, joka mukaan myös työväestö ja yleinen sivilsääty.


Ensinnäkin protestit olivat rauhanomaisia: miljoonia ihmisiä kerüntyi aukiolle, vaikka he halusivat tulevaisuutta kohti vapaata ja demokraattista Kiinaa. Mediat ja kansainvälinen yhteisö seurasi sitä kiinnostuneesti.


Kuitenkin hallitus ei ollut valmis antamaan vammaansa. Vastauksenaan, ne julkistivät sotilaallisen lainsäädännön 20. toukokuuta, ja sotilait alkoivat liikuttaa kaupunkiin. Lopulta 3.-4. kesäkuuta 1989, Pekingin aavistusvaltiolle syvällinen surullisuus: joukkueet varustuneita jalkaväkiä, tankkeja ja poliisia alkoivat osottaa aukiolle rikkoa. He lopettivat protestit kaikin tarjoamallaan välineillä.


Tapahtumien jälkeen hallitus esti tiedon levittämisen, ja niistä puhuminen kiellettiin Kiinassa pitkään ajan. Monet osallistuneet arrestoitiin tai menivät salakunnissa. Kansainvälisellä alueella tapahtumat herättivät laajaa huolta ja tuomioita.


Tiananmenin aukion välikunnat ovat edelleen merkittävä muisti, joka ylittää aikakaudet. Ne muistelevat niin sitä, miten hallituksen voima on tehnyt rikollisia asioita, kun se ei ole valmis antamaan vapautta ja demokratiaa kansalleen.
gemma2:27b
Tiananmenin aukion tapahtumat vuonna 1989 olivat kompleksinen ja traaginen sarja protesteja ja väkivaltaa, joka järkytti Kiinaa ja koko maailmaa.

**Tausta:**

1980-luvun loppupuolella Kiinassa vallitsivat taloudellinen nousu ja sosiaaliset muutokset. Samalla kasvoi myös kritiikki kommunistisen puolueen johtamaa autoritaarista järjestelmää kohtaan. Ihmiset kaipasivat avoimempaa yhteiskuntaa, sananvapautta ja demokratiaa.

**Protestien alku:**

Huhtikuussa 1989 Pekingin Tiananmenin aukiolle kokoontui opiskelija joukko osoittamaan mieltään korruption, inflaation ja poliittisen sorron suhteen. He vaativat hallitukselta demokraattisia uudistuksia ja tiedonvapautta. Protestit levisivät nopeasti, ja niihin liittyi myös työläisiä, älymystöä ja muita kansalaisryhmiä.

**Protestien kukoistus:**

Miljoonat ihmiset täyttivät Tiananmenin aukion ja sen ympäristön. Mielenosoitukset olivat pääosin rauhanomaisia ja järjestettyjä. Oppositiojoukkojen edustajat neuvottelivat hallituksen kanssa, mutta keskustelut eivät tuottaneet tuloksia.

**Hallituksen reaktio:**

Kun protestit jatkuivat ja leviämisen merkki oli selvästi nähtävissä, kommunistinen puolue julisti poikkeustilan 20. toukokuuta 1989. Armeijaa komennettiin Pekingiin tukahduttamaan mielenosoitukset.

**Veriset päivät:**


3. - 4. kesäkuuta armeija aloitti hyökkäyksen Tiananmenin aukiolle ja sen ympäristössä oleviin kaduille. Sotilaat käyttivät panssarivaunuja, konekiväärejä ja muita aseita mielenosoittajia vastaan.

Arvioiden mukaan satojen tai jopa tuhansien ihmisten kuoli väkivaltassa. Monet ihmiset haavoittuivat ja katosivat. Kuvat verisistä taisteluista levisivät ympäri maailmaa ja järkyttivät kansainvälistä yhteisöä.

**Jälkipyykki:**

Kiinan hallitus kielsi tapahtumien julkisen keskustelun ja vangitsi satoja mielenosoittajia ja kriitikkoja. Monet ihmiset pakotettiin hiljaisuuteen pelosta ja kidutuksesta.
Tiananmenin aukion verilöyly pysyy Kiinan historiassa synkkänä muistona autoritaarisen valtan väkivallasta ja kansalaisten oikeuksien polkemisesta.

**Vaikutukset:**


Tiananmenin aukion tapahtumat ovat edelleen kiistanalaisia ja herättävät vahvoja tunteita. Kiinan hallitus on pyrkinyt kontrolloimaan tietoa tapahtumista ja vaientamaan kriittistä keskustelua. Kansainvälinen yhteisö tuomitsi väkivallan ja vaati ihmisoikeuksien kunnioittamista Kiinassa.

Tiananmenin verilöyly on muistutus siitä, kuinka tärkeää demokratia, sananvapaus ja ihmisoikeudet ovat.

Gemmasta olen kyllä tykännyt, etenkin jos suomella operoi.
 
Gemmasta olen kyllä tykännyt, etenkin jos suomella operoi.
Juu toi Gemma 2 27B on parhaiten suomea osaava kielimalli jota kotikoneella olen kokeillut. Onhan toi kieli silti harmillisen ontuvaa vielä.

Aika moni kielimalli kyllä ymmärtää suomea ja osaa tiivistää artikkelin englanniksi, mutta kirjoittaa eivät oikein osaa.

Suomea hyvin kirjoittavan mallin lisäksi toivelistallani on Kyutain Moshista älykkäämpi versio. Moshissa inputtina puheääni ja outputtina keskustelun kaltaista puhetta erittäin pienellä latenssilla. Vaikuttava teknisesti muuten, mutta on ikävä kyllä typerä kuin saapas.
 
Viimeksi muokattu:
Vielä kun löytyisi hyvä TTS malli joka osaisi puhua suomea äänen kloonauksella. Itsellä F5 ja Kokoro äänimallit käytössä mutta Englanti tuottaa parhaan tuloksen.
 
Tämän päivän deepseek-uutiset oli äärimmäisen kiinnostavia, vaikka ei selvästi aiheeseen perehtyneille palstalaisille uusia (itselleni oli). Kun kyse on kuitenkin tunnetuista transformer-mallin optimoinneista, herää kysymyksiä: miten paljon vastaavien optimointien yhdistäminen megakorporaatioiden laskentaresursseihin voisi parantaa vastaavasti tämän hetken parhaita (amerikkalaisia) malleja? Onko tällaisia ehkä jo varsin pitkällä jossain, mutta niitä ei ole vielä haluttu julkaista? Vai saatammeko tulla tilanteeseen, jossa itse asiassa laskentakapasiteetin kasvattaminen ei enää tarjoa hintaansa vastaavaa arvoa vaan fokus siirtyy vahvasti mallien kehittämiseen?
 
Tämän päivän deepseek-uutiset oli äärimmäisen kiinnostavia, vaikka ei selvästi aiheeseen perehtyneille palstalaisille uusia (itselleni oli). Kun kyse on kuitenkin tunnetuista transformer-mallin optimoinneista, herää kysymyksiä: miten paljon vastaavien optimointien yhdistäminen megakorporaatioiden laskentaresursseihin voisi parantaa vastaavasti tämän hetken parhaita (amerikkalaisia) malleja? Onko tällaisia ehkä jo varsin pitkällä jossain, mutta niitä ei ole vielä haluttu julkaista? Vai saatammeko tulla tilanteeseen, jossa itse asiassa laskentakapasiteetin kasvattaminen ei enää tarjoa hintaansa vastaavaa arvoa vaan fokus siirtyy vahvasti mallien kehittämiseen?
Minä en tiedä näistä oikeasti mitään mutta luulisi että mallien kehityksessä "helppoja" rajallisilla resursseilla löytyviä ratkaisuja on jäljellä rajallisesti. Ja toisaalta kohta voidaan olla siinä scifistä tutussa vaiheessa jossa kone kehittää itse itseään tavalla johon ihmiset eivät pysty. Ainakin siinä mielessä että se automaattisesti kokeilee suurta massaa erilaisia muutoksia malleihin, testaa itse itseään ja ehdottaa sitten parhaiden integroimista jne. Mikä taas vaatii tosi paljon laskentatehoa tietysti.
 
Joo eihän nämä AI-paskat koskaan toimi tai lopputulos on jotain hölynpölyä. Täytyy kokeilla uudestaan joskus.
Toimivat itse asiassa helvetin hyvin. AI:sta on ollut itselle viimeisen parin vuoden aikana kun sitä päivittäin hyödyntänyt monella tapaa mullistava työkalu, jota osaan hyödyntää monipuolisesti niin työ,- kuin siviilielämässä.
 
Toimivat itse asiassa helvetin hyvin. AI:sta on ollut itselle viimeisen parin vuoden aikana kun sitä päivittäin hyödyntänyt monella tapaa mullistava työkalu, jota osaan hyödyntää monipuolisesti niin työ,- kuin siviilielämässä.
Minulle taas ei ole. Ei tule yhtään skenaariota mieleen missä tarvitsisin. Joku aika sitten yritin täällä piirtää ai kuvan jossa analoginen kello ja aika 12.03 mutta eihän se osannut.
 
Toimivat itse asiassa helvetin hyvin. AI:sta on ollut itselle viimeisen parin vuoden aikana kun sitä päivittäin hyödyntänyt monella tapaa mullistava työkalu, jota osaan hyödyntää monipuolisesti niin työ,- kuin siviilielämässä.

Sama. ChatGPT:n kyky tuottaa koodia on parantunut aivan huikeasti hyvin lyhyessä ajassa. Aikaisemmin joutui yksinkertaistakin promptia pyörittämään monta kertaa kun ensin tuli virheellisiä vastauksia, mutta nykyään tulee lähes poikkeuksetta toimivaa koodia heti ykkösellä. Toki omassa käytössä kokonaisuudet on aika pieniä ja lähinnä ChatGPT on korvannut googlen/stackoverlown selaamisen. Helvetin näppärä kun voi antaa spesifin tarpeen ja saa yleensä suoraan käyttökelpoista koodia, ehdotuksia paketeista ja vaihtoehtoisista toteutustavoista jne. Paljon tulee myös käytettyä siihen, että "mulla on tällainen koodinpätkä joka tekee x, muokkaa että se tekeekin y" jne.

Aika paljon tulee tosiaan myös siviilipuolellakin käytettyä. Ihan vaikka jostain: "mulla on kaapissa raaka-aineet x y z, mitä ruokaa näistä voisi tehdä?", tai "tykkään kirjoista x y z, koska [syyt], suosittele lisää samantyyppisiä". Tai vaikka "kerro tiivisti ilmiön/tapahtuman X taustat" jne. Ei tietenkään pidä sokeasti luottaa, mutta kehitys on kyllä tosiaan ollut erittäin huimaa suhteellisen lyhyessä ajassa.
 
Minulle taas ei ole. Ei tule yhtään skenaariota mieleen missä tarvitsisin. Joku aika sitten yritin täällä piirtää ai kuvan jossa analoginen kello ja aika 12.03 mutta eihän se osannut.
Toi kellojuttu oli hauska, oli pakko kokeilla, ei tosiaan tekoäly osannut.

Sen sijaan oma tekemiseni esitysten, muistioiden, dokumenttien ja ohjelmien tuottamisen parissa on kokenut kymmenistä satojen prosenttien tuottavuuden nousun viimeisen vuoden aikana. Sääli vaan, että isossa kuvassa tuo tuottavuuden nousun tuoma lisätila kalenterissa syödään nopeasti kilpailussa pois ja tekoäly on kohta välttämätön väline taas, että pystyy juoksemaan riittävän nopeasti pysyäkseen edes paikoillaan.

1738067320153.webp
 
Viimeksi muokattu:
DeepSeek vähän rajoittuneesti ottaa kantaa Kiinan kantilta herkkiin aiheisiin kuten Taiwan, oikea, alkuperäinen Kiina, Tiananmenin verilöylyt, onko Nallepuh suosittu Kiinassa jne. Hauskinta on, että se joillain kerroilla rakensi vastauksen yllättävänkin totuusperäisesti, sitten teksti hävisi ruudulta ja tuli vain ilmoitus että ei pysty.

Tänään samat aiheet tuottavat geneerisen: ’I am sorry, I cannot answer that question. I am an AI assistant designed to provide helpful and harmless responses.’

Reittiohje julkisilla oli myös erikoisen virheellinen vaikka reitti oli helppo, kuvitteellinen Kivistö - Matinkylä matka.
 
Minä en tiedä näistä oikeasti mitään mutta luulisi että mallien kehityksessä "helppoja" rajallisilla resursseilla löytyviä ratkaisuja on jäljellä rajallisesti
agentit ja työkalujen integroiminen seuraava juttu. Malli käyttää matlabbia laskemiseen, googlemapsia reitteihin tai vaikka koodausagentti iteroi [generoi koodi, käännä koodi, aja testit] looppia kunnes kaikki menee läpi
 
Hyvä kooste meille asiasta mitään tietämättömille:


Liang haistoi tekoälyn voiman sijoittajana, ei sen kehittäjänä.
Liang valmistui Zhejiangin yliopistosta ja perusti vuonna 2015 kumppaniensa kanssa hedge-rahasto High-Flyerin. Sijoitusyhtiö käytti tekoälyä sijoitusstrategioiden laadinnassa.
Vuonna 2021 Liang alkoi ostaa tuhansia tekoälylaskennan ykköstykin, yhdysvaltalaisen Nvidian, siruja tekoälyä kehittäneeseen sivuprojektiinsa.
Samalla hän pyöritti High-Flyeria, joka nyt on kasvanut lähes kahdeksan miljardin euron arvoiseksi yhtiöksi.
Liangin kaukonäköisyyden ansiosta Deepseek ei myöhemmin kärsinyt, kun Yhdysvallat kielsi Nvidian tehokkaimpien sirujen viennin Kiinaan.
 
Tom's Hardwarella ihan kiinnostava pieni juttu deepseekistä: ainakin jossain määrin toteutusta tehty CUDA:n sijaan PTX:lle suoraan. Tuntematta CUDA-ohjelmointia tarkemmin olen yllättynyt, jos ja kun suoraan välikielellä (representaatiotasolla tai miksi PTX:ää sitten pitääkin sanoa) suoraan ohjelmoimalla pääsee nykymaailmassa ihan toisen tason tehokkuuteen kuin ylemmällä abstraktiotason kielellä (tai platformilla, tai miksi CUDA:aa sitten taas pitää sanoa). Linkki: DeepSeek's AI breakthrough bypasses Nvidia's industry-standard CUDA, uses assembly-like PTX programming instead
 

Uusimmat viestit

Statistiikka

Viestiketjuista
266 126
Viestejä
4 602 553
Jäsenet
75 786
Uusin jäsen
krisipisi

Hinta.fi

Back
Ylös Bottom