NVIDIA oikeuteen tekoälymalli NeMosta

Kaotik · 13.03.2024

NVIDIA on haastettu oikeuteen tekoälymalli NeMon vuoksi.
Haasteen mukaan NeMon opettamiseen on hyödynnetty jopa 196 640 kirjaa sisältävää datapakettia ilman asianmukaisia lupia kirjojen kirjoittajilta. Mukana on mm. haasteen takana olevien Brian Keenen, Abdi Nazemianin and Stewart O'Nanin kirjoja.

Vastaavia haasteita on vireillä myös lukuisia muita tahoja vastaan.

https://www.reuters.com/technology/nvidia-is-sued-by-authors-over-ai-use-copyrighted-works-2024-03-10/

ratkakapu · 13.03.2024

Onkohan tämä AI buumi lopulta se tekijänoikeusmafian viimeinen suuri parkaisu? Toivottavasti

Kaotik · 13.03.2024

ratkakapu sanoi:
Onkohan tämä AI buumi lopulta se tekijänoikeusmafian viimeinen suuri parkaisu? Toivottavasti

Ei sillä etteikö tekijänoikeusfirmojen toimintatavoissa olisi paljonkin korjattavaa, mutta ihanko tosissasi toivot ettei tekijänoikeuksia olisi olemassa? Mietipä nyt hetki uudelleen sillä aikaa kun virittelen painokonetta tulille.

Griffin · 13.03.2024

ratkakapu sanoi:
Onkohan tämä AI buumi lopulta se tekijänoikeusmafian viimeinen suuri parkaisu? Toivottavasti

Kyllähän tämä muuttaa asiaa huomattavasti. Kirjallisuuutta, kuvia ym, joka on saatavissa helposti internetistä, eikä ole minkään salasanalla suojatun muurin takana tullaan käyttämään noiden opetuksessa pilvinpimien ja jossain vaiheessa NE itse hakevat tietoa netistä ja opettelevat noista.

Ainut ratkaisu asiaan on se, että KAIKKI tekijänoikeudellinen materiaali on vedettävä TODELLA paksujen maksumuurien taakse ja ERIKSEEN merkattava, että tekoälysovellutukset EIVÄT SAA lukea / katsoa kyseistä materiaalia ja kaikki sovellutukset ON OLTAVA tehty siten, että ne noudattavat tuota sääntöä..

Toki tässäkin on valtaviua aukkoja ja ongelmia, mm kuka on vastuussa, kun materiaalista on juku poistanut merkinnät (on mahdotonta tehdä merkintöjä, joita ei voida poistaa) ja jonkun koneella pyörivä AI on käynyt netistä hakemassa tietoa ja oppinut kyseisestä materiaalista..

Toki tämä kaatuu todennäköisesti maihin, kuten Kiina, jonka sovellutukset saavat sitten huiman edun länsimaisiin verrattuna ja porukka alkaa käyttää niitä. Tästä taas on suurta hyötyä Kiinalle ja se ajaa tässäkin asiassa länsimaiden ohi, jotka kompastuvat tälläkertaa tekijänoikeuksiinsa..
-------------
Epäilisin, etttä opettamisessa joudutaan luopumaan tekijänoikuksista.
-------------
Siitä se vasta ulina ja konflikti alkaakin, kun typerimmät käyvät kutsumaan jotain teköälyä "häneksi", "SE"n asemsta. Epäilisin, että tapahtuu 10 vuoden kuluessa, jos kehitystahti jatkuu nykyisellään ja kipiulu sekä ongelmat ovat huomattavanpaljon suuremmat, kuin joku tekijänoikeus..
-------------
Edit n:th edition:
Pitipä ihan katsoa,mitä kaikkea on AI pistetty tekemään.. ja ilmeisesti kaikkea on kokeitu, mm porno.
Google ai drawn porn tuottaa näköjään lukuisia tuloksia. On näköjään melko uskomaton määrä hakutuloksia, n 312 miljoonaa kpl (Enemmän, kuin "disney porn", vähemmän, kuin Netflix porn. Toki haku oli epäreilu, kun siinä oli 3 sanaa, AI porn tuottaa miljardi 380 miljoonaa tulosta):, etupäässä laillisia, mutta myös esim uutisia vähemmän laillisista:

Google AI porn law tuottaa n 68 miljoonaa tulosta, jotka pikaisesti näyttäisivät olevan erilaisten ongelmien pohtimista, mm:
‘Society needs to be alert’: Most people are unaware AI is being used to create child abuse content | Euronews
Kuka on sitten missäkin tapauksessa vastuussa: Sekö, joka pyytää AI:ltä explisiittisesti kielletyn lapo kuvan? AI:ta hostaava paikka, joka antaa laskentakapasiteetin? AI:n suunnittelija? Onko se teksti, jolla kuva luodaan = kuva vai ei? Ja missä on raja, mikä on luokittelu peruste eri kuville, mikä on fiktiota, missäkohti fiktio muuttuu laittomaksi?

Noihin kyllä liittyy sellaisia loputtoman syviä matopurkkeja, jotta mm. lainsäätelijät on vielä hyvinkin monella taholla täysin totaalisessa kusessa noiden kanssa. AI:den soveltaminen on lähtenyt liikkeelle, kun raketti ja säännösten teko, kuin etanoiden vaellus siihen verrattuna. Homma on karannut käsistä ja aiheuttaa suuria ristiriitoja lukuisin tavoin...Ehkä tekijänoikeudet ovat melko merkityksetön asia lopultakin, kun katsotaan lakiongelmien koko kirjoa..

Miten saman kuvan muuten saa aikaan eri AI:llä, jos on tarkemmin kuvailtu asia? Onko siitä mitä testejä tehty? Tai miten saman tekstituotoksen?

Jos tätä AI iden luomaa säännösongelma-aukkoa yritetään pistää läjään, niin tulemme näkemään todella paljon ja todennäköisesti todella tulkinnanvaraisia säännöksiä erittäin suuria määriä.

Saa nähdä, yritetäänkö yksityisomisteiset AI:t kieltää jossain vaiheessa kokonaan tai ainankin osittain tai määritelläänkö esim AI disto X laittomaksi ohjelmistoksi... Tämän jälkeen AI serverien pyörittäjille raskas moderointi ja valvontapakko.. Toki ei toimi varmasti tämäkään, mutta saa nähdä..

Entä jos joku luo AI rungon, joka on opetettu laillisesta aineistosta, mutta voi oppia lisää? Kuka silloin on vastuussa mistäkin rikoksesta, jonka joko AI tekee, tietoja hakiessaan tai AI:n käyttäjä, esim vahingossa? Tai jos AI instanssin omistaa henkilö X ja hänellä käy esim vieras, joka tekee laittomuuksia tai lainaa ta kopioi opetetun ohjelmiston ja tekee sillä laittomuuksia..?

pomk · 13.03.2024

Griffin sanoi:
Ainut ratkaisu asiaan on se, että KAIKKI tekijänoikeudellinen materiaali on vedettävä TODELLA paksujen maksumuurien taakse ja ERIKSEEN merkattava, että tekoälysovellutukset EIVÄT SAA lukea / katsoa kyseistä materiaalia ja kaikki sovellutukset ON OLTAVA tehty siten, että ne noudattavat tuota sääntöä..

Jotenkin sitä kuvittelisi että mitä tahansa netistä löytyvää ei saisi kaupalliseen käyttöön kuka tahansa käyttää ilman lupaa. Jos lupa on, niin kovaa ajoa vaan.

Ajatus siitä että lupa oletuksena moiselle kaupalliselle käytölle olisi olemassa ei kestä päivänvaloa.

En vastusta kommunismia, mutta siitä olisi hyvä tehdä rationaalisesti perusteltu demokraattinen päätös.

AAtte · 13.03.2024

Paras AI tulee maasta ilman tekijänoikeuslakeja.

pomk · 13.03.2024

AAtte sanoi:
Paras AI tulee maasta ilman tekijänoikeuslakeja.

Samaan tapaan kuin tuottavin yritys tulee maasta jossa ei tarvitse maksaa veroja tai palkkaa.

Halpuuttaja · 13.03.2024

pomk sanoi:
Jotenkin sitä kuvittelisi että mitä tahansa netistä löytyvää ei saisi kaupalliseen käyttöön kuka tahansa käyttää ilman lupaa. Jos lupa on, niin kovaa ajoa vaan.

Ajatus siitä että lupa oletuksena moiselle kaupalliselle käytölle olisi olemassa ei kestä päivänvaloa.

Ostamastani kirjasta saan kirjoittaa kaupallisessa tarkoituksessa vaikkapa kirja-arvostelun blogiini. Saan myös inspiroitua kirjasta ja mukailla sen tyyliä tai käyttää siitä kohtuullisen pituisia suoria lainauksiakin omassa kaupallisessa tarkoituksessa kirjoittamassani kirjassa.

Onko tämä liian vapaata lainsäädäntöä? Tai pitäisikö tämä sääntö olla erilainen tekoälyn kohdalla?

Ronald McDonald · 13.03.2024

Halpuuttaja sanoi:
Ostamastani kirjasta saan kirjoittaa kaupallisessa tarkoituksessa vaikkapa kirja-arvostelun blogiini. Saan myös inspiroitua kirjasta ja mukailla sen tyyliä tai käyttää siitä kohtuullisen pituisia suoria lainauksiakin omassa kaupallisessa tarkoituksessa kirjoittamassani kirjassa.

Onko tämä liian vapaata lainsäädäntöä? Tai pitäisikö tämä sääntö olla erilainen tekoälyn kohdalla?

Ei sinun tarvitse sitä kirjaa edes ostaa tai omistaa, jotta voit nuo tehdä. Sen kirjan ostaminen ei anna sinulle mitään lisäoikeuksia, ainostaan antaa sinulle omistusoikeuden siihen kirjaan.

Halpuuttaja · 13.03.2024

Ronald McDonald sanoi:
Ei sinun tarvitse sitä kirjaa edes ostaa tai omistaa, jotta voit nuo tehdä. Sen kirjan ostaminen ei anna sinulle mitään lisäoikeuksia, ainostaan antaa sinulle omistusoikeuden siihen kirjaan.

Juu tiedän. Pointtina lähinnä etten ole hankkinut sitä dataa rikollisin keinoin.

Ronald McDonald · 13.03.2024

Halpuuttaja sanoi:
Juu tiedän. Pointtina lähinnä etten ole hankkinut sitä dataa rikollisin keinoin.

Mikä se rikollinen keino sitten olisi?

Halpuuttaja · 13.03.2024

Ronald McDonald sanoi:
Mikä se rikollinen keino sitten olisi?

Vaikkapa warettaminen tai CIA:n palvelimille tunkeutuminen? Tää on ihan sivuseikka, johon ei sen suurempaa syytä takertua.

Pointti oli luoda skenaario, jossa ihmisenä en tee mitään laitonta oppiessani materiaalista ja käyttäessäni sitä oppia kaupallisessa tarkoituksessa lain puitteissa. Eli jos tämä ihmisälylle ok eikä vääryyttä tapahtunut missään vaiheessa, miksi keinoälyn kohdalla tapahtui?

finWeazel · 13.03.2024

Nvidia väittää ettei ole rikkomusta. Mielenkiintoista nähdä mitä oikeus päättää jos sinne asti päädytään

“We respect the rights of all content creators and believe we created NeMo in full compliance with copyright law,” the spokesperson told PCMag by email.

Authors Sue Nvidia Over Copyright in AI NeMo Megatron

Three authors have sued chip making giant - Nvidia for allegedly using their copyrighted works without their permission to train its AI platform NeMo Megatron.

metanews.com

pomk · 13.03.2024

Halpuuttaja sanoi:
Ostamastani kirjasta saan kirjoittaa kaupallisessa tarkoituksessa vaikkapa kirja-arvostelun blogiini. Saan myös inspiroitua kirjasta ja mukailla sen tyyliä tai käyttää siitä kohtuullisen pituisia suoria lainauksiakin omassa kaupallisessa tarkoituksessa kirjoittamassani kirjassa.

Onko tämä liian vapaata lainsäädäntöä? Tai pitäisikö tämä sääntö olla erilainen tekoälyn kohdalla?

Saatko ”opettaa” sen tekstisisällön vaikka sql tietokantaan josta sen voi ”promptilla” hakea ja sitten myydä tämän ”ai mallin” isolla rahalla?

Esittämäsi ihmisen tekemät asiat on tekijänoikeuslailla suojattu. Tää tietokantaan lukeminen ja sen myyminen ei ole.

Ronald McDonald · 13.03.2024

Halpuuttaja sanoi:
...

Pointti oli luoda skenaario, jossa ihmisenä en tee mitään laitonta oppiessani materiaalista ja käyttäessäni sitä oppia kaupallisessa tarkoituksessa lain puitteissa. Eli jos tämä ihmisälylle ok eikä vääryyttä tapahtunut missään vaiheessa, miksi keinoälyn kohdalla tapahtui?

Olen samaa mieltä. Ihan yhtäläisesti taiteilija voi ammentaa inspiraatiota katselemalla muiden töitä.

Halpuuttaja · 13.03.2024

pomk sanoi:
Saatko ”opettaa” sen tekstisisällön vaikka sql tietokantaan josta sen voi ”promptilla” hakea ja sitten myydä tämän ”ai mallin” isolla rahalla?

Mun tekninen osaaminen ei ole kovin skarppia näiltä osin, mutta eikös Google haku tee jotain hyvin vastaavaa? Linkkaa toki aina lähteeseen, mutta tekee tietokantoja muiden aineistoista ja myy palvelua niiden pohjalta. Kai toi ihan laillista on?

pomk · 13.03.2024

Halpuuttaja sanoi:
Linkkaa toki aina lähteeseen, mutta tekee tietokantoja muiden aineistoista ja myy palvelua niiden pohjalta.

Lähteiden linkkaus on todella oleellinen juttu, samoin kuin esitetyn sisällön laajuus. Jos google näyttäisi esikatselussa merkittävän osan sisällöstä ja jättäisi linkit pois, niin aivan taatusti rikkoisi lakia. Lisäksi google noudattaa tekijänoikeuksien omistajien pyyntöjä mm. siitä että saako heidän sisältöjä käyttää millään tapaa.
Googlen toimintaa on (muistaakseni) myös muutamaan otteeseen säännelty niukemmaksi näiden asioiden osalta.
Edit: ainakin google news ajoi karille kun ajattelivat että toisten tahojen tuottaman uutissisällön toistaminen omassa palvelussa on ihan kosher. Nykyisin makselevat rojalteja tms.

Kaotik · 13.03.2024

Halpuuttaja sanoi:
Vaikkapa warettaminen tai CIA:n palvelimille tunkeutuminen? Tää on ihan sivuseikka, johon ei sen suurempaa syytä takertua.

Pointti oli luoda skenaario, jossa ihmisenä en tee mitään laitonta oppiessani materiaalista ja käyttäessäni sitä oppia kaupallisessa tarkoituksessa lain puitteissa. Eli jos tämä ihmisälylle ok eikä vääryyttä tapahtunut missään vaiheessa, miksi keinoälyn kohdalla tapahtui?

Ronald McDonald sanoi:
Olen samaa mieltä. Ihan yhtäläisesti taiteilija voi ammentaa inspiraatiota katselemalla muiden töitä.

Siinä on eroa oppiiko ihminen vai AI. AI voi kopioida oppimansa sellaisenaan, sellaisenaan ihmisen näkökulmasta muttei toisen AIn ja siitä sitten eteenpäin. Ihminen ei (eideettinen muisti on ääriharvinainen poikkeus joka saattaa kyetä ekaan mutta ei tuokaan)
Ottaen huomioon että ilman aika- tai laskentatehorajoitteita botti voisi oppia kirjaimellisesti ihan kaiken mitä ikinä on tehty, pitää sen opettamisesta tietenkin maksaa opetusmateriaalin omistajille.

Halpuuttaja · 13.03.2024

Kaotik sanoi:
Siinä on eroa oppiiko ihminen vai AI. AI voi kopioida oppimansa sellaisenaan, sellaisenaan ihmisen näkökulmasta muttei toisen AIn ja siitä sitten eteenpäin. Ihminen ei (eideettinen muisti on ääriharvinainen poikkeus joka saattaa kyetä ekaan mutta ei tuokaan)

Itseasiassa ihminen voi kirjoittaessaan siteerata ja plagioida paljon tekoälyä törkeämminkin, esim copy-pastea käyttämällä. Ulkomuistikyky tässä aika triviaali tekijä.

Kuten ihmisenkin kohdalla, tarkastelisin ennemminkin sen tekoälymallin outputteja. Jos se mukailee mun kirjani tyyliä tai lainaa sitä samoissa tai vähemmissä kuin ihmisellekin olisi sallittavaa, niin en ihan tiedä miksi vääryys on tapahtunut. Jos se ilman tarvittavia lupia pyydettäessä siteeraa kirjani sanasta sanaan, kannesta kanteen on raja ylitetty jo hyvän matkaa sitten.

Gandalf · 13.03.2024

Kaotik sanoi:
Ei sillä etteikö tekijänoikeusfirmojen toimintatavoissa olisi paljonkin korjattavaa, mutta ihanko tosissasi toivot ettei tekijänoikeuksia olisi olemassa? Mietipä nyt hetki uudelleen sillä aikaa kun virittelen painokonetta tulille.

Mielenkiintoinen ajatus.

Jos tekijänoikeuksia ei olisi niin... Kyllä ihmiset edelleen tuottaisivat musiikkia, kuvia, pelejä jne.

Rajoitettua sisältöä varmasti tulisi myös, että vaikka tekijänoikeuksia ei olisi niin kyllä siihen keinot löytyisi rajata yleisöä ja pyytää rahaa. Tyyliin elokuvateatteri. Tai aidataan alue ja joku esittää musiikkia siellä. Jotenkin se vaan tuntuu tyhmältä jos mitään tekijänoikeutta ei olisi.

Lähinnä tuo Internet teki sen, että se on tehty kopiointia varten ja teoksen monistamisessa ei enää ole mitään kulua se on muuttanut ihan kaikkea. Softat menneet palvelumalliin ja kaikkea viihdesisältöä on mielin määrin. Teknologia tehnyt kaiken tuottamisesta myös todella halpaa.

Lainsäädäntö nyt vaan ei seuraa aikaansa. Saisi olla jotenkin harmonisoitu patenttilainsäädännössä tuon keston mukaan ja jos joku keksii rajoitella teoksiaan sen jälkeen niin siitä vaan. Kyllä se pidemmällä aikavälillä se raha kuuluu kuitenkin sille kuka tekee duunin eikä sille kuka omistaa jonkun kusimerkin hiirenkorvien muodossa.

Ronald McDonald · 13.03.2024

Kaotik sanoi:
Siinä on eroa oppiiko ihminen vai AI. AI voi kopioida oppimansa sellaisenaan, sellaisenaan ihmisen näkökulmasta muttei toisen AIn ja siitä sitten eteenpäin. Ihminen ei (eideettinen muisti on ääriharvinainen poikkeus joka saattaa kyetä ekaan mutta ei tuokaan)
Ottaen huomioon että ilman aika- tai laskentatehorajoitteita botti voisi oppia kirjaimellisesti ihan kaiken mitä ikinä on tehty, pitää sen opettamisesta tietenkin maksaa opetusmateriaalin omistajille.

Ei ihmisenkään tarvitse maksaa opetusmateriaalista, halutessaan voi tietenkin. Ja mikään ei estä katselemasta sitä taulua ja maalata siitä 1:1 kopio, tässä ei ole mitään laitonta. Laitonta on kopioida jotain ilman lupaa ja myydä sitä kaupallisessa tarkoituksessa. Jos alat myymään AI:n tekemiä 1:1 kopioita Rolling stonesin levyistä, voi tämä vaatia luvat Rollareilta.

pomk · 13.03.2024

Halpuuttaja sanoi:
Jos se ilman tarvittavia lupia pyydettäessä siteeraa kirjani sanasta sanaan, kannesta kanteen on raja ylitetty jo hyvän matkaa sitten.

Mielellään sitä rajan laittaisi tosiaan paljon matalemmalle kuin täysi 1:1 kopio. Nykyiset Llm mallit saa tulostamaan varsin suurella tarkkuudella lähes kaiken mitä sinne on tallennettu, tai siis ”opetettu”. Prompt filtereillä sun muilla saadaan välillä luotua illuusio siitä että näin ei olisi, mutta tarkasteltavana pitäisi IMO aina olla se filtteröimätön versio.

Hakukoneissa raja näyttäisi olevan noin 20 sanaa mitä saa suoraan lainata toisen sisältöä ilman että tekijänoikeuksia rikotaan. Ja toki 0 sanaa jos oikeuksien omistaja niin haluaa.

Jos nää llm mallit oikeasti oppis kopioimisen sijaan, siten että opetusdataa ei itsessään enää saisi mallista ulos millään jipoilla, niin tilanne olis varsin toinen.

Griffin · 13.03.2024

pomk sanoi:
Mielellään sitä rajan laittaisi tosiaan paljon matalemmalle kuin täysi 1:1 kopio. Nykyiset Llm mallit saa tulostamaan varsin suurella tarkkuudella lähes kaiken mitä sinne on tallennettu, tai siis ”opetettu”. Prompt filtereillä sun muilla saadaan välillä luotua illuusio siitä että näin ei olisi, mutta tarkasteltavana pitäisi IMO aina olla se filtteröimätön versio.

Hakukoneissa raja näyttäisi olevan noin 20 sanaa mitä saa suoraan lainata toisen sisältöä ilman että tekijänoikeuksia rikotaan. Ja toki 0 sanaa jos oikeuksien omistaja niin haluaa.

Jos nää llm mallit oikeasti oppis kopioimisen sijaan, siten että opetusdataa ei itsessään enää saisi mallista ulos millään jipoilla, niin tilanne olis varsin toinen.

Mistäs mallista saa ulos ja miten pitkiä pätkiä?

Tuossa Nvidia ja muita koskevassa reutersin uutisessa ei ole mainittu, saiko noista teoksista minkälaisia pätkiä ulos eri tekoälyiltä, joiden tekijöitä vastaan syytteitä on nostettu..

Se oli sensijaan mielenkiintoisempi linkki (tuossa uutisessa), jotta joku höperö jo ilmeisesti haluaa tekoälyjen tekemät tuotokset tekijänoikeusvalvonnan alle.. Oikeus on toistaiseksi todennut vaatijoille ja tekoälyn tuotoksille sujaa vaatineille: EI! Ja toivottavasti tajuaa pitää linjauksensa.

pomk · 13.03.2024

Griffin sanoi:
Tuossa Nvidia ja muita koskevassa reutersin uutisessa ei ole mainittu, saiko noista teoksista minkälaisia pätkiä ulos eri tekoälyiltä, joiden tekijöitä vastaan syytteitä on nostettu..

Jos ei saa minkäänlaisia pätkiä ulos, niin mitenköhän ovat päätelleet että heidän tekijänoikeuksia olisi rikottu?

edit: uutisen tapauksessa siis löytyi tieto siitä että niitä oltiin mallille syötetty. Jos ei ole lisenssiä moiseen toimintaan ostettu niin väärin meni. Nvidia sittemmin ton mallinsa poisti tekijänoikeussyistä.

Griffin sanoi:
Mistäs mallista saa ulos ja miten pitkiä pätkiä?

Isoja pätkiä saa ja käytännössä kaikista.
Lue vaikka ny timesin oikeusjuttu aiheesta, jos kiinnostaa.

Griffin · 13.03.2024

pomk sanoi:
Jos ei saa minkäänlaisia pätkiä ulos, niin mitenköhän ovat päätelleet että heidän tekijänoikeuksia olisi rikottu?

edit: uutisen tapauksessa siis löytyi tieto siitä että niitä oltiin mallille syötetty. Jos ei ole lisenssiä moiseen toimintaan ostettu niin väärin meni. Nvidia sittemmin ton mallinsa poisti tekijänoikeussyistä.

Isoja pätkiä saa ja käytännössä kaikista.
Lue vaikka ny timesin oikeusjuttu aiheesta, jos kiinnostaa.

Mikäli siitä ei saa pitkiä pätkiä 1:1 ulos, niin eipä siinä ongelmaa ole.
Onko linkki timesin juttuun?

Kaotik · 13.03.2024

Griffin sanoi:
Mikäli siitä ei saa pitkiä pätkiä 1:1 ulos, niin eipä siinä ongelmaa ole.
Onko linkki timesin juttuun?

Tekoälymallit kritiikin kohteena: Tekijänoikeusrikkomuksia ja laitonta opetusmateriaalia - io-tech.fi

NY Timesin mukaan ChatGPT:n koko liiketoimintamalli perustuu tekijänoikeuksien rikkomiseen ja Stanfordin tutkijat löysivät mm. Stable Diffusionin käyttämästä LAION-5B-opetusdatasta tuhansia lasten hyväksikäyttöä kuvaavaa kuvaa.

www.io-tech.fi

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

Halpuuttaja · 13.03.2024

Itse haastessa (vai mikä oikeusasiakirja tämä nyt onkaan) oli mielestäni paremmin niitä lainauksia esitetty, esim. sivulla 31.

https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

Sen verran suoraa lainausta botti tosiaan latelee, että ei lainkaan yllätä että kiistaa tulee.

Griffin · 13.03.2024

-jaa olivat sitten käyneet MS:llä opettamassa ilmeisesti myös makumuurin takana..

Eikös sivuilla ole "lippuja*", joiden pitäisi pysäyttöö bottien sivujen indeksointi? Tarvitaan siis lippu, joka kertoo, että sivulta ei saa opiskiella AI mitään.. Toki tämä ei auta mitään, jos joku siteeraa artikkelia jonnekin muualle lyhyemmän tai pidemmän pätkän ja AI lukaisee sitten sen..

Ehkä lehtien ja muiden pitää vain unohtaa koko internet ja julkaista lehdet vaikka paperille painettuina. Siitä on AI:hin syöttö ja muukin tekijänoikeus ongelmat sitten poistettu..
-------
Siis tosiasiassa:
Kun on siirrytty nettiin niin on täysin selvää että tekijänoikeus säännöksiä pitää muuttaa.. Esim siten, että jos haluaa jonkun olevat " ei vapaata riistaa", niin se on sitten laitettava maksumuurin taakse ja suojattava tehokkaasti kopiointia vastaan...

Timo 2 · 13.03.2024

Griffin sanoi:
Esim siten, että jos haluaa jonkun olevat " ei vapaata riistaa", niin se on sitten laitettava maksumuurin taakse ja suojattava tehokkaasti kopiointia vastaan

Copypasteeminen ja kuvakaappauksen ottaminen voidaan ehkä estää, mutta milläsestätä jos joku kirjoittaa sanasta sanaan ja alkaa myymään edullisemmin? Vaikka tekiäoikeuksissa on paljon parannettavaa, ei me voida todeta kopioinnin estämisen olevan 100 % sen tekiän vastuulla.

pomk · 14.03.2024

Griffin sanoi:
Mikäli siitä ei saa pitkiä pätkiä 1:1 ulos, niin eipä siinä ongelmaa ole.

Jos korvaan jostain kirjasta satunnaisesti jonkun sanan synonyymilla, niin saisinko julkaista sen omana työnäni? Tuskin.

1:1 vaatimus on täysin järjetön ja ei todellakaan ole vaatimus edes ihmisen tekemän plagioinnin kohdalla.

Ja aika pitkiä pätkiä saa ulos. Paljon pidempiä kuin mitä esim. google saa hakutuloksissaan näyttää.

Griffin sanoi:
Eikös sivuilla ole "lippuja*", joiden pitäisi pysäyttöö bottien sivujen indeksointi?

Tai mielummin siten että botti ei saa indeksoida ellei sitä ole sallittu.

Lippua ei hakukoneille haluta, sillä hakujen tarkkuus heikkenisi.

Griffin sanoi:
Siis tosiasiassa:
Kun on siirrytty nettiin niin on täysin selvää että tekijänoikeus säännöksiä pitää muuttaa.. Esim siten, että jos haluaa jonkun olevat " ei vapaata riistaa", niin se on sitten laitettava maksumuurin taakse ja suojattava tehokkaasti kopiointia vastaan...

Lisäksi, eikö vaikka ekirjat (tämän uutisen aihe) ole käytännössä aina maksumuurin takana ja tehokkaasti drm suojattu? Silti käytetty opetusmateriaalina.

Johan_V · 14.03.2024

Pitää muistaa että LLM:t ovat käytännössä todennäköisyyskoneita, eli kun annetaan tekstisyöte se täydentää lausetta sanalla joka koulutusdatan perusteella todennäköisin. Tällä perusteella LLM ei "muista" koulutusdataansa eikä 1-1 artikkelin ulostaminen ole edes teknillisesti mahdollista.
Minun mielestäni tässä pitäisi vetää raja kaupallisen käytön suhteen: Jos firma käyttää koulutusdataa kaupallisten mallien kouluttamiseen (kuten OpenAI) niin sen pitäisi maksaa jonkinlainen korvaus datan käytöstä. Sen sijaan vapaan lähdekoodin projektit jotka julkaisevat mallin ja koodin olisi vapautettu maksuista. Tämä myös ohjaisi alaa terveempään suuntaan pois isojen firmojen hyppysistä.

KVahlman · 14.03.2024

Griffin sanoi:
Ainut ratkaisu asiaan on se, että KAIKKI tekijänoikeudellinen materiaali on vedettävä TODELLA paksujen maksumuurien taakse ja ERIKSEEN merkattava, että tekoälysovellutukset EIVÄT SAA lukea / katsoa kyseistä materiaalia ja kaikki sovellutukset ON OLTAVA tehty siten, että ne noudattavat tuota sääntöä..

Tai sitten luodaan laki joka sanoo että malleja saa opettaa VAIN materiaaleilla johon on lupa.

Kuulostaa vähän AI-uskovaisten horinalta käsienheiluttelu että "ei tälle nyt mithään maha, pakko kopsata kun ei muuta voi". Jospa vaikka ei kopsattaisi, ei se kuitenkaan vahingossa tapahdu. Se tietenkin vaikeuttaa tai tekee mahdottomaksi näiden geneeristen megamallien luonnin, mutta eipä ne pakollisia ole olla olemassa muuten kuin luojiensa mielestä.

Halpuuttaja sanoi:
Kuten ihmisenkin kohdalla, tarkastelisin ennemminkin sen tekoälymallin outputteja.

Nykyisen lainsäädännön puitteissa (joka ei kovin hyvin suoraan näihin sovellu) on kolme paikkaa jossa AI-malli voi rikkoa tekijänoikeuksia:

1. Ulostamalla (liikaa) luvatta opetukseen käytettyä alkuperäistä materiaalia. Suora kopiointi ei tietenkään mene minkään fair use säännön alle eli tämä lienee kohtuullisen selvä kuvio.

2. Levittämällä mallia joka sisältää luvatta opetukseen käytettyä materiaalia. Tämä on hähmäisempi tapaus koska voi väittää että malli ei sisällä alkuperäistä materiaalia sellaisenaan, mutta toisaalta jos se pätee niin miksei sitten pakattu jpeg mona lisakin olisi vapaasti levitettävissä. Eihän sekään enää ole häviöllisen pakkauksen jälkeeen ole biteiltään "alkuperäinen". Näkisin itse että tämä puolustus ei päde, mutta ei liene testattu ainakaan suoraan vastaavassa tapauksessa. Tämä ei myöskään koske pilvessä ajettuja malleja suoraan.

3. Käyttämällä materiaalia joka on hankittu kiertämällä erityisiä suojauksia tai ehtoja. Tapaus NYT ja maksumuurit.

Tapaus 2 ei rinnastu mitenkään ihmisten toimintaan, aivojaan kun ei voi jaella muille hyödyllisellä tavalla.

Halpuuttaja · 14.03.2024

Toi kohta 2. on kyllä mielenkiintoinen.

En lainkaan ylläty jos sallivalla lisenssillä vapaassa jakelussa olevasta Mixtral 8x7B:stäkin saadaan ulos liian suora sitaatti Harry Potterista ulos kun tarpeeksi promptataan. Eli tuon luoneelle startupille MistralAI:lle ja sitä ja muita malleja hostaavalle Huggingfacelle saattaa tulla isot laskut maksettavaksi jos menee Ranskassa oikeuteen ja häviävät.

Ja olenkohan minäkin nyt velkaa J K Rowlingille, kun kotikoneellani Mixtralia säilön ja pyörittelen vaikken ensinkään ole kiinnostunut Harry Potterista.

aop · 14.03.2024

KVahlman sanoi:
miksei sitten pakattu jpeg mona lisakin olisi vapaasti levitettävissä.

Sehän on.

bsh · 14.03.2024

Open Source määritelmän kehittäjä (Bruce Perens) miettii tällä hetkellä uutta lisenssiä tulevaisuuden "open sourcelle". Siinä yritetään ottaa huomioon myös miten esim. lähdekoodia saa käyttää AI:n kouluttamiseen (tai saako sitä ollenkaan).

En löytänyt tästä mitään auki kirjoitettua analyysiä, kun on julkaistu niin hiljattain, joten en ainakaan itse osaa lisenssitekstin perusteella nopeasti sanoa, mikä tuon logiikka käytännössä olisi.

Post-Open License: First Draft – Bruce Perens

perens.com

Griffin · 14.03.2024

KVahlman sanoi:
Tai sitten luodaan laki joka sanoo että malleja saa opettaa VAIN materiaaleilla johon on lupa.

Kuulostaa vähän AI-uskovaisten horinalta käsienheiluttelu että "ei tälle nyt mithään maha, pakko kopsata kun ei muuta voi". Jospa vaikka ei kopsattaisi, ei se kuitenkaan vahingossa tapahdu. Se tietenkin vaikeuttaa tai tekee mahdottomaksi näiden geneeristen megamallien luonnin, mutta eipä ne pakollisia ole olla olemassa muuten kuin luojiensa mielestä.

Kaikissa maissa ei noita pyyntöjä noudateta ja mallit ovat vain dataa, joten geneerisiä megamalleja tullaan luomaan jokatapauksessa, tekijänoikeuksista riippumatta.
Lisäksi mallit tulevat muuttumaan jatkuvasti oppiviksi, joten ne voivat jokatapauksessa käydä lukemassa helposti suojaamattoman materiaalin ja sillekään ei mahdeta yhtäänmitään.

Kannattaa nyt hahmottaa, että enää ei olla paperi tai kasetti aikakaudella vaan aikakaudella, jolloin kaikki suojaamaton on äärettömän helppo kopioida, laadun säilyessä 100%

Ei siis kannata hirttäytyä joihinkin kivikautisiin tekijänoikeusmalleihin. Dataa tulee syntymään kokoajan vauhdikkaammin, sekoittuen toiseen dataan, kaiken valvominenkaan ei ole käytännössä mahdollista myöhemmässä vaiheessa. Nyt vielä melkein onnistuu, kun malleja tekevät muutamat isot firmat jossain länsimaissa, mutta AI mallit kehittyvät ja tämä tilanne on vain väliaikainen ja ratkaisu, joka toimii nyt ei tule toimimaan kymmentäkään vuotta, jos kehitys jatkuu nykytahtia..

pomk · 14.03.2024

Johan_V sanoi:
Tällä perusteella LLM ei "muista" koulutusdataansa eikä 1-1 artikkelin ulostaminen ole edes teknillisesti mahdollista.

.. paitsi jos todennäköisyydet on sun puolellasi.

Esim. eka lause jostain kirjasta luultavasti korreloi todella vahvasti koko loppukirjan kanssa.

Ainakin chat gpt:stä sai kappalekaupalla uutisartikkelien sisältöä käytännössä 1:1 ulos vain pyytämällä täydentämään googella löydetyn artikkelin alun pohjalta.

Johan_V · 14.03.2024

pomk sanoi:
.. paitsi jos todennäköisyydet on sun puolellasi.

Esim. eka lause jostain kirjasta luultavasti korreloi todella vahvasti koko loppukirjan kanssa.

Toki, mutta se lause korreloi myös muun koulutusdatassa olevan materiaalin kanssa. Yksittäinen kirja on kuitenkin vain häviävän pieni määrä dataa, joten paljon riippuu siitä kuinka tavanomainen lause on kyseessä.

pomk · 14.03.2024

Johan_V sanoi:
Toki, mutta se lause korreloi myös muun koulutusdatassa olevan materiaalin kanssa. Yksittäinen kirja on kuitenkin vain häviävän pieni määrä dataa, joten paljon riippuu siitä kuinka tavanomainen lause on kyseessä.

Riittävän monta sanaa ja ei ole kuin yksi vaihtoehto jäljellä.

KVahlman · 15.03.2024

Griffin sanoi:
Kannattaa nyt hahmottaa, että enää ei olla paperi tai kasetti aikakaudella vaan aikakaudella, jolloin kaikki suojaamaton on äärettömän helppo kopioida, laadun säilyessä 100%

Ihan totta turiset. Puukolla on erittäin helppo tökätä toinen hengiltä, joten miksipä lakia murhasta säätää ja siitä ketään rankaista. Kivikautisia lakeja moiset.

/s

NVIDIA oikeuteen tekoälymalli NeMosta

Banhammer

Banhammer

BANNATTU

BANNATTU

Chief Karpfen - ruoKalan C&R

BANNATTU

Banhammer

BANNATTU

Banhammer

Uutiset

Statistiikka

Hinta.fi