Tekoälyn luomaa taidetta.

  • Keskustelun aloittaja Keskustelun aloittaja Lager7
  • Aloitettu Aloitettu
Laittaakaapas joku niillä paremmilla vehkeillä lähi kuva naisen kasvoista, että miten realistiseen ihoon pääsee?
Foorumi skaalaa kuvia pienemmäksi joten ei saa täydellä laadulla postattua, mutta mielestäni ihan ok.

Colossus Project XL 4.9
00050-2646613711.jpg

Juggernaut XL v7
00106-3297858648.jpg
 
Aloin tässä käymään taas nykyisiä ilmaisvaihtoehtoja läpi. Tavoitteena vähän "tyylitellä" omia photoshoppailuita, enkä ole nyt ihan tyytyväinen photarin omaan systeemiin. Just asensin Kritan ja siinä saa kyllä parempaa jälkeä omaan tarkoitukseen kuin photarissa. Firefly on tosiaan itelle käyttökelvoton, kun en puhtaita fantasia- tms kuvia halua luoda tyhjästä. On kyllä kaikenlaista poppamiestä ja appsien tekijää tullut markkinoille. Alkaa jo intialaiset tms pakistanilaiset oikeasti vituttamaan koko interwebissä.

Photarissa plugareina nyt kokeilussa Alpaca ja joku ImageCreator, jonka hallintapaneelin kautta eksyin sattumalta tuolle yllä mainitulle civitai.com sivulle. Nyt on naiskuva kohdillaan tulevalla sukupolvella. 90-luvun lonkeroporno vaikuttaa aika kesyltä kamalta nykyajan menoon verrattuna :D Nuorissa on tulevaisuus.
 
Nyt en ymmärtänyt mikä siellä civicaissa ois ihmeellistä? Koitin kyllä katsella ja selata buzz jne.
Aloin tässä käymään taas nykyisiä ilmaisvaihtoehtoja läpi. Tavoitteena vähän "tyylitellä" omia photoshoppailuita, enkä ole nyt ihan tyytyväinen photarin omaan systeemiin. Just asensin Kritan ja siinä saa kyllä parempaa jälkeä omaan tarkoitukseen kuin photarissa. Firefly on tosiaan itelle käyttökelvoton, kun en puhtaita fantasia- tms kuvia halua luoda tyhjästä. On kyllä kaikenlaista poppamiestä ja appsien tekijää tullut markkinoille. Alkaa jo intialaiset tms pakistanilaiset oikeasti vituttamaan koko interwebissä.

Photarissa plugareina nyt kokeilussa Alpaca ja joku ImageCreator, jonka hallintapaneelin kautta eksyin sattumalta tuolle yllä mainitulle civitai.com sivulle. Nyt on naiskuva kohdillaan tulevalla sukupolvella. 90-luvun lonkeroporno vaikuttaa aika kesyltä kamalta nykyajan menoon verrattuna :D Nuorissa on tulevaisuus.
 
Mikä tämän on tarkoitus olla? Preluden c-pilari ja perä, accordin keula?
Ilmeisesti about tuo, mutta ehkä kuitenkin keulasta näyttäis olevan CRX. Kahta autoa tuossa koitettiin yhdistää. Aika usein tuo algoritmi kyllä heittää jotain sellastakin että mittasuhteet väärässä, tai toiselle puolelle tulee kolmas lamppu tms. Kabiinin ilmanoton ritilöiden kanssa tuntuu myös olevan ongelmia.
 
Mikä tämän on tarkoitus olla? Preluden c-pilari ja perä, accordin keula?
... ja renkaat sekä luonnollisuus CARS-animaatioista?

Tekoälytaide on hieno juttu, mutta harvassa ovat luonnolliseen lopputulokseen pyrkivät AI-kuvat, joita ei olisi helppo erottaa aidoista. Ylipäätään useimpia AI-kuvia yhdistä tietynlainen yleisilme. Tämä varmasti parantuu jatkossa, mutta tällä hetkellä näin.
 
Pakkohan sitä oli kokeilla mitä saa aikaiseksi. K-18 tuotoksia ei tänne saa postata :p joten laitetaan nämä, politiikka ei kait ole kiellettyä? Auringonkukat ei oikein onnistuneet..

BAD039ADDE2FCA3263535319DDBC91E924D587C10D40CA1C4B500B98D78FC8EF.jpeg
93E2340E79E5BFFF22B1AA5B67C2C3B9C6D6E67AF1DA8EB0841C23B372F966E6.jpeg
 
Led-lampusta minimalistisessa kodissa tuli tällaista taidetta tekoälyllä. Näyttää lähinnä futuristiselta, ei niinkään minimalistiselta.

Tekstit myös heikkolukuisia, samoin numerot. Ei kyllä mennyt ihan nappiin nyt, sori.

_8e4121f8-7e39-4426-a0f0-00b9eab71034.jpg
 
Useamman päivän uhrannut tekoälytaiteilulle ja lopputulos on että........ saa jäädä vielä kypsymään joksikin aikaa :) Potentiaalia on, mutta ei vain sovi omaan workflow yms systemiin, ilman helvetinmoista säätämistä. Photarilla edelleen samat asiat joko nopeammin tai muuten vaan paremmin tehtävissä. Etenkin comfyui vaikuttaa lupaavalta. Vielä kuitenkin liikaa epäjohdonmukaisuuksia ja muuta puutetta, että sillä olisi oikeasti käyttöarvoa. Varsinkin img2img tuntuu vähän jääneen kauniiden tekstiprompt kuvien taka-alalle.

...ja kivahan noita kaikenlaisia hassutuksia on luoda. Ei siinä mitään. Jäävät vain vähän persoonattomiksi omalla tavallaan. Varmasti kevään mittaan tulee itsellenikin jotain käyttökelposta tarjolle. Esim tämä muutama päivä sitten julkaistu workflow-raakile on lupaava askel juuri oikeaan suuntaan käytettävyyden kanssa Photoshop-To-ComfyUi | ComfyUI Workflow | OpenArt
 
Photarilla edelleen samat asiat joko nopeammin tai muuten vaan paremmin tehtävissä. Etenkin comfyui vaikuttaa lupaavalta. Vielä kuitenkin liikaa epäjohdonmukaisuuksia ja muuta puutetta, että sillä olisi oikeasti käyttöarvoa. Varsinkin img2img tuntuu vähän jääneen kauniiden tekstiprompt kuvien taka-alalle.
A1111 ja img2img tabilla inpainting? Comfy on hauska lelu millä on hyvä testata kaikkein uusimpia AI tuulia joiden tuleminen A1111:n kestää viikoista kuukausiin, mutta tuotantoon en kyllä uskaltaisi ottaa, kun kaikki aika menisi node yhdistelyihin eikä kuvien luomiseen. Vapautta siinä on toki enemmän, kun itse on vastuussa melkein koko AI prosessista backendistä lopullisen kuvan generointiin.

Meillä workflow yleensä luoda batchina setti tekoälykuvia (yleensä 50 riittää, että saa muutaman kelvollisen) joista inpainting checkpointilla pahimmat virheet pois, lopuksi pikselikohtaiset hienosäädöt ja värikorjaukset Photarissa ja homma on paketissa.
 
Pikaisia Pika kokeiluja. Ensimmäiset 3 sekuntia jotenkin siedettävää, mutta puuroutuu helposti jos jatkaa pidempään. Promt: Crying man walking

Pikalla maksimit 12 sekuntia, erottuu melko selvästi jatkokohdat

Pika video to video, pohjana Biden puhumassa video. promti: man singing heavy metal

Outoja tekstejä, käsiä ja irokeesi, jatkokohdan jälkeen hahmo puuroutuu
 
Viimeksi muokattu:
Pikainen Stable Diffusion Video kokeilu. Ei täydellinen, mutta aika hyvä jo ekaksi versioksi, välillä jopa hämmästyttää kuinka hyvin tuo tekee animaatiota yhdestä kuvasta.

Workflow: SDXL alkukuva 1024x576 -> SDV-XT 25 framen luominen alkukuvasta @ 6 FPS -> Topaz interpolaatio 50 FPS + upscale 1280x720.

 
Pikainen Stable Diffusion Video kokeilu. Ei täydellinen, mutta aika hyvä jo ekaksi versioksi, välillä jopa hämmästyttää kuinka hyvin tuo tekee animaatiota yhdestä kuvasta.

Workflow: SDXL alkukuva 1024x576 -> SDV-XT 25 framen luominen alkukuvasta @ 6 FPS -> Topaz interpolaatio 50 FPS + upscale 1280x720.


Nojoo, sinänsä ihan komeaa, mutta ei noissa animaatioissa tarkemmin katsottuna juuri "tapahdu". Lähinnä objektit erottuu taustasta, ja tommosta Ken Burns -tyyppistä zoomailua. Veikkaan, että jos pidempään noita antaisi rullata, niin aika äkkiä alkaisi melkoinen sekoilu, ja asiat näyttämään oudolta.. se olisikin itse asiassa mielenkiintoisempaa :)
 
Nojoo, sinänsä ihan komeaa, mutta ei noissa animaatioissa tarkemmin katsottuna juuri "tapahdu".
Nojuu, tällä hetkellä Stable Video Diffusionin inputtina on yksittäinen kuva eikä käytännössä mitään muuta. Annat sille kuvan niin generaattori arpoo liikutetaanko kameraa sivulle, zoomataanko vai laitetaanko kuvan ukko heiluttamaan käsiä.

Toki noita videogeneraattoreita on muitakin, mutta aika lelu-/meemitasolla vielä nämä.
 
SVD klipin maksimipituus tällä hetkellä myös vain 4 sec (25 frame), ellei sitten interpoloi tai hidasta pidemmäksi.

Viime viikolla tullut LongAnimateDiff joka luo videoita myös tekstin perusteella, max 64 freimiä, laatu ei vain ole SVD tasoa. Kehitystä tapahtuu kuitenkin todella nopeaan tahtiin tällä alalla, kun muutama kuukausi sitten kaikki animaatiot oli korkeintaan sekunnin pituisia ja nekin tökeröitä.

 
Riippuu täysin checkpointista. Suurin osa kaipaa vielä lisätreenausta käsille ja sormille.

y382vre2rn5c1.jpg
Tämä versio 8 nyt julkaistu, huomattavasti paremmin tekee käsiä ja sormia kuin muut XL checkpointit, mitä tuossa pikaisesti testailin.

 
Ensimmäisiä harjoitteluita. Taustakuvaa omalle koneelle :)

00134-2840833935.png


(persian) futuristic building beside a (waterfall) and a lake surrounded by mountain cavern, mostly yellow refractive stuctures with (cyan highlights), ultra detailed decorations with multiple branches, artistic, realistic, lake surrounded by round platforms, 8k, cinematic color grading, steampunk, decorations, global illumination ,on top of the cavern there are bushes and trees and pink cherry blossoms , on the sky there are three (moons) each of different color and size, statues of glowing moons of variable sizes made of shiny metal Negative prompt: (worst quality, low quality, normal quality, lowres, low details, oversaturated, undersaturated, overexposed, underexposed, grayscale, bw, bad photo, bad photography, bad art:1.4), (airbrushed, cartoon, anime, semi-realistic, cgi, render, blender, digital art, manga, amateur:1.3), (3D ,3D Game, 3D Game Scene, 3D Character:1.1), painting, washed out, plastic, dull, blurry, people, human
 
Stable Video Diffusion XT 1.1 julkaistu, en suuria eroja itse huomannut, mutta tiedotteen mukaan pitäisi olla jatkotreenattu motion_bucket 127 / fps_id 6 parametreille.

Pari kokeilua:




Input kuva ja ComfyUI workflow:

01595-598223480.jpg Screenshot 2024-02-07 002535.jpg
 
Mielenkiintoinen tuore A1111 forkki:

- sisäänrakennettu SVD tuki
- parannettu merkittävästi suorituskykyä pienimuistisilla näyttiksillä, hieman myös suurimuistisilla
- helpotettu laajennosten koodaamista (ja yhteensopivuutta Controlnetin kanssa)
- pääkehittäjänä ControlNetistä ja Foocusista tuttu lllyasviel

 
Stability AI:lta uusi malli, Stable Cascade.


 
Harmi vaan, kun OpenAI:lle tunnettuun tapaan tulee todennäköisesti olemaan visusti suljettu ja pelkästään webissä käytettävä maksullinen malli.

Hienoa jälkeä kyllä tuottaa, ei siinä mitään.
 
Harmi vaan, kun OpenAI:lle tunnettuun tapaan tulee todennäköisesti olemaan visusti suljettu ja pelkästään webissä käytettävä maksullinen malli.
Elan kasityksessa etta noiden generointi maksaa jo ihan sahkossa mitattuna jotain sen verran merkittavaa etta siita on pakko pyytaa jotain.
 
Kai periaatteessa olisi mahdollista antaa komnto tekoälylle, Että tee elokuva. Tekoäly luo tarinan ja tekee sen pohjala elokuvan. Ei kovin kaukana olla tästä.

Diracted by AI, Written by AI, Produced by AI.
 
Elan kasityksessa etta noiden generointi maksaa jo ihan sahkossa mitattuna jotain sen verran merkittavaa etta siita on pakko pyytaa jotain.

Se ei poista sitä, etteikö se voisi olla avoin ja paikallisesti koneella käytettävä malli. Vertaa vaikka StabilityAI:n Stable Diffusionia, jonka kuka tahansa voi ladata koneellensa ja "ilmaiseksi" generoida niin paljon kuvia kuin sielu sietää. Toki sinä omat sähkölaskusi maksat, ei siinä mitään. Käytät silti itse mallia ilmaiseksi verrattuna OpenAI:n Dall-een jonka käytöstä joudut maksamaan kuukausimaksua.
 
Se ei poista sitä, etteikö se voisi olla avoin ja paikallisesti koneella käytettävä malli. Vertaa vaikka StabilityAI:n Stable Diffusionia, jonka kuka tahansa voi ladata koneellensa ja "ilmaiseksi" generoida niin paljon kuvia kuin sielu sietää. Toki sinä omat sähkölaskusi maksat, ei siinä mitään. Käytät silti itse mallia ilmaiseksi verrattuna OpenAI:n Dall-een jonka käytöstä joudut maksamaan kuukausimaksua.
Ei poista ettei sähkönkulutuksen takia voisi olla. Mutta villi veikkaus että muut syyt miksi sitä ei jaella.
 
Ei poista ettei sähkönkulutuksen takia voisi olla. Mutta villi veikkaus että muut syyt miksi sitä ei jaella.

Aivan, muut syyt kuten ne että OpenAI haluaa tehdä sillä rahaa ja se on heille bisnes. Ihan samalla tavalla kuin kuvageneraation kanssa. Kyllä noita avoimia videogeneraatiomallejakin on olemassa ja on vain ajan kysymys milloin vastaavaa pystyy kuka tahansa tekemään maksutta omalla koneellaan. Stable Diffusionin kehittäjä StabilityAI:kin vihjailee, että heillä on kyllä videomalli myös työn alla ja valmistuttuaan tulee varmasti ihan yleiseen avoimeen jakoon aivan kuten heidän Stable Diffusion -kuvagenerointimallikin.

emads-comments-regarding-what-they-have-to-compete-with-v0-hwmbwku38uic1.png
 
Adobe tuntuu jääneen aika pahasti jälkeen tekoälykilvassa. Edes sitä web-firefly:ta eivät ole saaneet integroitua photoshoppiin. Beta kyllä päivittyy muutaman kerran viikossa, mutta jotenkin tuntuu, että mitään edistystä ei tapahdu. Olisi kiva saada tekoälyn ominaisuuksia ihan järkeväänkin käyttöön jo. Tulee vaan silmät kipeiksi noita perus "text to image" postikortteja katsellessa :D Luulisi ainakin resurssiensa puolesta pesevän monet vähän epäsuoremmat kilpailijansakin.
 
En ollut vielä toipunut Sorasta niin tuli jo vastaan Suno, eli musiikkia tekoälyllä. Osaa myös Suomeksi ja muutaman biisin saa tehtyä ilmaiseksi. Suno
 
Tätä bändiä on epäilty jo pidemmän aikaa tekoälyprojektiksi. Välillä sitten redditissä joku käy kertomassa että olisi jonkun muusikoiden "hengailumusaprojekti" kyseessä. En kovin syvällisesti jaksanut selvittää, mutta kyllähän tuo voi ihan hyvin olla kumpaakin tai kumpaa tahansa. Melodia on kyllä niin yliampuvan tarttuvaa, ettei varmasti jää omalle soittolistalle jankkaamaan :D
sjowgren - human condition - YouTube
 
No sitä voi koittaa itekin tehä aivan uniikkia musiilkia. Ei taida onnistua. Ensin omat soittimet rakennat ja sitten omat nuotit jne.
 
Vanhaa musiikkia remixattuna tekoälyllä? Eikös se tätä vieläkin ole, että lähdekirjastosta poimitaan materiaalin palaset.
En noita algoritmeja tietenkään millintarkasti tunne, mutta kyllä ihan itsetehdyt (ChatGPT:llä...) sanoitukset muuttuivat oikein rattoisaksi suomalaiseksi popiksi. Jos ne on olemassaolevista paloista koottu niin kyllä itse ainakin häkellyin.
 
En ollut vielä toipunut Sorasta niin tuli jo vastaan Suno, eli musiikkia tekoälyllä. Osaa myös Suomeksi ja muutaman biisin saa tehtyä ilmaiseksi. Suno
Tossa Valentine Sunossa ilmeisesti käytössä versio 3 malli, pitempiä lauluja, ääni välillä selkeämpi kuin V2. Laittaa ensi ruutuun [GENRE] esim [Metal] niin saa muutakin genrejä, mutta välillä bugittaa.
Reddit - Dive into anything
Make a song for your Valentine

Konemusaa :smoke:
edit testausta kuinka pitkään pystyy jatkamaan ja pysyykö "koherenttina"
Sanguis bibimus | Suno
 
Viimeksi muokattu:
Stable Cascade, millaisia aikoja kuvan generoiminen pitäisi kestää RTX3070 8GB? 1536X1536 kuvassa kestää 10 minuuttia.
Stable Cascade asennettu ja ajettu pinokion kautta koska oli helppoa. Pinokio
Liittyykö hitauteen käynnistäessä terminaalissa virhe:
xxxxxxxxx\pinokio\api\stablecascade.git\app\e
nv\Scripts\activate xxxxxxxxx\pinokio\api\stablecascade.git\app\env && python app.py
xxxxxxxxxx\pinokio\api\stablecascade.git\app\env\lib\site-packages\diffusers\utils\outputs.py:63:
UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.r
egister_pytree_node instead.
torch.utils._pytree._register_pytree_node(
A matching Triton is not available, some optimizations will not be enabled
Traceback (most recent call last):
File "xxxxxxxxxxxx\pinokio\api\stablecascade.git\app\env\lib\site-packages\xformers\__init__.py",
line 55, in _is_triton_available
from xformers.triton.softmax import softmax as triton_softmax # noqa
File "xxxxxxxxxx\pinokio\api\stablecascade.git\app\env\lib\site-packages\xformers\triton\softma
x.py", line 11, in <module>
import triton
ModuleNotFoundError: No module named 'triton'
device=cuda
Loading pipeline components...: 0%| | 0/6 [00:00<?, ?it/s]C
xxxxxxxxxxx\pinokio\api\stablecascade.git\app\env\lib\site-packages\diffusers\models\lora.py:384: F
utureWarning: `LoRACompatibleLinear` is deprecated and will be removed in version 1.0.0. Use of `LoRACo
mpatibleLinear` is deprecated. Please switch to PEFT backend by installing PEFT: `pip install peft`.
deprecate("LoRACompatibleLinear", "1.0.0", deprecation_message)
\pinokio\api\stablecascade.git\app\env\lib\site-packages\diffusers\models\attention_proc
essor.py:1254: UserWarning: 1Torch was not compiled with flash attention. (Triggered internally at ..\a
ten\src\ATen\native\transformers\cuda\sdp_utils.cpp:263.)
hidden_states = F.scaled_dot_product_attention(
100%|█████████████████████████████████████████████████████████████████| 29/29 [06:20<00:00, 13.11s/it]
100%|█████████████████████████████████████████████████████████████████| 10/10 [03:25<00:00, 20.55s/it]
image.png
 
Viimeksi muokattu:
Aloittelija kysyy miten tämä olisi paras tehdä? Video clipissä puhuva ihminen pitäisi muuttaa anime hahmoksi,
säilyttäen kasvojen, käsien ja suun liikeet. Kokeiltu Stable Diffusiolla webui automatic1111.

1. Img2img, denoise 0.7, controlnet/openpose ja batch image convertilla kuvat vidosta
tulos: video välkkyy ja muuttuu liian paljon joka framessa. Jos denoisea laskee, niin hahmo ei muutu tarpeeksi.

2. Img2img, denoise 0.3, controlnet/openpose + Ebsynth lisäosalla.
sujuva lopputulos mutta koska denoise 0.3 niin ei muutu juurikaan.
jos denoisea nostaa, niin Ebsynthin tekemät maskit ei täsmää ollenkaan yms, esim. isot anime korvat leikkautuu pois.

3. Mov2mov lisäosalla
lähes sama välkkyvä lopputulos kuin img2img:lla. En tiedä onko se edes mahdollista että AI:lla tehty hahmo pysysi
suht samana loppuun asti

4. FaceFusion app
face swapper ja lipsyncer toimii suht hyvin ihmishahmojen kanssa, mutta muuttaa vain kasvot ja ei tunnista
anime hahmojen kasvoja.

Ideoita mitä voisi kokeilla seuraavaksi?
Comfyin joku workflow?
 
Tuo on ainakin ollut hyvä checkpointti, joka muuttaa valokuvat/elävät hahmot animeksi.


Muusta en osaa sanoa, en ole vastaavaa kokeillut videolla. Todennäköisesti pitää ajaa matskua paljon freimi freimiltä controlnetin/openposen kautta.
 
@zenson kerro sitte täällä jos löysit toimivan ratkaisun! Kärsivällisyyttä kyllä vaatii, että saa haluamansa lopputuloksen. Varsinkin jos pitää interpoloida helvetisti kymmenien muuttujien ja asetusten kanssa. Ite en ole saanut img2img juttuja ikinä oikein toimimaat miten haluaisin. Jos ei halua/ehdi seuraamaan sceneä jatkuvasti, niin pakkaa sekoittamaan voi vielä laskea about viikottaiset "this changes everything!!" hypetykset :D

Ite ehkä ekana vilkuilisin ComfyUI:n valmiiden workflow-mallien suuntaan. Hyvällä tuurilla sieltä löytyy "valmis paketti" omaan tarkoitukseen ja säästyy itse pahimmalta yritys-erehdys-rumbalta.
 
Ihan hienoja syntyy pelkällä Bing:lläkin.
_ed0f8ec9-fb45-4f8c-b068-7058ba3da228.jpeg

"Smoking dude, Schjerfbeck"
 

Statistiikka

Viestiketjuista
258 759
Viestejä
4 495 257
Jäsenet
74 288
Uusin jäsen
Oliverr

Hinta.fi

Back
Ylös Bottom