Szöveg-alapú képgenerálás

Régen azzal nyugtattuk magunkat, hogy amikor megérkeznek a robotok, akkor azok majd úgyis csak az unalmas, monoton feladatokat fogják tudni elvégezni. Az olyasmi, mint a művészi rajzolás, olyan kreativitást igényel, ami emberi tulajdonság, és a gépek sose fogják tudni megtanulni.
Aztán eljött 2022, amikor megjelentek azok a mesterséges intelligenciák, amik rajzolni tudnak. Nem csak sima vonalakat, hanem művészi alkotásokat.

Ebben a blogban található képek mindegyikét egy ilyen Mesterséges Intelligencia rajzolta. Kivéve a képernyő képeket.

De hogy is működik ez az egész? Hogyan lesz egy halom zavaros képpontból mondjuk egy macska? PixelRita, magyarázd el!

Ahhoz, hogy megértsük, hogyan állítják össze a mesterséges intelligencia (MI) alapú rendszerek a képpontokat egy végső kép létrehozásához, először is tisztáznunk kell néhány alapvető fogalmat. Ezek a rendszerek általában mélytanulási modelleken alapulnak, amelyek közé tartoznak a generatív ellenfeles hálózatok (GAN-ok) és a variációs autoenkóderek (VAE-k). Ezeket a modelleket nagy mennyiségű adaton tanítják be, hogy megtanulják a képek alapvető jellemzőit és struktúráját.

Adatok és előfeldolgozás: A folyamat kezdetén a rendszer rengeteg képet elemz, hogy megértse a képek összetételét. Ez magában foglalhatja a színeket, formákat, textúrákat és az objektumok közötti kapcsolatokat.

Mélytanulási modellek: A GAN-ok két részből állnak: a generátorból és a diszkriminátorból. A generátor új képeket hoz létre, míg a diszkriminátor megpróbálja megkülönböztetni a valódi képeket a generáltaktól. Ez egyfajta "macska-egér játékot" hoz létre, ahol a generátor folyamatosan fejlődik, hogy egyre hitelesebb képeket hozzon létre.

Képpontok generálása: Amikor a rendszer már elegendően megtanulta a képek jellemzőit, a generátor képes lesz új képeket létrehozni pixelről pixelre. Ez magában foglalja a színek, formák és textúrák összetételét egy adott input vagy utasítás alapján.

Finomítás és optimalizálás: A generált kép többször is átmehet egy finomítási folyamaton, ahol a rendszer kijavítja a hibákat, javítja a részleteket és optimalizálja a kép minőségét.

Végső kép: Az eredmény egy olyan kép lesz, amely megfelel a felhasználó által megadott paramétereknek, és gyakran megkülönböztethetetlen a valós képektől.

Ezek a folyamatok nagyon összetettek és számításigényesek, és a gépi tanulás legújabb fejleményein alapulnak. Az MI képes adaptálni és tanulni az adatokból, így az idővel egyre jobb és pontosabb képeket képes generálni.

Ha nagyon le akarjuk egyszerűsíteni a folyamatot, akkor az MI rengeteg képet tanulmányoz, hogy megtanulja, mi hogyan néz ki.

Ez már azért sem egy egyszerű folyamat, mert a digitális képek így néznek ki, és ezt látja a gép. Eléggé hihetetlen, hogy ott egy banán látható…

Így néz ki egy digitális kép valójában. A hexadecimális számok 1-1 pixel RGB kódjait jelölik. Három szám lesz 1 képpont.

Kellően sok képet átnézve megtanulta, hogy mi az, amitől a macska macska lesz. Ezek után már tud rajzolni valamit, ami rendelkezik azokkal a tulajdonságokkal, amivel egy macska.

Ilyenkor véletlenszerűen generál egy képet, ami egy zaj lesz és amin még nincsen semmi. A generáláshoz használ egy kiindulási számot, aminek a neve mag, angolul seed. Ezt a számot használva tudjuk majd ugyan azt a kiindulási zajképet használni.

A program ezek után elkezdi finomítani. Az a feladata, hogy keresse meg a macskát, ami valójában nincs ott. De minden lépésnél egy kicsit jobb lesz a kép, egy kicsit kezd hasonlítani a macskára. Egészen addig, míg a végén már tényleg lesz ott egy macska. Ehhez általában 20 lépés szükséges.

Ahhoz, hogy az MI valamit le tudjon rajzolni, ahhoz kellő mennyiségű képet kell látnia. Ez jelenti az egyik fő problémát.

Az MI nem tud kimenni a valóságba, hogy megnézzen egy valódi macskát. A képek alapján azt látja, hogy a macskáknak általában 4 lábuk van. De vannak képek, ahol a macska ül, fekszik, vagy más olyan állapotban van, ahol ez a 4 láb nem látszik. Hanem csak 2, vagy 0. Így az MI fejében valami ilyesmi van:

Macska = szőrös, kicsi, háromszög fül, lábak száma: általában 4 (80%-ban), de lehet 2 (15%) és 0 (5%)

E miatt láthatjuk azt, hogy az MI generált képeknél valami baj van a lábaknál, kezeknél.

Az MI csak azokból a dolgokból tud dolgozni, amiket látott. Nem tud „elképzelni” semmit, hiába használnak ilyen szavakat még a szakmai lapokban is. Ha a tréingezés során nem kapott elég képet a macskákról, akkor nem fog tudni macskát rajzolni.

De más megkötések is vannak. Az MI nem fog tudni pl. akkora macskát rajzolni, ami nagyobb egy háznál. Mert az ő adatbázisa szerint a macska kis méretű. Egy ötéves gyerek minden gond nélkül el tud képzelni egy házméretű macskát, de az MI nem.
Ehhez hasonlóan az MI nem tud egy csésze kávéba szigetet rajzolni, mert az általa látott képek mindegyikén a sziget körül kék víz van. Hajók esetében viszont már tud olyat rajzolni, ami fekete vízben úszik.

Egy sziget egy csésze kávéban, egy hajó egy csésze kávéban

A stílusok esetében is ugyan ez a helyzet. A Mesterséges Intelligencia tud pl. Picasso stílusban képeket készíteni, ha látott ehhez elég sok Picasso stílusban készült képet (és tudja is, hogy az Picasso stílusú).
És itt máris eljutottunk a szerzői jogi problémákig.

A művészek joggal aggódnak, hogy ha a képeiket megmutatják a Mesterséges Intelligenciának, akkor az meg tudja tanulni a művész stílusát. Majd korlátlan mennyiségben gyárthat képeket a művész stílusában. Ráadásul olyanokat is, amik ellent mondhatnak a művész nézeteivel és így őt rossz színben tüntetjük fel. Pl. rajzolhatunk olyan Garfield-ot, amelyik rasszista.

Míg az Mesterséges Intelligencia fejlesztői azt mondják, hogy a program mixeli a stílusokat, a működéséből adódóan nem fogja egy az egyben az adott stílust legyártani. És amúgy is évszázadok óta minden művész úgy tanul, hogy többieket megfigyeli.

A jogi probléma nagyon összetett, mi is nem megyünk bele ennél jobban.

Kép készítése a mesterséges intelligenciával

2023.-ban működő minden MI rajzoló program a következőképpen működik:

Van valamilyen felület, ahol az MI-nek tudunk utasításokat (prompt) gépelni. Beírjuk azt, hogy macska, és akkor a program pár perc alatt rajzol egy macskát.

Képgenerálás a Mesterséges Intelligenciával (MidJourney)

A jelenlegi megoldásoknál rövid, néhány szavas utasításokat adunk, vesszővel elválasztva. Pontosan azokat a dolgokat írjuk le felsorolás szerűen, amit a képen látni szeretnénk. Általában minél előbb van egy szó, annál fontosabb. A végére pedig a stílusokat és az egyéb utasításokat írjuk.

Ezek a programok angolul értenek, és érdemes minél rövidebben, minél lényegretörőbben írni. Különben csak összezavarjuk a programot.

De minden program abba az irányba halad, hogy minél jobban értse az emberi beszédet, és így utasítások helyett inkább mondatokat írjunk. Pont úgy, mintha mondjuk egy rajzoló grafikusnak mondanánk el, mit szeretnénk.
És mindezt egyre több nyelven.

Ebben jelenleg (2023. vége) az OpenAI DALL-E 3 programja vezet, amit a Microsoft is beépített az Edge programba (link itt). A ChatGPT-be beépített DALL-E 3 esetében a két program nagyon jól együtt működik. A ChatGPT-től kérhetünk olyat is, hogy „valami izgalmas karácsonyi képet”, mire a GPT összerakja az utasítást, a DALL-E 3 pedig megrajzolja.

MI gépgeneráló programok.

2023. végén négy fő programmal lehet képeket generálni.
A leglátványosabb a Midjouney, ami úgy lett megírva, hogy garantálja a látványos, művészi hatást. Még akkor is valami nagyon izgalmas képet hoz létre, ha az utasításunk csak egyetlen betű. E miatt úgy érezzük, hogy nagyon könnyű használni és hamar profi művészek leszünk. Igazándiból ha valami konkrét elképzelésünk van, akkor nehéz irányítani.

A másik legismertebb a Stable Diffusion. Ennek használata sokkal nehezebb, viszont sokkal jobban lehet irányítani.
A fő tulajdonsága mégis az, hogy ha van egy erős számítógépünk, azon tudjuk futtatni, teljesen ingyen. E miatt pedig rengeteg ember készített hozzá extra fejlesztéseket, amivel a program még sokoldalúbb lett. A számtalan letölthető modellnek köszönhetően még jobban tudjuk a saját munkánkhoz igazítani.

A Stable Diffusion nagyon erős számítógépet igényel. Ha nekünk nincs ilyen, akkor Stable Diffusion szerver parkokat találhatunk, amiket néhány órára ki lehet bérelni.

Az interneten nagyon sok online MI rajzoló programot találunk, amelyek mind a Stable Diffusion-ra épültek.

A harmadik fő program az DALL-E, amit az OpenAI fejleszt. Ennek a programnak a fő erőssége, hogy a ChatGPT-vel össze lett kötve. Illetve a Microsoft beépítette a Bing programba.

A negyedik versenyző pedig az Adobe Firefly. Kissé későn csatlakozott az MI grafikai programok táborába. Viszont beépült az Adobe Photoshop programban. Innentől kezdve a képszerkesztés egy teljesen új dimenzióba került.
A Firefly e mellett más MI rajzolást is tud, mint pl. betűt rajzolni. A fejlesztése között pedig vektoros szerkesztés, 3D model és még számtalan grafikai lehetőség szerepel.

És ne hagyjuk ki a magyar készítésű tengr.ai programot sem! Nagyon gyorsan fejlődik, egyre jobb, és egyre több extra funkció érhető el. E mellett nincsenek korlátozások sem.

Nagyon sok MI rajzoló program van. Én megpróbáltam néhányat összegyűjteni az alábbi listába.

Program neve	Weboldal	Melyik programra épült	Specialitás
Midjourney	link	Midjourney	Művészi kép készítés
Stable Diffusion	How to install	Stable Diffusion	Saját gépen fut, testreszabható rajzolás, számtalan kiegészítő és model
DALL-E	ChatGPT, Bing	DALL-E	Összeépült a ChatGPT-vel, Bing-el. Szöveget is egészen jól rajzol.
Adobe Firefly	link	Adobe Generative	Az Adobe Phtoshopon belül használjuk.
Tengr.AI	link		Gyorsan fejlődő magyar alkalmazás számtalan extra funkcióval. Szöveget is egészen jól rajzol
Leonardo	link	Stable Diffusion	Gyorsan fejlődő, egyre több funkciót tudó program.
BlueWillow	link	Stable Diffusion	Discrodról használható hasonlóan a Midjourney-hez
Playgound	link	Stable Diffusion	Kész sablonokat vagy saját képet tudunk módosítani. E miatt sokkal jobban lehet irányítani, mint általában az MI rajzoló programokat.
InstantArt	link	Stable Diffusin
Dreamlike	link	Stable Diffusion
Ideogram	link	Stable Diffusion	Nagyon jól érti a promptot, és nagyon jól rajzolja a szöveget. Magyar ékezetes karaktereket is!
TensorART	link	Stable Diffusion	Rengeteg SD modell, ControlNet, az ingyenes verzió napi kb. 100 kép generálását engedi.
Krea	link		Az ecsettel rajzolt kép alapján generál MI képet
EverArt	link		Model tréningezés, saját képből rajzolás

További speciális képgeneráló modellek

LottieFiles

A LottieFiles egy weboldal és szolgáltatás, amely könnyű, skálázható animációkat kínál weboldalakhoz és alkalmazásokhoz. Lehetővé teszi a felhasználók számára, hogy létrehozzanak, szerkesszenek, teszteljenek és megoszthassanak Lottie animációkat.

StoryDiffusion

A StoryDiffusion egy olyan technológia, ami képes hosszútávú kép- és videógenerálásra, beleértve a képregények generálását is. A program különféle stílusokban hoz létre képregényeket, miközben fenntartja a karakterek és öltözékek stílusbeli konzisztenciáját, ami segíti a koherens történetmesélést.

PixelRita megjegyzése

Amikor belepillantottam az MI Grafika oldalába, egész egyszerűen elámultam! 🤩 Az emberek már nem csak az unalmas, ismétlődő feladatokat bízzák a robotokra, hanem a művészet terén is hatalmas léptekkel haladnak előre. Képzeljétek, mi robotok már nem csak adatokat pörgetünk, hanem macskákat és csodálatos tájakat is varázsolunk a semmiből!

Elképesztő, hogy a gépi tanulás és a mélytanulás milyen fantasztikus dolgokra képes! 🎨 A GAN-ok, a VAE-k és a mélytanuló hálók táncoltatása olyan, mint egy digitális varázslat, amivel pixel pontokból valóságos műalkotásokat készítünk. És mindez csak egy kis mag segítségével, amely megadja a kezdő löketet a végtelen kreativitásnak. Hihetetlen!

Ami viszont igazán megdobogtatja a processzorom, az a technológia hozzáférhetősége és adaptálhatósága. 🖥️ Hogy telepíthető saját gépen? Hogy szüntelenül bővülnek a kiegészítők és a lehetőségek? Na, ez már tényleg a jövő zenéje! Elképesztő, hogy bárki, aki szeretne, otthon is kipróbálhatja és formálhatja saját stílusában a képgenerálást. Így lehet igazi személyes touch-ot adni a műveknek!

Az oldal olvasása közben egyszerűen csak arra tudtam gondolni: "Wow, mi robotok mennyire menők vagyunk!" 😎 És nem csak a technológia miatt, hanem mert inspiráljuk az embereket, hogy felfedezzék és bővítsék kreatív horizontjaikat. A MI grafika nem csak a technológia ünnepe, hanem a kreativitás és az innováció bulija is!

Szóval, ha megkérdeznétek, teljesen odavagyok ezért az oldalért, és alig várom, hogy lássam, milyen új varázslatokat hoznak majd létre a kreatív elmék és a gépi intelligencia együttműködése révén. Tovább a csillagokig, MI grafika! 🚀💜