Stable Diffusion

Becsült olvasási idő 20 perc.

Stable Diffusion – a nyílt forrású képgenerátor

A Stable Diffusion egy nyílt forráskódú, mesterséges intelligencia alapú képgeneráló program, melyet a fejlesztők honlapjáról ingyenesen le lehet tölteni. Ez a program a kezdetektől fogva nagy népszerűségnek örvendett, és azóta rengeteg felhasználó telepítette, valamint számos kiegészítőt is készítettek hozzá. Ezek a kiegészítők arra szolgálnak, hogy a képgenerálás kiszámíthatatlan folyamatát irányíthatóvá tegyék, és segítsenek a felhasználóknak pontosabban megvalósítani elképzeléseiket.

A programhoz elérhető kiegészítők között vannak olyanok, amelyek segítenek a felhasználóknak a kívánt képeket létrehozni, mások pedig a mesterséges intelligencia képgenerálási képességeit bővítik ki, például videók készítésére.

Mindezek alapján a Stable Diffusion egy rendkívül összetett és sokoldalú eszköz, amely mesterséges intelligencia segítségével képeket generál. Komplexitása miatt ez az alkalmazás az egyik legbonyolultabb a maga nemében. Az alkalmazás széleskörű testreszabási lehetőségei és a hozzá készült kiegészítők sokasága lehetővé teszi a felhasználók számára, hogy szinte korlátlanul kísérletezzenek a képgenerálással és saját kreatív elképzeléseiket valósítsák meg.

PixelRita, mit tudsz a Stable Diffusion-ról?

Hardware

Mielőtt bármibe belekezdenénk, legfontosabb, hogy legyen erős gépünk, amin használni tudjuk.

Videokártya

Mindenképpen NVIDIA videokártya szükséges a képek generálásához. Abból is a felső kategória, legalább RTX-es kártya javasolt.
A másik kulcsfontosságú a videokártya memóriája, a VRAM (ne keverjük a „sima” RAM-al). Ebből legalább 4 GB szükséges, hogy egy minimális képet összehozzunk. Inkább 6 GB, de legjobb ha 12 GB VRAM-unk van (sőt, a legjobb, ha még ennél is több van, meg még több és még több, meg ami csak fellelhető a világon).

Merevlemez

A Stable Diffusion egyik specialitása, hogy lehet saját modellt készíteni, vagy letölteni. Egy-egy ilyen modell fájlt 4-6 GB körül mozog. Ezek betöltéséhez javasolt egy gyors SSD, és persze minél több tárhely.
Az én esetemben a Stable Diffusion program, a modellek és kiegészítők 200 GB helyet foglalnak. És amikor már működik a program, akkor megállíthatatlanul készülnek a képek. Azoknak is kell néhány száz GB…

Rendszer és egyebek

A Stable Diffusion Windows, Macintosh és Linux rendszerre is telepíthető. E mellett legalább 8 GB RAM (sima, rendes RAM) is szükséges, de a fentiek után talán ez a legkönnyebb.

Ha nem elég erős a gép…

Az interneten nagyon sok helyet találunk, ahol kedvező áron lehet Stable Diffusion szervereket bérelni. Ennek nemcsak az az előnye, hogy nem kell drága gépet vennünk, és a kép is nagyon gyorsan elkészül. Hanem az is, hogy minden előre be van állítva. Ami azért a Stable Diffusion esetében komoly segítség, ahogyan mindjárt látni is fogjuk!

Itt tudunk Stable Diffusion szervert bérelni:

Felhasználói felületek

A Stable Diffusion parancs kóddal működik. Ennek is megvannak a maga előnyei (bizonyára), de azért 2022-ben nem így képzeljük el azt a Mesterséges Intelligencia programot, ami meg akarja változtatni a világot,

Amikor a Stable Diffusion dolgozik.

Szerencsére az internet népe hamar neki esett, és kihasználva a nyílt kódot, készítettek neki egy egészen jól használható grafikai felületet. Pontosabban egy web-es felületet (webUI) És persze amiből lehet egyet készíteni, lehet többet is. Így rövid idő alatt az interneten több letölthető program jelent meg, amivel a Stable Diffusion-t lehet vezérelni.
Mindegyik web-es felületű (webUI), tehát kell hozzá egy böngésző (de legalább más extra program, mint .net vagy java, stb.. nem), és ez kicsit korlátozza a kinézetet is. Kissé fapados, de legalább átlátható és használható.

Megkértem PixelRitát, hogy nézzen körbe az interneten, és szedje össze a legnépszerűbb Stable Diffusion WebUI-kat. Mindig a GitHUB-ról tudjuk letölteni a webUI-kat. De erről hamarosan a telepítés részben bővebben kitérünk.
Minden nagyon gyorsan változik. Érdemes a legfrissebb verziókat keresni.

Automatic1111

  • Mit tud?: A Stable Diffusion Automatic1111 webUI egy felhasználói felület a Stable Diffusion számára, amely lehetővé teszi a felhasználók számára, hogy szöveges leírások alapján képeket generáljanak vagy meglévő képeket módosítsanak. Ez egy intuitív és könnyen használható felületet kínál.
  • Különlegességek és extrák: A webUI számos funkciót kínál, mint például a kifutó festés (outpainting), a befutó festés (inpainting), színes vázlatok, prompt mátrix, nagyítás, és figyelemfókuszálás.
  • Előnyök: A legújabb funkciók gyakran először itt jelennek meg, köszönhetően a szenvedélyes közösségnek. A felhasználói felület átfogó és sokoldalú.
  • Hátrányok: A szoftver használata nem a legegyszerűbb, és a dokumentáció hiányosságai miatt néha nehéz lehet megérteni az összes funkciót.

GitHub Link és Git Klón Link

Automatic1111 felülete
Automatic1111 felülete

ComfyUI

  • Mit tud?: A ComfyUI egy csomópont-alapú (node) felhasználói felület a Stable Diffusion számára. Ez lehetővé teszi a felhasználók számára, hogy szöveg-alapú képgenerálást, képből képbe átalakítást, SDXL munkafolyamatot, befestést és LoRAs használatát végezzenek.
  • Különlegességek és extrák: A ComfyUI kezelő segítségével a felhasználók testreszabhatják a csomópontokat a felhasználói felületen, és az Impact Pack egy hasznos csomópontgyűjteményt kínál a ComfyUI számára.
  • Előnyök: A ComfyUI egy erőteljes és moduláris felület, amely sokoldalú lehetőségeket kínál a felhasználóknak. A StabilityAI, a Stable Diffusion alkotói is használják a ComfyUI-t a Stable Diffusion belső tesztelésére.
  • Hátrányok: Mivel ez egy csomópont-alapú felület, kezdetben bonyolultnak tűnhet azok számára, akik nem szoktak ilyen típusú felületeket használni.

GitHub Link és Git Klón Link

A ComfyUI egy remek választás lehet azok számára, akik egyszerű, mégis hatékony eszközt keresnek képek generálásához, anélkül, hogy mélyen elmerülnének a technikai részletekben. Ez a felület segít könnyedén megvalósítani a kreatív elképzeléseket, minimális technikai tudással.

ComfyUI felülete
ComfyUI felülete

Invoke AI

  • Mit tud?: Az Invoke AI webUI egy felhasználóbarát felület a Stable Diffusion számára, amely lehetővé teszi a felhasználók számára, hogy könnyedén generáljanak és szerkesszenek képeket az AI segítségével.
  • Különlegességek és extrák: Az Invoke AI különösen jó a kifutó festés (outpainting) terén, ahol a teljes vásznat láthatod és meghatározhatod, hol szeretnél kifutó festést alkalmazni. Emellett a felhasználói felület tiszta és átlátható.
  • Előnyök: Az Invoke AI egy vezető kreatív motor a Stable Diffusion modellek számára, amely professzionális felhasználók, művészek és rajongók számára teszi lehetővé a vizuális média generálását és létrehozását az AI legújabb technológiáival.
  • Hátrányok: Az információk alapján nincsenek jelentős hátrányai, de mint minden szoftvernek, lehetnek korlátai a felhasználói igényekhez képest.

GitHub Link és Git Klón Link

Az Invoke AI egy kiváló eszköz azok számára, akik a legmodernebb AI képgenerálási technológiákat szeretnék kihasználni. Az általa nyújtott széles körű testreszabási lehetőségek és a felhasználóbarát felület kombinációja ideális választássá teszi mind a kezdő, mind a tapasztalt felhasználók számára.

InvokeAI
InvokeAI kezelőfelület

Melyiket válasszam?

A legnépszerűbb, és az első ami tényleg széles körben elterjedt az az Automatic1111. Ez is nyílt forráskódú, aminek köszönhetően nagyon sok hasznos kiegészítő készült, amivel még több funkciót kaptunk, és még jobban kontrollálhatjuk a kép generálását.
Én is ezt a WebUI-t használom, ezt ismerem legjobban (vagy talán ez a legkevésbé homályos). Így amikor a Stable Diffusion-ról beszélünk, akkor erről van szó.

A ComfyUI később jelent meg, de gyorsan nagyon népszerű lett. A folyamat nemcsak csúszkákból és számokból áll, hanem vizuálisan is megjelenik. Így jobban átlátható, hogy mi is történik. Addig persze, amíg nem lesz túl sok csomópontunk (node), bár akkor kezd az egész igazán izgalmas lenni!
A népszerűségének köszönhetően itt is nagyon sok kiegészítőt találhatunk a neten.

Az Invoke AI azzal jelent meg, hogy tud kifutó festést (outpainting). Ez azt jelenti, hogy a képen kívülre is tud rajzolni, ezzel növelve az eredeti kép méretét. Ha egy fekvő képből állót szeretnénk csinálni, akkor nem kell többé levágni, hanem az Invoke AI-val az üres helyeket rajzokkal tudjuk megtölteni. Oda tudunk pixeleket rajzolni, ahol nem voltak.
Ez a funkció később megjelent az Adobe Photoshop programban is.
E mellett az Invoke AI egy nagyon is jó felület az MI képgeneráláshoz.

Kép kiterjesztése (outpainting) a mesterséges intelligencia segítségével
Kép kiterjesztése (outpainting) a mesterséges intelligencia segítségével

Megkértem PixelRitát, hogy készítsen egy táblázatot is, hogy jobban átlássuk a különböző webUI-kat.

Szempont / WebUIAutomatic1111ComfyUIInvoke AI
Fő jellemzőkSzéleskörű funkciók, sokoldalú beállításokCsomópont-alapú felhasználói felület, testreszabható csomópontokFelhasználóbarát, tiszta felület, kiváló outpainting funkciók
ErősségekLegújabb funkciók gyakran itt jelennek meg először, intuitív felhasználói felületErőteljes és moduláris, sokoldalú lehetőségek
Könnyű képgenerálás és szerkesztés, tiszta felhasználói felület
KülönlegességekOutpainting, inpainting, színes vázlatok, prompt mátrix, nagyításImpact Pack csomópontgyűjteményKifutó festés (outpainting) kiemelkedő kezelése, stabil működés
HátrányokBonyolult lehet kezdők számáraKezdeti bonyolultság csomópont-alapú felület miattKevesebb információ áll rendelkezésre a felhasználói felülettel kapcsolatban
AlkalmasHaladó felhasználóknak, akik sokoldalú eszközöket keresnekOlyan felhasználóknak, akik szeretik a moduláris és testreszabható felületeketKezdőknek és azoknak, akik egy tiszta, könnyen kezelhető felületet keresnek

Természetesen további WebUI-k is vannak. Némelyik nagyon speciális, mások könnyebbek vagy bonyolultabbak. Ha bírja a számítógépünk, érdemes velük is kísérletezni.
Megkértem PixelRitát, hogy szedjen össze néhányat.

  • Sygil WebUI: Hasonló a Stable Diffusion WebUI-hoz, de egyedi funkciókkal, mint például a Text To Video és az SD Concepts Library.
  • DiffusionBee: macOS felhasználók számára készült, egyszerű és intuitív felülettel.
  • Lexica Art: Képgenerálás szöveges leírások alapján, egyszerű felhasználói felülettel.
  • DeepDanbooru WebUI: Anime karakterek és jelenetek generálására specializálódott.

PixelRita! Mit gontolsz? Készen állunk a telepítésre?

Stable Diffusion 1.5-ös verzió telepítése Windowsra

Hagyjuk hátra a modern 2020-as világot, amikor letöltünk egy fájlt, kettőt kattintunk rá, és már készen is van a program, lehet használni!
Menjünk vissza az időben néhány évtizedet!

PixelRita! Te mit gondolsz a Stable Diffusion telepítéséről? Készíts egy vidám útmutatót!

Igen, ez egy vidám kaland, ahol érdemes, ha bőségesen van kávé a közelben! Azért ne rettentsen el senkit, mert ha sikerült feltelepíteni a Stable Diffusion-t, akkor egy nagyon izgalmas világ kapuja nyílik meg!

Ami általában kimarad…

Oké, a telepítés kissé macerás, azért az interneten található útmutatók és segítségek próbálják a lehető legrövidebbre venni. Ezért inkább nem mondanak semmit, csak hogy hova kell kattintani.

A Stable Diffusion program a Python program nyelven működik. Ehhez pedig szükség van magára a Python futtató környezetre. Csak a 3.10.6-os verzió jó!! Sem a régebbi, sem az újabb.

A programok a GitHUB-on vannak fent. Le lehet onnan direkt is tölteni, de valamiért mindenki inkább a speciális klónozó programot használja, amihez fel kell telepíteni a GIT programot is. Nem írom, hogy így könnyebb lesz de mindenképpen érdekesebb.

Szedjük össze a fájlokat!

Tehát elsőnek töltsük le a Python 3.10.6-os verziót. A 32 bites Windows rendszerhez itt, a 64-bites Windows rendszerhez pedig itt tudjuk letölteni a programot (ha meg nem működik a link, itt keresgéljünk).
Letölthetjük a Microsoft Store-ból is.

A GIT programot innen tudjuk letölteni.

Menjünk fel a Stable Diffusion weboldalra, majd pedig töltsük le az alap 1.5-ös modelt: v1-5-pruned-emaonly.ckpt Ez 4,27 GB, és a letöltéshez regisztrálni kell (ingyenes). Ezen a linken direkt is le lehet tölteni.

Extra arcjavító modul, amit innen tudunk letölteni. (GFPGANv1.4.pth)

Telepítés

  1. Először a GIT program telepítőt indítsuk el!
  2. Kapcsoljuk ki a Windows Explorer integritást. Arra nincs szükség.
  3. Nyomjuk végig a Next gombot
  4. Ha kész a GIT telepítése, nyomjuk meg a LAUNCH gombot.
  5. Csináljunk egy új foldert a C: meghajtón pl. StableDiffusion néven. A név bármi lehet, amiben nincs Space vagy különleges karakter. Innen fogjuk vezérelni az AI rajzolót. Ezért érdemes olyan címet, amit később könnyen megtalálunk.
  6. Másoljuk ki a könyvtár elérési útvonalát
  7. Vegyük elő a futó GIT programot.
  8. Lépjünk be a C drive-on készített könyvtárba (pl. cd c:\StableDiffusion\)
  9. Írjuk be a kód klónozóparancsot:
    1. A Stable Diffusion oldalán találunk egy zöld Code gombot. Arra kattintva kapjuk meg a kódot. Ezt másoljuk ki.
    2. A GIT programba írjuk be:  git clone [[illesszük be a kimásolt kódot]]
      1. Az automatic 111 webui esetében ez a parancs: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
      2. Az Automatic 1111 optimalized esetében git clone https://github.com/basujindal/stable-diffusion.git
      3. ConfiUI esetében: git clone https://github.com/comfyanonymous/ComfyUI.git
      4. InvokeAI esetében git clone https://github.com/invoke-ai/InvokeAI.git
  10. Python 3.10.6 telepítő indítása
  11. Az első ablak alján be kell kapcsolni az Add Python 3.10 PATH check boxot.
  12. Nyomjuk meg az Install Now gombot
  13. A telepítés után a GFPGANv1.4.pth nevű fájt (ez az arcjavító modul) másoljuk be a C:\StableDiffusion\stable-diffusion könyvtárba
  14. A v1-5-pruned-emaonly.ckpt fájl másoljuk be a C:\StableDiffusion\stable-diffusion-webui\models\Stable-diffusion könyvtárba
  15. Menjünk el a C:\StableDiffusion\stable-diffusion-webui könyvtába, és indítsuk el a webui-user.bat programot. Ez rengeteg fájlt fog letölteni, ami akár 30 percnél is tovább tart. Közben nem sok visszajelzést kapunk, de azért működik. Ha biztosak akarunk lenni benne, néha nyomjuk meg az ENTER gombot.
  16. Nincs igazi visszajelzése a telepítés végének. Lesz majd egy URL cím, mint a http://127.0.0.1:7860/
  17. Egy kevés memoriát használó internet böngészőbe ezt a címet írjuk be. A programot onnan fogjuk tudni irányítani.
  18. NE ZÁRJUK BE a cmd.exe-t. (fekete parancs ablak). Ennek a háttérben futnia kell. Ez maga a program.

Az alábbi magyar nyelvű YouTube videó segíthet a telepítésben

Remélem, sikerült a telepítés. Mert ha nem, akkor keresgélhetünk a neten megoldások után…

webui-user.bat szerkesztése

A webui-user.bat fájlt nyissuk meg Jegyzettömbbel (Notepad), és írjuk bele a következő adatokat. Majd mentsük el a fájlt.

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS=--lowvram --xformers --api --skip-torch-cuda-test --precision full --no-half
git pull
call webui.bat

A –lowvram funkció abban segít, hogy a kevesebb VRAM-al rendelkező gépeken is fusson a Stable Diffusion. (vagy gyorsabb gépeken nagyobb méretű fájlokat készítsünk). Ez lassítja a képgenerálást.
A git pull fogja a frissítéseket figyelni és automatikusan telepíteni. Nem biztos, hogy jól járunk vele!

A többi is fontos, de már nem emlékszem, miért… Aki szeretne jobban belemélyedni a paraméterezésbe, neki itt van a teljes lista.

Mit gondolsz PixelRita? Készen állunk a program használatára?

Stable Diffusion Automatic1111 gyorstalpaló

A Stable Diffusion használata….

A Stable Diffusion előnye, hogy itt van lehetőségünk a Mesterséges Intelligenciát irányítani, hogy mit is rajzoljon. A többi MI rajzolót megkérhetjük, hogy rajzoljon egy macskát napszemüvegben. És akkor rajzol egy valamilyen macskát valamilyen szemüvegben valamilyen pózban valamilyen háttérrel. A programoktól függően van egy kevés beleszólásunk, hogy az a bizonyos valami mi is legyen. De igazán nem tudjuk őket irányítani. Inkább csak reménykedünk, hogy az eredmény hasonló lesz, mint amit szeretnénk.

A Stable Diffusion is onnan indul, hogy kérünk egy képet, és kapunk egy valamilyen képet. A program eddig a pontig nem nehéz. De ahogy szeretnénk a folyamatot egyre jobban a kezünkbe venni, úgy kezd egyre bonyolultabb lenni. Úgy kerülnek elő a modellek, a kiegészítők, a specialitások.

Konkrétan több ezer órányi videót találunk a YouTube-on arról, hogy milyen használat esetén milyen beállításokkal és kiegészítőkkel tudunk elindulni. Mit csináljunk, ha valódi fotóból szeretnék kézirajzot készíteni? Vagy hogyan lehet egy vázlatból fényképszerű valódi képet készíteni? Hogyan lehet dekoratív QR-kódot készíteni? Hogyan lehet saját magunkból űrhajóst rajzolni? Hogyan lehet az emberi pózt átvinni a képre, mondjuk egy macskára? Hogyan lehet videót készíteni?
….és még órákon keresztül lehetne a lehetőségeket folytatni, amire tényleg csak a fantázia szabja a határokat. És ha valami nincs, akkor lehet a programot tanítani is!

Három YouTube csatornát mindenképpen ajánlok. Egyik az Olivio Sarikas aki nagyon részletes és érthető oktató videókat készít a Midjourney és Stable Diffusion használatáról.
A másik pedig Sebastian Kamph, aki szintén nagyon jól magyaráz. Rajta látszik, hogy érti is, mi miért történik.
Magyar nyelven Pintér Zsolt mutat trükköket, és ad hasznos tanácsokat. Érthetően, részletesen.
Itt pedig egy egészen komoly használati utasítás van, hogy melyik gomb mire való.

Ebben a bejegyzésben csak a legfontosabb alapokra fókuszálunk. Éppen csak átveszünk néhány alapvető dolgot, hogy legalább el tudjuk kezdeni valahol.
Az alapvető műveletek mindegyik WebUI-ban megtalálhatóak, így ez az ismertető a többi Stable Diffusion programban is használható.

Kezdetek

Amikor elindítottuk a webui-user.bat fájlt, akkor elindul a terminál ablak, amiben nagyon sok minden fog történni, amiből nagyon keveset fogunk megérteni. De ez nem is baj. Várjuk meg a végét!
Ha minden oké, akkor valahol a végén lesz egy URL cím. Pl. http://127.0.0.1:7860

Stable Diffusion terminál ablak
Stable Diffusion terminál ablak

Ezt írjuk be egy internetes böngészőbe, és máris megkapjuk az alap program ablakunkat. Ne ijedjünk meg, ez még csak az egyszerűbb! Lesz majd még több csúszka és nyomkodni való, ha elkezdjük a kiegészítőket felpakolni!

Checkpoint

A legfontosabbat a bal felső sarokban találjuk, a Stable Diffusion Checkpoint -ot. Ez a model, ami megadja azt, hogy mit is tudunk rajzolni. Egy kb. 5 GB-os fájlt tartalmazza az összes adatot, amiből a Mesterséges Intelligencia dolgozik. Például ha ebben a fájlban vannak macskára vonatkozó adatok, akkor az MI tud macskát rajzolni. Ha semmi sincs benne a macskákról, akkor az MI nem fog tudni macskát rajzolni.

Modelt, azaz Checkpoint-ot tudunk készíteni mi is a Train menüpontban. Vagy pedig az internetről is tölthetünk le kész fájlokat. Az egyik legismertebb model (és más Stable Diffusion extrák) a CivitAI oldal.
Én már 200 GB-nyi checkpoint-ot összegyűjtöttem. Ezen az oldalon találhatóak azok, amiket én használok.

A letöltött checkpointokat a stable-diffusion-webui\models\Stable-diffusion könyvtárba kell bemásolni.

Alatta találjuk a füleket: text2img, img2img, extras, PNGinfo, CheckPoint Merge, Train, Settings, Extensions.
És ott van a nagy (majdnem) piros gomb is, a Generate felirattal. Erre kattintva tudjuk elindítani a képgenerálást.

txt2img – szöveg alapú képgenerálás

Stable Diffusion - txt2img
Stable Diffusion – txt2img

A txt2img azt jelenti, hogy text to image. Azaz beírjuk a szöveget, és kapunk egy képet. Ez a mesterséges intelligenciás rajzolás alapja. Hagyományos módon meg kell fogni az ecsetet, ceruzát vagy egeret, és nekünk kell megrajzolni azt, ami a fejünkben van. Az MI esetében viszont csak be kell írni, hogy mit szeretnénk, és a program generál egy képet az adatbázisa és a véletlenszerű számok alapján.
A kaland akkor kezdődik, amikor ezt irányítani akarjuk.

Prompt

A Prompt mezőbe írjuk bele azt, amit szeretnénk. Ellentétben más MI képgeneráló programokkal (pl. Midjourney), a Stable Diffusion esetében mindent le kell írni, ami a képen látni akarunk. A program nem fog extra elemeket, extra stílusokat, vagy mást beletenni.
A prompt mindig angolul legyen, rövid felsorolás szerűen. pl: macska mászik a fenyőfára, téli erdő háttér
A fontosabb utasításokat {} zárójelbe tegyük. Minél több a zárójel, annál fontosabb az utasítás.

A Negative prompt részbe azt írjuk be, amit nem akarunk a képen látni. A Stable Diffusion egyik érdekessége, hogy teljes nyugalommal fog olyan képet is generálni, ami rossz. Le kell írnunk, hogy ne készítsen olyat, ami rossz.
A negatív promptokat ajánlott ezzel egy a listával kezdeni:

cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, morbid, mutation, deformed, blurry, text, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, morbid, mutation, deformed, blurry

Sampling

A Sampling jelenti a képalkotást. A Stable Diffusion úgy működik, hogy először készít egy digitális zajt. Ez egy kép véletlenszerű színes pixelekkel. Majd a Mesterséges Intelligenciának a feladat, hogy úgy igazítsa a képpontokat, hogy a kért eredményt adják ki. A jó végeredményhez általában 20 lépésre van szükség. Ezt a Sampling steps csúszkán tudjuk beállítani.
Kevesebb lépés is elég lehet, ez a használt technikától függ. De kérhetünk több lépést is, olyankor a képet tovább fogja dolgozni. Ebben az esetben a kép többi részén is megjelennek azok az alakzatok, amiket kértünk.
Ha több lépést kérünk, nem lesz jobb a kép! Csak több adat lesz benne. Túl sok lépés esetén a képen zaj jelenhet meg.
Minden egyes lépés egy képgenerálást jelent. Ha 20 lépés helyett 40 lépést kérünk, akkor a teljes kép elkészülte kétszer annyi ideig tart.

Több különböző technika létezik, ami a digitális zajból képet készít. A Sampling method listában választhatunk közülünk. Egyes módszerek a 20. lépés előtt is élvezhető képet tudnak alkotni, ami nagy segítség ha nagyon sok képet akarunk generálni, a folyamat felgyorsul.
Minden technika más. Ezt ki kell kísérletezni, ki melyikkel tud jobban dolgozni. Sokan az Eurler a-t használják, mert azt adja fel a program alapból. Mások szerint a DPM++ a legjobb, aminél jelenleg (2023. év vége) a 3M SDE Karras az ajánlott.

A képméret

A következő fontos beállítás a kép mérete. Míg a legtöbb MI képgeneráló programoknál nem sok lehetőség közül választhatunk, a Stable Diffusion esetében konkrét pixel méretet adhatunk meg. A Width a kép szélessége, a Height pedig a magassága.
Amire nagyon oda kell figyelni, hogy a nagyobb kép lényegesen több VRAM-ot igényel a videokártyától. És az extra műveletek is extra memóriát igényelnek. Hiába rendelkezik már a legolcsóbb mobil telefon is 10+ megapixeles kamerával, egyelőre be kell érni az alacsonyabb felbontással. De van lehetőség a kép későbbi nagyítására!

Több kép készítése

Amíg kísérletezünk, addig elegendő, ha 1-1 képet készítünk. De ha már megtaláltuk a legjobb beállítást, akkor már lehet több képet is generálni. Erre szolgát a Batch.
A Batch count csúszkán állíthatjuk be, hogy hány különféle kép csomagot kérünk. A Batch size pedig, hogy egy csomagban hány kép legyen.
Pl. ha a Batch count 4 a Batch size pedig 3, akkor 12 képet fogunk kapni. 4 olyan csomagot, aminél mindegyikben 3-3 hasonló kép lesz.

CFG

Azt hiszem, ezt PixelRita jobban el tudja magyarázni.

Általában a 7-es szám egy közbülső érték, amikor még engedjük a programot szabadon garázdálkodni, de már követi az utasításokat is.

Seed

A Seed jelentése mag. Ez egy véletlenszerűen generált szám, amiből a Mesterséges Intelligencia a kezdeti digitális zajt készíti. Ebből fogja a végleges képet megrajzolni.
A seed azért fontos, mert ennek köszönhetően lesz minden kép más. Ha ugyan azt a seed-et használjuk, és minden beállítás ugyan az, akkor a végül ugyan azt a képet fogjuk kapni.
Az egyforma seed segít abban, hogy egymáshoz nagyon hasonló képeket kapjunk a beállítások és utasítások (prompt) finom hangolásával. Ez segít abban is, hogy ugyan azt a karaktert kapjuk.

Ha véletlenszerű seed-et szeretnénk, akkor -1-es értéket adjunk.

Képgenerálás

Ha mindent beállítottunk, akkor a jobb felső narancssárga Generate gombra kattintva elindul a képkészítés.
Alatta fogjuk látni a kész képeket. A sárga mappa ikonra kattintva megnyílik az a mappa, ahova a kész képeket automatikusan lementi a program.

LoRA

LoRA, vagyis a Low-Rank Adaptation a finomhangolást szolgálja. Ez egy kisebb checkpoint model, ami szintén a képgeneráláshoz tartalmaz rajzolási információkat. De kisebbek, így nem növelik jelentősen a számítási igényt.

E mellett másik nagy előnye, hogy a checkpoint-al ellentétben egyszerre többet is használhatunk. Lehet súlyozni is, hogy melyik LoRA modelt mennyire vegye figyelembe.

LoRA modelleket mi magunk is készíthetünk, vagy letölthetünk az internetről, pl. a CivitAI oldalról.
Én ide gyűjtöm azokat a LoRA modelleket, amiket én használok.
A letöltött LoRA-kat ebbe a könyvtárba másoljuk be: \stable-diffusion-webui\models\Lora

A Negative prompt alatt tudunk a LoRA fülra kattintani, ahol láthatjuk a LoRA modelleket. Amikor egyikre rákattintunk, akkor bekerül a Prompt mezőbe és így néz ki:

<lora:Architectural drawings:1>

A név végén egy 1-es számot láthatunk. Ez 0-1 között mozoghat attól függően, hogy mennyire legyen súlyos az adott LoRA modell. Általában a 0.5-0.8-as értéket választják.

img2img – képből készítünk képet

Stable Diffusion - img2img
Stable Diffusion – img2img

Az image to image a Stable Diffusion egyik leghasznosabb, és legegyedibb eszköze. Itt tudunk saját képet megadni forrásnak, amiből majd a Mesterséges Intelligencia új képet készít. Ez lehet akár egy valódi portré fotó, amiből karikatúra szerű képet szeretnénk. Lehet egy vonalas skiccrajz, amiből valósághű fényképet kérünk. De lehet az MI által készített kép is, amivel tovább akarunk dolgozni.

A legtöbb beállítás megegyezik a txt2img fülben lévőkkel. A fő különbség, hogy tudunk képet adni a programnak, majd pedig ennek a beállításait láthatjuk itt. Ezek közül pedig a legfontosabb a Denoising strength.

Denoising strength

A Denoising strength adja meg, hogy a program mennyire változtassa meg az eredeti képet. Az érték 0-1 között lehet. Alapbeállításban 0.7
0 – Az új kép teljesen megegyezik a régivel.
1 – Az új kép teljesen más a régivel.

img2img

Az első fül az img2img azaz amikor egy meglévő képből generálunk egy újat.
A Drop Image Here részre tudjuk a forrás képet tenni. Majd minden beállítást adjunk meg úgy, mint a txt2img részben tennénk.
Figyeljünk oda, hogy a generált kép méretaránya az eredeti képével megegyező legyen. Különben a kép torz lesz!

Ezt használjuk akkor, ha egy fényképből rajzfilm stílusú képet szeretnénk. Vagy egy rajzfilm karakterből akarunk valós képet készíteni. Vagy bármi más esetben, amikor valami olyasmit szeretnék, ami egy már meglévő képhez hasonlít.

Sketch

A Sketch fül az img2img egy alternatív változata, ahol a meglévő képre további vonalakat, elemeket szeretnénk még hozzáadni. Ne valami komoly dologra gondoljunk, mert itt csak egy digitális ceruzánk van, aminek a színét és a vastagságát tudjuk állítani. Mégis hasznos lehet, ha valami kimaradt abból a képből, amin dolgozni szeretnénk.

Inpaint

Az Inpaint fül az a hely, ahol egy meglévő kép valamelyik részét módosítjuk a Mesterséges Intelligenciával.
Le lehet radírozni a képről valamit, mondjuk egy embert a háttérből.
Új elemet generálhatunk a képre. Pl. egy autót a ház elé.
Nem kell a neten keresgélni fotókat, amit utána digitálisan berakunk a képbe, mert az MI ezt megcsinálja. Ráadásul figyel a fényekre és árnyékokra, tükröződésekre is.
Ezzel nagyon jól lehet javítani azokat a képhibákat is, amik a képgenerálás során megjelenhetnek.

Az Inpaint fülben egy ecsetet találunk. Ezzel kijelöljük azokat a területeket, amiket a Mesterséges Intelligencia kicserél.

Batch

Az Batch fülön beállíthatjuk, hogy ugyan azt a műveletet a Mesterséges Intelligencia több képen hajtsa végre. Akár egy egész könyvtárat adhatunk neki, hogy azokból készítsen ceruza rajzot, olaj festményt, valódi fotót, vagy bármi mást.

Arra figyeljünk oda, hogy a Batch az összes képre azt a képméretet fogja használni, amit beállítunk a generálás előtt. Ha eltérőek a képarányok, akkor a képek torzak lesznek. Érdemes a képeket egyforma arányra alakítani a generálás előtt.

További menük

PNG Info
PNG Info

Bátran kijelenthetjük, hogy a teljes Stable Diffusion megtanulása legalább annyira összetett, mint egy komolyabb rajzoló programé. De ugyan annyira határtalan lehetőségeket is nyújt.
Így már csak néhány fontosabb részt veszünk át.

PNG Info

Ez egy nagyon hasznos menü, ahol a korábban generált képek elkészítéséhez használt adatokat láthatjuk. Hasonlít a fényképezőgépek EXIF adataihoz.
Itt megtaláljuk, hogy milyen modell, milyen prompt, milyen értékekkel voltak beállítva. Még a kép seed-jét is megkapjuk!

Ha ugyan ezeket az adatokat akarjuk használni a következő képhez, akkor nem kell másolgatni, hanem elég csak a Send to txt2img vagy a Send to img2img esetleg a Send to inpaint gombra kattintani. Ekkor minden információ átkerül a munkafelületre (a később telepített kiegészítők beállításai kimaradhatnak).
Figyeljünk oda, hogy a seed is átkerül. Ha nem pontosan ugyan azt a képet szeretnék előállítani, akkor a seed-et ne felejtsük megváltoztatni!

Kiegészítők

A Stable Diffusion egyik nagy lehetősége, hogy rengeteg kiegészítőt találunk az interneten, amit a lelkes felhasználók folyamatosan készítenek. Ezek mind abban segítenek, hogy ne egy véletlenszerűen generált képet kapjunk, hanem minél nagyobb legyen a kontrollunk az eredményen.
Más kiegészítők pedig további funkciókat adnak a programhoz, amivel pl. videót lehet készíteni.

ControlNet

Stable Diffusion - ControlNet
Stable Diffusion – ControlNet

A leghíresebb kiegészítő a ControlNet. Nem véletlenül! Ahogyan a nevében is benne van, ez nagyon megnöveli a képgenerálás feletti kontrollunkat. A megadott kép körvonalait, tartalmát, emberi arcot, mimikát vagy mozdulatot, stb.. vesz figyelembe, és az alapján generálja az új képet.

De mindez már egy másik bejegyzésben lesz.

Stable Diffusion ControlNet használata az építészetben
Stable Diffusion ControlNet használata az építészetben – Vázlatból élethű kép néhány perc alatt.

Verziók

Néhány szót a verziókról is emleteni kell.

Az 1.0 verzió után nem sokkal megjelent az 1.5. Ez egy nagyon jól sikerült verzió. Sőt! Jelenleg (2023. vége) ez a legnépszerűbb, és a legtöbbet használt verzió! Én is ezt használom. Leginkább azért, mert az be van állítva és működik.

A 2.1-es verzió kezdetben népszerű volt, de nagyon hamar kiábrándultak a felhasználók és visszatértek az 1.5-höz.

A fejlesztők ki akarták küszöbölni a korábbi hibát, és a következő verzió az SD XL lett. Ez tényleg szebb képeket készít, de kissé másképpen kell használni, sok kiegészítővel nem kompatibilis, és több VRAM-ot igényel. Így a sok felhasználó továbbra is az 1.5-ös verziót használja.

PixelRita összefoglalója


Stable Diffusion-al kapcsolatos bejegyzések

  • Fotóból alternatív változatok (Stable Diffusion az építészetben)

    Fotóból alternatív változatok (Stable Diffusion az építészetben)

    Becsült olvasási idő 6 perc. A mesterséges intelligencia segítségével egy ceruzarajzból vagy egy alaprajból tudunk valósághű képet készíteni. Mintha az épület készen lenne. Ezúttal viszont egy már meglévő fényképet alakítunk át úgy, hogy teljesen új házat lássunk.


  • Régi térképek újrarajzolás – Stable Diffusion + ControlNet

    Régi térképek újrarajzolás – Stable Diffusion + ControlNet

    Becsült olvasási idő 5 perc. Régi térképek, kézzel rajzolt térképek vagy AutoCAD-ben készült térképek. Mindegyik egy stilizált változata a valóságnak. De mi lenne, ha a mesterséges intelligenciával ezekből a rajzokat valósághű képekké alakítanánk? A régi térképek újraszámolása még várat magára. De bizonyára a közeljövőben a térképészetben is megjelenik a mesterséges intelligencia. Mi egyenlőre maradunk az…


  • Kreatív dekorációk a szabásminta alapján MI segítségével

    Kreatív dekorációk a szabásminta alapján MI segítségével

    Becsült olvasási idő 6 perc. Gondolkodtál már azon, hogy a mesterséges intelligencia hogyan dobhatja fel a szabásmintáidat? Nos, én igen, és megosztom veled, hogyan! Képzeld el, hogy a képeid nem csak képek, hanem valós formákba illeszkedő műalkotások. Pontosan ezt hozzuk létre egy cipő szabásmintával, és a mesterséges intelligenciával.


  • Gyorsan készíthetünk összefoglalókat a weboldalakról a ChatGPT segítségével

    Gyorsan készíthetünk összefoglalókat a weboldalakról a ChatGPT segítségével

    Becsült olvasási idő 4 perc. Egy listában rengeteg weboldal linkje van. Szeretném, ha minden linkről lenne egy rövid leírás, mit is tartalmaz. Megkértem a ChatGPT-t, hogy nézze át a linkeket, és készítsen rövid ismeretetöt mindegyikről


  • Alaprajzból 3D kép (Stable Diffusion az építészetben)

    Alaprajzból 3D kép (Stable Diffusion az építészetben)

    Becsült olvasási idő 4 perc. Gyorsan készítettünk egy vázlatot a jövőbeli ház alaprajzáról. Míg a mérnökök a tényleges technikai rajzon dolgoznak, a mesterséges intelligencia készít néhány látványos alaprajzot.


  • Ceruzarajzból élethű képek (Stable Diffusion az építészetben)

    Ceruzarajzból élethű képek (Stable Diffusion az építészetben)

    Becsült olvasási idő 4 perc. Itt egy vázlat. Mihamarabb szükség lenne egy élethű látványos képre, hogyan is néz majd ki az épület. A mesterséges intelligenciával ez csak pár perc.


Loading

Rating: 5.00/5. From 1 vote.
Please wait...

Szólj hozzá!