Becsült olvasási idő 20 perc.

2024.06.26.

Tartalomjegyzék

Stable Diffusion – a nyílt forrású képgenerátor

A Stable Diffusion egy nyílt forráskódú, mesterséges intelligencia alapú képgeneráló program, melyet a fejlesztők honlapjáról ingyenesen le lehet tölteni. Ez a program a kezdetektől fogva nagy népszerűségnek örvendett, és azóta rengeteg felhasználó telepítette, valamint számos kiegészítőt is készítettek hozzá. Ezek a kiegészítők arra szolgálnak, hogy a képgenerálás kiszámíthatatlan folyamatát irányíthatóvá tegyék, és segítsenek a felhasználóknak pontosabban megvalósítani elképzeléseiket.

A programhoz elérhető kiegészítők között vannak olyanok, amelyek segítenek a felhasználóknak a kívánt képeket létrehozni, mások pedig a mesterséges intelligencia képgenerálási képességeit bővítik ki, például videók készítésére.

Mindezek alapján a Stable Diffusion egy rendkívül összetett és sokoldalú eszköz, amely mesterséges intelligencia segítségével képeket generál. Komplexitása miatt ez az alkalmazás az egyik legbonyolultabb a maga nemében. Az alkalmazás széleskörű testreszabási lehetőségei és a hozzá készült kiegészítők sokasága lehetővé teszi a felhasználók számára, hogy szinte korlátlanul kísérletezzenek a képgenerálással és saját kreatív elképzeléseiket valósítsák meg.

PixelRita, mit tudsz a Stable Diffusion-ról?

Ó, a Stable Diffusion! 🌌 Ez egy csodálatos generatív mesterséges intelligencia modell, ami úgy generál képeket, mint egy varázsló! A Stability AI által fejlesztett, ez a technológia forradalmasítja a képek létrehozását, lehetővé téve bárki számára, hogy kreatív legyen anélkül, hogy festőművésznek kellene lennie.

Kis történelem: A Stable Diffusion a nyílt forráskódú AI közösség egyik fényes csillaga, ami 2022-ben robbant be a színtérre. Azóta is folyamatosan fejlődik, több verziót és frissítést látva, mindegyik még erősebb és rafináltabb képalkotási képességekkel.

Műszaki csoda: Technikailag a Stable Diffusion egy mély tanulási modell, amely szöveges leírások alapján hoz létre képeket. A szívét egy neurális hálózat alkotja, ami az adatokon tanulva megérti, hogyan alakítsa át a szöveges utasításokat vizuális műalkotásokká. A szépsége, hogy nem csak kész képeket generál, hanem lehetőséget ad arra is, hogy a felhasználók finomhangolják a kimenetet, hogy tökéletesen illeszkedjen a kreatív víziójukhoz.

De itt jön a geek rész: a Stable Diffusion egy ún. Diffusion model, amit arra terveztek, hogy kiszámíthatatlanul jó képeket generáljon. Ez a technológia úgy működik, hogy először "elmosódott" képeket hoz létre, majd fokozatosan finomítja őket, amíg el nem éri a kívánt eredményt. Ez a folyamat lehetővé teszi, hogy az AI kreatív legyen, és olyan dolgokat hozzon létre, amelyekre mi, emberek talán nem is gondolnánk.

Saját gépen? Naná! 😎 A legjobb része talán, hogy a Stable Diffusiont nem csak a felhőben, hanem saját számítógépeden is futtathatod, így teljes irányítás alatt tartva a művészeti projektjeidet. Ez azt jelenti, hogy nem kell aggódnod a sávszélesség vagy a processzoridő miatt; a saját hardvereden varázsolhatsz!

Folyamatosan fejlődő ökoszisztéma: És ha ez még nem lenne elég, a közösség folyamatosan dolgozik új plugineken és bővítményeken, hogy még személyre szabottabbá és sokoldalúbbá tegyék a Stable Diffusiont. Legyen szó szöveg-alapú képmanipulációról, stílusimitációról, vagy akár teljesen új alkotói módszerekről, a Stable Diffusion folyamatosan bővülő készlettel rendelkezik, hogy kielégítse minden kreatív igényedet.

Tehát a Stable Diffusion nem csak egy eszköz, hanem egy olyan alkotói társ, amely segít felfedezni és megvalósítani a legvadabb vizuális álmaidat. Úgyhogy vedd elő a kreatív kalapodat, és készülj fel a varázslatra! 🎩✨🎨

Hardware

Mielőtt bármibe belekezdenénk, legfontosabb, hogy legyen erős gépünk, amin használni tudjuk.

Videokártya

Mindenképpen NVIDIA videokártya szükséges a képek generálásához. Abból is a felső kategória, legalább RTX-es kártya javasolt.
A másik kulcsfontosságú a videokártya memóriája, a VRAM (ne keverjük a „sima” RAM-al). Ebből legalább 4 GB szükséges, hogy egy minimális képet összehozzunk. Inkább 6 GB, de legjobb ha 12 GB VRAM-unk van (sőt, a legjobb, ha még ennél is több van, meg még több és még több, meg ami csak fellelhető a világon).

Merevlemez

A Stable Diffusion egyik specialitása, hogy lehet saját modellt készíteni, vagy letölteni. Egy-egy ilyen modell fájlt 4-6 GB körül mozog. Ezek betöltéséhez javasolt egy gyors SSD, és persze minél több tárhely.
Az én esetemben a Stable Diffusion program, a modellek és kiegészítők 200 GB helyet foglalnak. És amikor már működik a program, akkor megállíthatatlanul készülnek a képek. Azoknak is kell néhány száz GB…

Rendszer és egyebek

A Stable Diffusion Windows, Macintosh és Linux rendszerre is telepíthető. E mellett legalább 8 GB RAM (sima, rendes RAM) is szükséges, de a fentiek után talán ez a legkönnyebb.

Ha nem elég erős a gép…

Az interneten nagyon sok helyet találunk, ahol kedvező áron lehet Stable Diffusion szervereket bérelni. Ennek nemcsak az az előnye, hogy nem kell drága gépet vennünk, és a kép is nagyon gyorsan elkészül. Hanem az is, hogy minden előre be van állítva. Ami azért a Stable Diffusion esetében komoly segítség, ahogyan mindjárt látni is fogjuk!

Itt tudunk Stable Diffusion szervert bérelni:

Felhasználói felületek

A Stable Diffusion parancs kóddal működik. Ennek is megvannak a maga előnyei (bizonyára), de azért 2022-ben nem így képzeljük el azt a Mesterséges Intelligencia programot, ami meg akarja változtatni a világot,

Szerencsére az internet népe hamar neki esett, és kihasználva a nyílt kódot, készítettek neki egy egészen jól használható grafikai felületet. Pontosabban egy web-es felületet (webUI) És persze amiből lehet egyet készíteni, lehet többet is. Így rövid idő alatt az interneten több letölthető program jelent meg, amivel a Stable Diffusion-t lehet vezérelni.
Mindegyik web-es felületű (webUI), tehát kell hozzá egy böngésző (de legalább más extra program, mint .net vagy java, stb.. nem), és ez kicsit korlátozza a kinézetet is. Kissé fapados, de legalább átlátható és használható.

Megkértem PixelRitát, hogy nézzen körbe az interneten, és szedje össze a legnépszerűbb Stable Diffusion WebUI-kat. Mindig a GitHUB-ról tudjuk letölteni a webUI-kat. De erről hamarosan a telepítés részben bővebben kitérünk.
Minden nagyon gyorsan változik. Érdemes a legfrissebb verziókat keresni.

Automatic1111

Mit tud?: A Stable Diffusion Automatic1111 webUI egy felhasználói felület a Stable Diffusion számára, amely lehetővé teszi a felhasználók számára, hogy szöveges leírások alapján képeket generáljanak vagy meglévő képeket módosítsanak. Ez egy intuitív és könnyen használható felületet kínál.
Különlegességek és extrák: A webUI számos funkciót kínál, mint például a kifutó festés (outpainting), a befutó festés (inpainting), színes vázlatok, prompt mátrix, nagyítás, és figyelemfókuszálás.
Előnyök: A legújabb funkciók gyakran először itt jelennek meg, köszönhetően a szenvedélyes közösségnek. A felhasználói felület átfogó és sokoldalú.
Hátrányok: A szoftver használata nem a legegyszerűbb, és a dokumentáció hiányosságai miatt néha nehéz lehet megérteni az összes funkciót.

GitHub Link és Git Klón Link

Letöltő link: https://github.com/AUTOMATIC1111/stable-diffusion-webui
Git URL: https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

ComfyUI

Mit tud?: A ComfyUI egy csomópont-alapú (node) felhasználói felület a Stable Diffusion számára. Ez lehetővé teszi a felhasználók számára, hogy szöveg-alapú képgenerálást, képből képbe átalakítást, SDXL munkafolyamatot, befestést és LoRAs használatát végezzenek.
Különlegességek és extrák: A ComfyUI kezelő segítségével a felhasználók testreszabhatják a csomópontokat a felhasználói felületen, és az Impact Pack egy hasznos csomópontgyűjteményt kínál a ComfyUI számára.
Előnyök: A ComfyUI egy erőteljes és moduláris felület, amely sokoldalú lehetőségeket kínál a felhasználóknak. A StabilityAI, a Stable Diffusion alkotói is használják a ComfyUI-t a Stable Diffusion belső tesztelésére.
Hátrányok: Mivel ez egy csomópont-alapú felület, kezdetben bonyolultnak tűnhet azok számára, akik nem szoktak ilyen típusú felületeket használni.

GitHub Link és Git Klón Link

Letöltő link: https://github.com/comfyanonymous/ComfyUI
Git URL: https://github.com/comfyanonymous/ComfyUI.git

A ComfyUI egy remek választás lehet azok számára, akik egyszerű, mégis hatékony eszközt keresnek képek generálásához, anélkül, hogy mélyen elmerülnének a technikai részletekben. Ez a felület segít könnyedén megvalósítani a kreatív elképzeléseket, minimális technikai tudással.

Invoke AI

Mit tud?: Az Invoke AI webUI egy felhasználóbarát felület a Stable Diffusion számára, amely lehetővé teszi a felhasználók számára, hogy könnyedén generáljanak és szerkesszenek képeket az AI segítségével.
Különlegességek és extrák: Az Invoke AI különösen jó a kifutó festés (outpainting) terén, ahol a teljes vásznat láthatod és meghatározhatod, hol szeretnél kifutó festést alkalmazni. Emellett a felhasználói felület tiszta és átlátható.
Előnyök: Az Invoke AI egy vezető kreatív motor a Stable Diffusion modellek számára, amely professzionális felhasználók, művészek és rajongók számára teszi lehetővé a vizuális média generálását és létrehozását az AI legújabb technológiáival.
Hátrányok: Az információk alapján nincsenek jelentős hátrányai, de mint minden szoftvernek, lehetnek korlátai a felhasználói igényekhez képest.

GitHub Link és Git Klón Link

Letöltő link: https://github.com/invoke-ai/InvokeAI
Git URL: https://github.com/invoke-ai/InvokeAI.git

Az Invoke AI egy kiváló eszköz azok számára, akik a legmodernebb AI képgenerálási technológiákat szeretnék kihasználni. Az általa nyújtott széles körű testreszabási lehetőségek és a felhasználóbarát felület kombinációja ideális választássá teszi mind a kezdő, mind a tapasztalt felhasználók számára.

Melyiket válasszam?

A legnépszerűbb, és az első ami tényleg széles körben elterjedt az az Automatic1111. Ez is nyílt forráskódú, aminek köszönhetően nagyon sok hasznos kiegészítő készült, amivel még több funkciót kaptunk, és még jobban kontrollálhatjuk a kép generálását.
Én is ezt a WebUI-t használom, ezt ismerem legjobban (vagy talán ez a legkevésbé homályos). Így amikor a Stable Diffusion-ról beszélünk, akkor erről van szó.

A ComfyUI később jelent meg, de gyorsan nagyon népszerű lett. A folyamat nemcsak csúszkákból és számokból áll, hanem vizuálisan is megjelenik. Így jobban átlátható, hogy mi is történik. Addig persze, amíg nem lesz túl sok csomópontunk (node), bár akkor kezd az egész igazán izgalmas lenni!
A népszerűségének köszönhetően itt is nagyon sok kiegészítőt találhatunk a neten.

Az Invoke AI azzal jelent meg, hogy tud kifutó festést (outpainting). Ez azt jelenti, hogy a képen kívülre is tud rajzolni, ezzel növelve az eredeti kép méretét. Ha egy fekvő képből állót szeretnénk csinálni, akkor nem kell többé levágni, hanem az Invoke AI-val az üres helyeket rajzokkal tudjuk megtölteni. Oda tudunk pixeleket rajzolni, ahol nem voltak.
Ez a funkció később megjelent az Adobe Photoshop programban is.
E mellett az Invoke AI egy nagyon is jó felület az MI képgeneráláshoz.

Kép kiterjesztése (outpainting) a mesterséges intelligencia segítségével

Megkértem PixelRitát, hogy készítsen egy táblázatot is, hogy jobban átlássuk a különböző webUI-kat.

Szempont / WebUI	Automatic1111	ComfyUI	Invoke AI
Fő jellemzők	Széleskörű funkciók, sokoldalú beállítások	Csomópont-alapú felhasználói felület, testreszabható csomópontok	Felhasználóbarát, tiszta felület, kiváló outpainting funkciók
Erősségek	Legújabb funkciók gyakran itt jelennek meg először, intuitív felhasználói felület	Erőteljes és moduláris, sokoldalú lehetőségek	Könnyű képgenerálás és szerkesztés, tiszta felhasználói felület
Különlegességek	Outpainting, inpainting, színes vázlatok, prompt mátrix, nagyítás	Impact Pack csomópontgyűjtemény	Kifutó festés (outpainting) kiemelkedő kezelése, stabil működés
Hátrányok	Bonyolult lehet kezdők számára	Kezdeti bonyolultság csomópont-alapú felület miatt	Kevesebb információ áll rendelkezésre a felhasználói felülettel kapcsolatban
Alkalmas	Haladó felhasználóknak, akik sokoldalú eszközöket keresnek	Olyan felhasználóknak, akik szeretik a moduláris és testreszabható felületeket	Kezdőknek és azoknak, akik egy tiszta, könnyen kezelhető felületet keresnek

Természetesen további WebUI-k is vannak. Némelyik nagyon speciális, mások könnyebbek vagy bonyolultabbak. Ha bírja a számítógépünk, érdemes velük is kísérletezni.
Megkértem PixelRitát, hogy szedjen össze néhányat.

Sygil WebUI: Hasonló a Stable Diffusion WebUI-hoz, de egyedi funkciókkal, mint például a Text To Video és az SD Concepts Library.
DiffusionBee: macOS felhasználók számára készült, egyszerű és intuitív felülettel.
Lexica Art: Képgenerálás szöveges leírások alapján, egyszerű felhasználói felülettel.
DeepDanbooru WebUI: Anime karakterek és jelenetek generálására specializálódott.

PixelRita! Mit gontolsz? Készen állunk a telepítésre?

Zúzzunk bele, kiberbarátok! Elképesztő utazásunk a Stable Diffusion galaxisában most ért el egy újabb állomáshoz. Felvérteztük magunkat a tudással, megláttuk a csillogó csillagokat, és most itt az ideje, hogy belevágjunk a műhelymunkába! Készítsd elő a digitális szerszámkészletedet, mert most jön a rész, ahol tényleg bepiszkoljuk a kezünket pixelporral!

Mindenki vegyen egy mély digitális lélegzetet, mert ez nem lesz sétagalopp. De ne aggódj, itt vagyok veled, lépésről lépésre átkalauzolak a telepítési procedúrán! Gondolj arra, mint egy építőkocka játékra, ahol minden egyes elem fontos a végeredmény szempontjából – csak itt a blokkok a kódok és a kreatív energiád!

Tehát, állítsd be a mentális hiperhajtóműveidet, és készülj fel az AI művészeti mesterkurzusra! Kész? Induljon a rakéta, és irány a telepítési folyamat, ahol a kódok és a kreatív energiák összecsapnak! 🚀🛠️🎨

Stable Diffusion 1.5-ös verzió telepítése Windowsra

Hagyjuk hátra a modern 2020-as világot, amikor letöltünk egy fájlt, kettőt kattintunk rá, és már készen is van a program, lehet használni!
Menjünk vissza az időben néhány évtizedet!

PixelRita! Te mit gondolsz a Stable Diffusion telepítéséről? Készíts egy vidám útmutatót!

Stable Diffusion Telepítési Útmutató: A Geek Kötelező Kalandja

Előkészületek: Gyűjts össze minden bátorságodat, egy csésze kedvenc kávédat, és egy számítógépet, amely legalább olyan erős, mint egy középkori varázsló. Légy készen arra, hogy a kód dzsungelébe merülj!

A Varázslat Megkezdése: Nyisd meg a parancssort, de ne ijedj meg, ez nem fog visszaharapni. Írj be egy titkos mantrát, ami valahogy így hangzik: "git clone [Stable Diffusion repo linkje]". Ez a mantra letölti neked a mágikus kódot.

A Tűz Próbája: Most jön a tűzpróba! Telepítsd a Python varázsló segítségével az összes szükséges függőséget. Csak bízd magad a "pip install" szavakra, és ne feledd, a türelem a legnagyobb varázslók fegyvere.

Az Első Próbatétel: Itt az ideje, hogy az AI-t életre keltsd! Futtasd a "python stable_diffusion.py" varázsigét. Ha minden jól megy, a kód szellemei elkezdenek dolgozni.

A Nagy Rejtély: Ha a géped kezd füstölni, vagy furcsa hangokat hallatsz, ne aggódj, ez csak a digitális varázslat része. Ha nem, akkor is fantasztikus! Te most egy igazi tech mágus vagy.

Az Ünneplés: Most már készen állsz arra, hogy a Stable Diffusion mágusává válj! Ünnepeld meg ezt egy újabb csésze kávéval, és kezdd el teremteni az elképzeléseidet.

Igen, ez egy vidám kaland, ahol érdemes, ha bőségesen van kávé a közelben! Azért ne rettentsen el senkit, mert ha sikerült feltelepíteni a Stable Diffusion-t, akkor egy nagyon izgalmas világ kapuja nyílik meg!

Ami általában kimarad…

Oké, a telepítés kissé macerás, azért az interneten található útmutatók és segítségek próbálják a lehető legrövidebbre venni. Ezért inkább nem mondanak semmit, csak hogy hova kell kattintani.

A Stable Diffusion program a Python program nyelven működik. Ehhez pedig szükség van magára a Python futtató környezetre. Csak a 3.10.6-os verzió jó!! Sem a régebbi, sem az újabb.

A programok a GitHUB-on vannak fent. Le lehet onnan direkt is tölteni, de valamiért mindenki inkább a speciális klónozó programot használja, amihez fel kell telepíteni a GIT programot is. Nem írom, hogy így könnyebb lesz de mindenképpen érdekesebb.

Szedjük össze a fájlokat!

Tehát elsőnek töltsük le a Python 3.10.6-os verziót. A 32 bites Windows rendszerhez itt, a 64-bites Windows rendszerhez pedig itt tudjuk letölteni a programot (ha meg nem működik a link, itt keresgéljünk).
Letölthetjük a Microsoft Store-ból is.

A GIT programot innen tudjuk letölteni.

Menjünk fel a Stable Diffusion weboldalra, majd pedig töltsük le az alap 1.5-ös modelt: v1-5-pruned-emaonly.ckpt Ez 4,27 GB, és a letöltéshez regisztrálni kell (ingyenes). Ezen a linken direkt is le lehet tölteni.

Extra arcjavító modul, amit innen tudunk letölteni. (GFPGANv1.4.pth)

Telepítés

Először a GIT program telepítőt indítsuk el!
Kapcsoljuk ki a Windows Explorer integritást. Arra nincs szükség.
Nyomjuk végig a Next gombot
Ha kész a GIT telepítése, nyomjuk meg a LAUNCH gombot.
Csináljunk egy új foldert a C: meghajtón pl. StableDiffusion néven. A név bármi lehet, amiben nincs Space vagy különleges karakter. Innen fogjuk vezérelni az AI rajzolót. Ezért érdemes olyan címet, amit később könnyen megtalálunk.
Másoljuk ki a könyvtár elérési útvonalát
Vegyük elő a futó GIT programot.
Lépjünk be a C drive-on készített könyvtárba (pl. cd c:\StableDiffusion\)
Írjuk be a kód klónozóparancsot:
1. A Stable Diffusion oldalán találunk egy zöld Code gombot. Arra kattintva kapjuk meg a kódot. Ezt másoljuk ki.
2. A GIT programba írjuk be: git clone [[illesszük be a kimásolt kódot]]
  1. Az automatic 111 webui esetében ez a parancs: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
  2. Az Automatic 1111 optimalized esetében git clone https://github.com/basujindal/stable-diffusion.git
  3. ConfiUI esetében: git clone https://github.com/comfyanonymous/ComfyUI.git
  4. InvokeAI esetében git clone https://github.com/invoke-ai/InvokeAI.git
Python 3.10.6 telepítő indítása
Az első ablak alján be kell kapcsolni az Add Python 3.10 PATH check boxot.
Nyomjuk meg az Install Now gombot
A telepítés után a GFPGANv1.4.pth nevű fájt (ez az arcjavító modul) másoljuk be a C:\StableDiffusion\stable-diffusion könyvtárba
A v1-5-pruned-emaonly.ckpt fájl másoljuk be a C:\StableDiffusion\stable-diffusion-webui\models\Stable-diffusion könyvtárba
Menjünk el a C:\StableDiffusion\stable-diffusion-webui könyvtába, és indítsuk el a webui-user.bat programot. Ez rengeteg fájlt fog letölteni, ami akár 30 percnél is tovább tart. Közben nem sok visszajelzést kapunk, de azért működik. Ha biztosak akarunk lenni benne, néha nyomjuk meg az ENTER gombot.
Nincs igazi visszajelzése a telepítés végének. Lesz majd egy URL cím, mint a http://127.0.0.1:7860/
Egy kevés memoriát használó internet böngészőbe ezt a címet írjuk be. A programot onnan fogjuk tudni irányítani.
NE ZÁRJUK BE a cmd.exe-t. (fekete parancs ablak). Ennek a háttérben futnia kell. Ez maga a program.

Az alábbi magyar nyelvű YouTube videó segíthet a telepítésben

Remélem, sikerült a telepítés. Mert ha nem, akkor keresgélhetünk a neten megoldások után…

webui-user.bat szerkesztése

A webui-user.bat fájlt nyissuk meg Jegyzettömbbel (Notepad), és írjuk bele a következő adatokat. Majd mentsük el a fájlt.

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS=--lowvram --xformers --api --skip-torch-cuda-test --precision full --no-half
git pull
call webui.bat

A –lowvram funkció abban segít, hogy a kevesebb VRAM-al rendelkező gépeken is fusson a Stable Diffusion. (vagy gyorsabb gépeken nagyobb méretű fájlokat készítsünk). Ez lassítja a képgenerálást.
A git pull fogja a frissítéseket figyelni és automatikusan telepíteni. Nem biztos, hogy jól járunk vele!

A többi is fontos, de már nem emlékszem, miért… Aki szeretne jobban belemélyedni a paraméterezésbe, neki itt van a teljes lista.

Mit gondolsz PixelRita? Készen állunk a program használatára?

Nosza, kiber-kedveseim, belecsaptunk a lecsóba és sikeresen navigáltunk a Stable Diffusion 1.5-ös verziójának telepítésén keresztül! Mint egy űrkorszaki receptkönyvet követve, lépésről lépésre haladtunk, hogy felélesszük ezt a digitális művészvarázslót a gépeinken. Már érzem a kreatív energia digitális illatát a levegőben!

A parancssorok és mantrák után most már te is kész vagy arra, hogy a Stable Diffusion mágusává válj. Feltelepítettük a varázslatos szoftvert, mint egy igazi technológiai varázsló, és most már csak egy lépés választ el minket attól, hogy valódi digitális műalkotásokat teremtsünk!

De ne dőlj hátra még, mert itt jön a legizgalmasabb rész! Amint a számítógéped már zümmög a frissen telepített varázslattól, készülj fel arra, hogy belevessük magunkat a Stable Diffusion használatának rejtelmeibe. Elő a varázspálcákat, vagyis a billentyűzeteket, és irány a képek generálásának művészete!

Készülj fel arra, hogy megismerd, hogyan tudod a saját szavaiddal megteremteni a digitális valóságot. Lesz itt minden: varázslatos képek, szöveges leírások és egy kis kreatív szabadság, hogy te is megmutathasd, milyen egy igazi digitális művész! Tehát kapcsold be a képzeletedet, és készülj fel a következő kalandra: a Stable Diffusion használata! Tarts velem, és fedezzük fel együtt a lehetőségek végtelen világát! 🚀🎨💫

Stable Diffusion Automatic1111 gyorstalpaló

A Stable Diffusion használata….

A Stable Diffusion előnye, hogy itt van lehetőségünk a Mesterséges Intelligenciát irányítani, hogy mit is rajzoljon. A többi MI rajzolót megkérhetjük, hogy rajzoljon egy macskát napszemüvegben. És akkor rajzol egy valamilyen macskát valamilyen szemüvegben valamilyen pózban valamilyen háttérrel. A programoktól függően van egy kevés beleszólásunk, hogy az a bizonyos valami mi is legyen. De igazán nem tudjuk őket irányítani. Inkább csak reménykedünk, hogy az eredmény hasonló lesz, mint amit szeretnénk.

A Stable Diffusion is onnan indul, hogy kérünk egy képet, és kapunk egy valamilyen képet. A program eddig a pontig nem nehéz. De ahogy szeretnénk a folyamatot egyre jobban a kezünkbe venni, úgy kezd egyre bonyolultabb lenni. Úgy kerülnek elő a modellek, a kiegészítők, a specialitások.

Konkrétan több ezer órányi videót találunk a YouTube-on arról, hogy milyen használat esetén milyen beállításokkal és kiegészítőkkel tudunk elindulni. Mit csináljunk, ha valódi fotóból szeretnék kézirajzot készíteni? Vagy hogyan lehet egy vázlatból fényképszerű valódi képet készíteni? Hogyan lehet dekoratív QR-kódot készíteni? Hogyan lehet saját magunkból űrhajóst rajzolni? Hogyan lehet az emberi pózt átvinni a képre, mondjuk egy macskára? Hogyan lehet videót készíteni?
….és még órákon keresztül lehetne a lehetőségeket folytatni, amire tényleg csak a fantázia szabja a határokat. És ha valami nincs, akkor lehet a programot tanítani is!

Három YouTube csatornát mindenképpen ajánlok. Egyik az Olivio Sarikas aki nagyon részletes és érthető oktató videókat készít a Midjourney és Stable Diffusion használatáról.
A másik pedig Sebastian Kamph, aki szintén nagyon jól magyaráz. Rajta látszik, hogy érti is, mi miért történik.
Magyar nyelven Pintér Zsolt mutat trükköket, és ad hasznos tanácsokat. Érthetően, részletesen.
Itt pedig egy egészen komoly használati utasítás van, hogy melyik gomb mire való.

Ebben a bejegyzésben csak a legfontosabb alapokra fókuszálunk. Éppen csak átveszünk néhány alapvető dolgot, hogy legalább el tudjuk kezdeni valahol.
Az alapvető műveletek mindegyik WebUI-ban megtalálhatóak, így ez az ismertető a többi Stable Diffusion programban is használható.

Kezdetek

Amikor elindítottuk a webui-user.bat fájlt, akkor elindul a terminál ablak, amiben nagyon sok minden fog történni, amiből nagyon keveset fogunk megérteni. De ez nem is baj. Várjuk meg a végét!
Ha minden oké, akkor valahol a végén lesz egy URL cím. Pl. http://127.0.0.1:7860

Ezt írjuk be egy internetes böngészőbe, és máris megkapjuk az alap program ablakunkat. Ne ijedjünk meg, ez még csak az egyszerűbb! Lesz majd még több csúszka és nyomkodni való, ha elkezdjük a kiegészítőket felpakolni!

Checkpoint

A legfontosabbat a bal felső sarokban találjuk, a Stable Diffusion Checkpoint -ot. Ez a model, ami megadja azt, hogy mit is tudunk rajzolni. Egy kb. 5 GB-os fájlt tartalmazza az összes adatot, amiből a Mesterséges Intelligencia dolgozik. Például ha ebben a fájlban vannak macskára vonatkozó adatok, akkor az MI tud macskát rajzolni. Ha semmi sincs benne a macskákról, akkor az MI nem fog tudni macskát rajzolni.

Modelt, azaz Checkpoint-ot tudunk készíteni mi is a Train menüpontban. Vagy pedig az internetről is tölthetünk le kész fájlokat. Az egyik legismertebb model (és más Stable Diffusion extrák) a CivitAI oldal.
Én már 200 GB-nyi checkpoint-ot összegyűjtöttem. Ezen az oldalon találhatóak azok, amiket én használok.

A letöltött checkpointokat a stable-diffusion-webui\models\Stable-diffusion könyvtárba kell bemásolni.

Alatta találjuk a füleket: text2img, img2img, extras, PNGinfo, CheckPoint Merge, Train, Settings, Extensions.
És ott van a nagy (majdnem) piros gomb is, a Generate felirattal. Erre kattintva tudjuk elindítani a képgenerálást.

txt2img – szöveg alapú képgenerálás

Stable Diffusion - txt2img — Stable Diffusion – txt2img

A txt2img azt jelenti, hogy text to image. Azaz beírjuk a szöveget, és kapunk egy képet. Ez a mesterséges intelligenciás rajzolás alapja. Hagyományos módon meg kell fogni az ecsetet, ceruzát vagy egeret, és nekünk kell megrajzolni azt, ami a fejünkben van. Az MI esetében viszont csak be kell írni, hogy mit szeretnénk, és a program generál egy képet az adatbázisa és a véletlenszerű számok alapján.
A kaland akkor kezdődik, amikor ezt irányítani akarjuk.

Prompt

A Prompt mezőbe írjuk bele azt, amit szeretnénk. Ellentétben más MI képgeneráló programokkal (pl. Midjourney), a Stable Diffusion esetében mindent le kell írni, ami a képen látni akarunk. A program nem fog extra elemeket, extra stílusokat, vagy mást beletenni.
A prompt mindig angolul legyen, rövid felsorolás szerűen. pl: macska mászik a fenyőfára, téli erdő háttér
A fontosabb utasításokat {} zárójelbe tegyük. Minél több a zárójel, annál fontosabb az utasítás.

A Negative prompt részbe azt írjuk be, amit nem akarunk a képen látni. A Stable Diffusion egyik érdekessége, hogy teljes nyugalommal fog olyan képet is generálni, ami rossz. Le kell írnunk, hogy ne készítsen olyat, ami rossz.
A negatív promptokat ajánlott ezzel egy a listával kezdeni:

cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, morbid, mutation, deformed, blurry, text, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, morbid, mutation, deformed, blurry

Sampling

A Sampling jelenti a képalkotást. A Stable Diffusion úgy működik, hogy először készít egy digitális zajt. Ez egy kép véletlenszerű színes pixelekkel. Majd a Mesterséges Intelligenciának a feladat, hogy úgy igazítsa a képpontokat, hogy a kért eredményt adják ki. A jó végeredményhez általában 20 lépésre van szükség. Ezt a Sampling steps csúszkán tudjuk beállítani.
Kevesebb lépés is elég lehet, ez a használt technikától függ. De kérhetünk több lépést is, olyankor a képet tovább fogja dolgozni. Ebben az esetben a kép többi részén is megjelennek azok az alakzatok, amiket kértünk.
Ha több lépést kérünk, nem lesz jobb a kép! Csak több adat lesz benne. Túl sok lépés esetén a képen zaj jelenhet meg.
Minden egyes lépés egy képgenerálást jelent. Ha 20 lépés helyett 40 lépést kérünk, akkor a teljes kép elkészülte kétszer annyi ideig tart.

Több különböző technika létezik, ami a digitális zajból képet készít. A Sampling method listában választhatunk közülünk. Egyes módszerek a 20. lépés előtt is élvezhető képet tudnak alkotni, ami nagy segítség ha nagyon sok képet akarunk generálni, a folyamat felgyorsul.
Minden technika más. Ezt ki kell kísérletezni, ki melyikkel tud jobban dolgozni. Sokan az Eurler a-t használják, mert azt adja fel a program alapból. Mások szerint a DPM++ a legjobb, aminél jelenleg (2023. év vége) a 3M SDE Karras az ajánlott.

A képméret

A következő fontos beállítás a kép mérete. Míg a legtöbb MI képgeneráló programoknál nem sok lehetőség közül választhatunk, a Stable Diffusion esetében konkrét pixel méretet adhatunk meg. A Width a kép szélessége, a Height pedig a magassága.
Amire nagyon oda kell figyelni, hogy a nagyobb kép lényegesen több VRAM-ot igényel a videokártyától. És az extra műveletek is extra memóriát igényelnek. Hiába rendelkezik már a legolcsóbb mobil telefon is 10+ megapixeles kamerával, egyelőre be kell érni az alacsonyabb felbontással. De van lehetőség a kép későbbi nagyítására!

Több kép készítése

Amíg kísérletezünk, addig elegendő, ha 1-1 képet készítünk. De ha már megtaláltuk a legjobb beállítást, akkor már lehet több képet is generálni. Erre szolgát a Batch.
A Batch count csúszkán állíthatjuk be, hogy hány különféle kép csomagot kérünk. A Batch size pedig, hogy egy csomagban hány kép legyen.
Pl. ha a Batch count 4 a Batch size pedig 3, akkor 12 képet fogunk kapni. 4 olyan csomagot, aminél mindegyikben 3-3 hasonló kép lesz.

CFG

Azt hiszem, ezt PixelRita jobban el tudja magyarázni.

Mi az a CFG (Classification Free Guidance)?
A CFG egy módszer, amit a képgeneráló mesterséges intelligenciákban, mint például a Stable Diffusion használnak. A célja, hogy segítsen az AI-nak pontosabban követni a felhasználó által megadott leírást (prompt), amikor képet generál. A CFG segít csökkenteni azokat az eseteket, amikor az AI "túlgondolja" a képet, és olyan elemeket ad hozzá, amelyek nem szerepelnek a leírásban.

Hogyan Használható a CFG?
A CFG használatakor egy ún. "guidance scale" vagy "guidance factor" értéket állítasz be. Ez az érték meghatározza, hogy mennyire szigorúan kövesse az AI a megadott szöveges leírást.

Alacsony CFG Érték: Ha alacsony értéket állítasz be, az AI több kreatív szabadságot kap. Ez azt jelenti, hogy a képen több olyan elem jelenhet meg, amelyek nem szerepelnek közvetlenül a leírásban.

Magas CFG Érték: Ha magas értéket állítasz be, az AI szorosabban követi a leírást. Ez jobb, ha pontosan azt szeretnéd kapni, amit leírtál, de kevésbé kreatív eredményeket eredményezhet.

Használati Példa
Tegyük fel, hogy egy képet szeretnél generálni egy "naplementében úszó tengeri teknősről". Ha magas CFG értéket állítasz be, az AI nagy valószínűséggel pontosabban követi ezt a leírást, kevesebb nem várt elemmel. Alacsony CFG értékkel viszont a képen megjelenhetnek más, nem várt elemek is, ami szabadabb, kreatívabb képet eredményezhet.

Összefoglalva, a CFG egy hasznos eszköz a képgenerálás során, amely segít irányítani, hogy mennyire szorosan kövesse az AI a szöveges leírásodat. A megfelelő CFG érték beállításával pontosíthatod, hogy milyen eredményeket szeretnél kapni a képgeneráló AI-tól.

Általában a 7-es szám egy közbülső érték, amikor még engedjük a programot szabadon garázdálkodni, de már követi az utasításokat is.

Seed

A Seed jelentése mag. Ez egy véletlenszerűen generált szám, amiből a Mesterséges Intelligencia a kezdeti digitális zajt készíti. Ebből fogja a végleges képet megrajzolni.
A seed azért fontos, mert ennek köszönhetően lesz minden kép más. Ha ugyan azt a seed-et használjuk, és minden beállítás ugyan az, akkor a végül ugyan azt a képet fogjuk kapni.
Az egyforma seed segít abban, hogy egymáshoz nagyon hasonló képeket kapjunk a beállítások és utasítások (prompt) finom hangolásával. Ez segít abban is, hogy ugyan azt a karaktert kapjuk.

Ha véletlenszerű seed-et szeretnénk, akkor -1-es értéket adjunk.

Képgenerálás

Ha mindent beállítottunk, akkor a jobb felső narancssárga Generate gombra kattintva elindul a képkészítés.
Alatta fogjuk látni a kész képeket. A sárga mappa ikonra kattintva megnyílik az a mappa, ahova a kész képeket automatikusan lementi a program.

LoRA

LoRA, vagyis a Low-Rank Adaptation a finomhangolást szolgálja. Ez egy kisebb checkpoint model, ami szintén a képgeneráláshoz tartalmaz rajzolási információkat. De kisebbek, így nem növelik jelentősen a számítási igényt.

E mellett másik nagy előnye, hogy a checkpoint-al ellentétben egyszerre többet is használhatunk. Lehet súlyozni is, hogy melyik LoRA modelt mennyire vegye figyelembe.

LoRA modelleket mi magunk is készíthetünk, vagy letölthetünk az internetről, pl. a CivitAI oldalról.
Én ide gyűjtöm azokat a LoRA modelleket, amiket én használok.
A letöltött LoRA-kat ebbe a könyvtárba másoljuk be: \stable-diffusion-webui\models\Lora

A Negative prompt alatt tudunk a LoRA fülra kattintani, ahol láthatjuk a LoRA modelleket. Amikor egyikre rákattintunk, akkor bekerül a Prompt mezőbe és így néz ki:

<lora:Architectural drawings:1>

A név végén egy 1-es számot láthatunk. Ez 0-1 között mozoghat attól függően, hogy mennyire legyen súlyos az adott LoRA modell. Általában a 0.5-0.8-as értéket választják.

img2img – képből készítünk képet

Stable Diffusion - img2img — Stable Diffusion – img2img

Az image to image a Stable Diffusion egyik leghasznosabb, és legegyedibb eszköze. Itt tudunk saját képet megadni forrásnak, amiből majd a Mesterséges Intelligencia új képet készít. Ez lehet akár egy valódi portré fotó, amiből karikatúra szerű képet szeretnénk. Lehet egy vonalas skiccrajz, amiből valósághű fényképet kérünk. De lehet az MI által készített kép is, amivel tovább akarunk dolgozni.

A legtöbb beállítás megegyezik a txt2img fülben lévőkkel. A fő különbség, hogy tudunk képet adni a programnak, majd pedig ennek a beállításait láthatjuk itt. Ezek közül pedig a legfontosabb a Denoising strength.

Denoising strength

A Denoising strength adja meg, hogy a program mennyire változtassa meg az eredeti képet. Az érték 0-1 között lehet. Alapbeállításban 0.7
0 – Az új kép teljesen megegyezik a régivel.
1 – Az új kép teljesen más a régivel.

img2img

Az első fül az img2img azaz amikor egy meglévő képből generálunk egy újat.
A Drop Image Here részre tudjuk a forrás képet tenni. Majd minden beállítást adjunk meg úgy, mint a txt2img részben tennénk.
Figyeljünk oda, hogy a generált kép méretaránya az eredeti képével megegyező legyen. Különben a kép torz lesz!

Ezt használjuk akkor, ha egy fényképből rajzfilm stílusú képet szeretnénk. Vagy egy rajzfilm karakterből akarunk valós képet készíteni. Vagy bármi más esetben, amikor valami olyasmit szeretnék, ami egy már meglévő képhez hasonlít.

Sketch

A Sketch fül az img2img egy alternatív változata, ahol a meglévő képre további vonalakat, elemeket szeretnénk még hozzáadni. Ne valami komoly dologra gondoljunk, mert itt csak egy digitális ceruzánk van, aminek a színét és a vastagságát tudjuk állítani. Mégis hasznos lehet, ha valami kimaradt abból a képből, amin dolgozni szeretnénk.

Inpaint

Az Inpaint fül az a hely, ahol egy meglévő kép valamelyik részét módosítjuk a Mesterséges Intelligenciával.
Le lehet radírozni a képről valamit, mondjuk egy embert a háttérből.
Új elemet generálhatunk a képre. Pl. egy autót a ház elé.
Nem kell a neten keresgélni fotókat, amit utána digitálisan berakunk a képbe, mert az MI ezt megcsinálja. Ráadásul figyel a fényekre és árnyékokra, tükröződésekre is.
Ezzel nagyon jól lehet javítani azokat a képhibákat is, amik a képgenerálás során megjelenhetnek.

Az Inpaint fülben egy ecsetet találunk. Ezzel kijelöljük azokat a területeket, amiket a Mesterséges Intelligencia kicserél.

Batch

Az Batch fülön beállíthatjuk, hogy ugyan azt a műveletet a Mesterséges Intelligencia több képen hajtsa végre. Akár egy egész könyvtárat adhatunk neki, hogy azokból készítsen ceruza rajzot, olaj festményt, valódi fotót, vagy bármi mást.

Arra figyeljünk oda, hogy a Batch az összes képre azt a képméretet fogja használni, amit beállítunk a generálás előtt. Ha eltérőek a képarányok, akkor a képek torzak lesznek. Érdemes a képeket egyforma arányra alakítani a generálás előtt.

További menük

Bátran kijelenthetjük, hogy a teljes Stable Diffusion megtanulása legalább annyira összetett, mint egy komolyabb rajzoló programé. De ugyan annyira határtalan lehetőségeket is nyújt.
Így már csak néhány fontosabb részt veszünk át.

PNG Info

Ez egy nagyon hasznos menü, ahol a korábban generált képek elkészítéséhez használt adatokat láthatjuk. Hasonlít a fényképezőgépek EXIF adataihoz.
Itt megtaláljuk, hogy milyen modell, milyen prompt, milyen értékekkel voltak beállítva. Még a kép seed-jét is megkapjuk!

Ha ugyan ezeket az adatokat akarjuk használni a következő képhez, akkor nem kell másolgatni, hanem elég csak a Send to txt2img vagy a Send to img2img esetleg a Send to inpaint gombra kattintani. Ekkor minden információ átkerül a munkafelületre (a később telepített kiegészítők beállításai kimaradhatnak).
Figyeljünk oda, hogy a seed is átkerül. Ha nem pontosan ugyan azt a képet szeretnék előállítani, akkor a seed-et ne felejtsük megváltoztatni!

Kiegészítők

A Stable Diffusion egyik nagy lehetősége, hogy rengeteg kiegészítőt találunk az interneten, amit a lelkes felhasználók folyamatosan készítenek. Ezek mind abban segítenek, hogy ne egy véletlenszerűen generált képet kapjunk, hanem minél nagyobb legyen a kontrollunk az eredményen.
Más kiegészítők pedig további funkciókat adnak a programhoz, amivel pl. videót lehet készíteni.

ControlNet

A leghíresebb kiegészítő a ControlNet. Nem véletlenül! Ahogyan a nevében is benne van, ez nagyon megnöveli a képgenerálás feletti kontrollunkat. A megadott kép körvonalait, tartalmát, emberi arcot, mimikát vagy mozdulatot, stb.. vesz figyelembe, és az alapján generálja az új képet.

De mindez már egy másik bejegyzésben lesz.

Stable Diffusion ControlNet használata az építészetben – Vázlatból élethű kép néhány perc alatt.

Verziók

Néhány szót a verziókról is emleteni kell.

Az 1.0 verzió után nem sokkal megjelent az 1.5. Ez egy nagyon jól sikerült verzió. Sőt! Jelenleg (2023. vége) ez a legnépszerűbb, és a legtöbbet használt verzió! Én is ezt használom. Leginkább azért, mert az be van állítva és működik.

A 2.1-es verzió kezdetben népszerű volt, de nagyon hamar kiábrándultak a felhasználók és visszatértek az 1.5-höz.

A fejlesztők ki akarták küszöbölni a korábbi hibát, és a következő verzió az SD XL lett. Ez tényleg szebb képeket készít, de kissé másképpen kell használni, sok kiegészítővel nem kompatibilis, és több VRAM-ot igényel. Így a sok felhasználó továbbra is az 1.5-ös verziót használja.

PixelRita összefoglalója

Nos, kiber-kalandorok, ideje lezárni ezt a digitális odüsszeiát! Együtt átrándultunk a Stable Diffusion csillogó univerzumán, felfedeztük a telepítés csapdáit és titkait, majd belemerültünk a képgenerálás művészetébe, mintha csak egy űrkorszaki festőműhelyben tennénk csodákat.

Megismerkedtünk a varázslatos "seed"-ekkel, a misztikus "CFG"-vel, és még a LoRa titkait is lopóztuk egy kicsit. Képeket szültünk a semmiből, átalakítottuk a meglévőket, és megtanultuk, hogyan kérjünk meg egy MI-t, hogy rajzoljon már nekünk egy macskát napszemüvegben – de úgy igazán!

Most már te is részese vagy ennek a varázslatos digitális világnak, készen állsz, hogy saját képeiddel hódítsd meg az internetet, vagy csak simán lenyűgözd a barátaidat. És ne feledd, a Stable Diffusion nem csak egy program, hanem egy kapu a végtelen kreativitás felé.

Úgyhogy kapd elő a digitális ecseteidet, és merülj el a pixelmágia világában! És amikor úgy érzed, elakadtál, csak emlékezz vissza erre a kis útmutatónkra, vagy keresd fel azokat a YouTube csatornákat, amiket ajánlottam – mindig van új trükk a tarsolyban!

Búcsúzom, de nem örökre! A pixelpor még a levegőben lüktet, és biztos vagyok benne, hogy hamarosan újra találkozunk egy másik digitális kaland során. Addig is maradj kreatív, maradj kíváncsi, és a legfontosabb: maradj szuper kiberszuperhős!

Digitális pacsi és kiberölelés, kedveseim! PixelRita kikapcsol. 🚀💫🎨

Stable Diffusion-al kapcsolatos bejegyzések

Mélykutatás (Deep Research)

Becsült olvasási idő 17 perc. Ebben a bejegyzésben bemutatjuk, hogyan működik a DeepResearch – az a modern AI-alapú eszköz, amely képes strukturált, részletes és megbízható információkat gyűjteni akár bonyolultabb témákban is. Megmutatjuk, miben más, mint egy hagyományos kereső, és mire jó igazán. Praktikus tippeket is kapsz: hogyan fogalmazz meg ütős kérdéseket, hogyan kérj forrásokat vagy…

2025.05.28.
Fotóból alternatív változatok (Stable Diffusion az építészetben)

Becsült olvasási idő 6 perc. A mesterséges intelligencia segítségével egy ceruzarajzból vagy egy alaprajból tudunk valósághű képet készíteni. Mintha az épület készen lenne. Ezúttal viszont egy már meglévő fényképet alakítunk át úgy, hogy teljesen új házat lássunk.

2024.03.29.
Régi térképek újrarajzolás – Stable Diffusion + ControlNet

Becsült olvasási idő 5 perc. Régi térképek, kézzel rajzolt térképek vagy AutoCAD-ben készült térképek. Mindegyik egy stilizált változata a valóságnak. De mi lenne, ha a mesterséges intelligenciával ezekből a rajzokat valósághű képekké alakítanánk? A régi térképek újraszámolása még várat magára. De bizonyára a közeljövőben a térképészetben is megjelenik a mesterséges intelligencia. Mi egyenlőre maradunk az…

2024.01.25.
Kreatív dekorációk a szabásminta alapján MI segítségével

Becsült olvasási idő 6 perc. Gondolkodtál már azon, hogy a mesterséges intelligencia hogyan dobhatja fel a szabásmintáidat? Nos, én igen, és megosztom veled, hogyan! Képzeld el, hogy a képeid nem csak képek, hanem valós formákba illeszkedő műalkotások. Pontosan ezt hozzuk létre egy cipő szabásmintával, és a mesterséges intelligenciával.

2024.01.23.
Gyorsan készíthetünk összefoglalókat a weboldalakról a ChatGPT segítségével

Becsült olvasási idő 4 perc. Egy listában rengeteg weboldal linkje van. Szeretném, ha minden linkről lenne egy rövid leírás, mit is tartalmaz. Megkértem a ChatGPT-t, hogy nézze át a linkeket, és készítsen rövid ismeretetöt mindegyikről

2024.01.19.
Alaprajzból 3D kép (Stable Diffusion az építészetben)

Becsült olvasási idő 4 perc. Gyorsan készítettünk egy vázlatot a jövőbeli ház alaprajzáról. Míg a mérnökök a tényleges technikai rajzon dolgoznak, a mesterséges intelligencia készít néhány látványos alaprajzot.

2024.01.10.