Midjourney, a képgeneráló MI
A Midjourney talán a leghíresebb Mesterséges Intelligencia, amivel képeket lehet generálni.
PixelRita, írj egy rövid összefoglalót a Midjourney -ről!
A Midjourney egy generatív mesterséges intelligencia program és szolgáltatás, amelyet a San Franciscó-i Midjourney, Inc., egy független kutatólaboratórium hozott létre és működtet. Ez a program természetes nyelvű leírásokból, ún. "prompts"-okból képeket generál, hasonlóan az OpenAI DALL-E és a Stability AI Stable Diffusion programjaihoz. A Midjourney 2022. július 12-én lépett nyílt bétába, és jelenleg is ebben az állapotban van.
A Midjourney, Inc.-t David Holz alapította, aki korábban a Leap Motion társalapítója volt. A Midjourney képgeneráló platformja először 2022 márciusában indult, egy Discord szerveren keresztül, ahol a felhasználóknak magas minőségű fényképeket kellett posztolniuk a Twitterre vagy Redditre a rendszer betanításához.
A cég rendszeresen javítja algoritmusait, új modellverziókat ad ki néhány hónaponta. A 2-es verzió 2022 áprilisában, a 3-as verzió 2022 júliusában jelent meg, az 5-ös verzió 2023 márciusában, majd a 5.1-es és 5.2-es verziók is követték, amelyek egyre jobb képminőséget biztosítottak.
Az új verzió mellett folyamatosan jelennek meg a hasznos funkciók is.
A Midjourney 2022. július 12-én lépet a publikus béta fázisba, vagyis akkor jelent meg a nagyközönség előtt. Ez volt az első Mesterséges Intelligencia, amivel bárki képeket készíthetett. Ezzel pedig örökre megváltozott a képalkotás.
Korábban elő kellett venni az analóg vagy digitális ecsetet. És ha egy macskát szerettünk volna a képen látni, akkor elkezdtük megfesteni: fej, test, lábak, farok, fülek, szemek, stb… Ki milyen képességekkel rendelkezett, attól függött az eredmény.
E helyett jött a Mesterséges Intelligencia, ahol csak annyit kell beírni, hogy rajzoljon egy macskát, és 1 perc múlva meg is kaptuk a képet.
Az érzés hasonló lehetett a fényképezőgép feltaláláskor. A képkészítéshez teljesen más technikai és tudás szükséges, mint a korábbi technikához. Ezért úgy tűnhet, hogy bárki készíthet képeket rövid idő alatt mindenféle tanulás nélkül. De ez a Mesterséges Intelligenciánál is csak félig igaz, ahogyan a fényképezésénél is. Ezt is ugyan úgy meg kell tanulni használni, és egy jó kép elkészítése tudást és időt igényel.
Aktív processzor idő
A képgeneráláshoz speciális, nagy teljesítményű processzorok szükségesek. A Midjourney esetében mi ennek a processzornak a használatáért fizetünk. Általában 1 kép elkészítése 1 percet vesz igénybe. A legkisebb előfizetési csomagban 200 perc aktív processzoridő van (2023-as adat), amivel körülbelül 200 képet lehet generálni.
A képgenerálás ideje, azaz a processzor használata, verziónként eltér, és a Midjourney azon dolgozik, hogy ez egyre kevesebb legyen. Ezen kívül vannak más, processzort igénylő műveletek is, mint például a nagyítás, átméretezés, változtatás, újragenerálás, stb., amik szintén processzoridőt igényelnek.
Tehát minden egyes további művelettel csökken a kvótánk. De nem minden művelethez szükséges 1 perc. Vannak olyanok, amelyek több, de legtöbbször inkább kevesebb időt vesznek igénybe. Azt, hogy mennyi processzoridőnk maradt, a /info paranccsal tudjuk lekérdezni. De erre még visszatérünk.
Nem szükséges mindig az aktív processzoridőt használni. A közepes (standard) előfizetéstől felfelé (2023-as adat) bekapcsolható a passzív processzoridő, amit a Midjourney relax módnak nevez.
Ebben az esetben a kép generálása csak akkor történik, amikor van szabad processzor, amit éppen senki sem használ. Így csúcsidőben akár több percet is várni kell egy képre. De a Midjourney előfizetés csak az aktív processzorhasználatot számolja. Tehát ha relax módban vagyunk, akkor korlátlan mennyiségben generálhatunk vagy módosíthatunk képeket.
Nem minden funkció érhető el relax módban. Bizonyos műveletek és szolgáltatások (általában az újonnan megjelentek) csak aktív, azaz fast módban érhetőek el. Azok használata levonódik az aktív processzoridő-keretünkből.
A Midjourney használata
A Midjourney használatához a Discord csevegő program szükséges. Előtte a Midjourney oldalon regisztrálnunk kell. A Discord program használható webböngészőben is, de jobban járunk, ha letöltjük asztali gépre vagy mobil telefonra.
A regisztrálás után a https://discord.gg/midjourney linken érjük el a Midjourney csatornáját. Itt valamelyik newbies szobában tudjuk elkezdeni a kép generálását. Ehhez írjuk be, hogy /imagine prompt majd pedig angolul írjuk le, mit szeretnénk a képen látni. Az eredményt majd ebben a szobában fogjuk látni, de személyes értesítőt is fogunk kapni róla.
A Midjourney bot meghívása saját szerverre
A Midjourney elképzelhetetlenül sok képet készít minden másodpercben. És ha majd belejövünk, akkor mi is havonta több ezer képet gyártunk. Pillanatok alatt el fogunk veszni a pixelek bőségében. Ajánlatos ezért már a leges legelején egy saját Discord szervert létrehozni, és ott dolgozni. Továbbá érdemes külön csoportokat és szobákat készíteni a különböző projekteknek.
Mindössze annyit kell tenni, hogy nyitunk egy saját szervert a Discordon, majd a Midjourney szerveren kattintsunk a Midjourney bot-ra a jobb oldalon. A feljövő ablakban találunk egy Alkalmazás hozzáadása gombot, amivel a saját szerverünkre tudjuk behívni a botot. Onnantól fogva a saját részünkön is működni fognak a Midjourney parancsok, és a kész képek oda érkeznek meg.
Hogyan készítsünk képet a Midjourney programmal?
Ha beléptünk a Discord programban a Midjourney vagy a saját szerverünkre, akkor a /imagine prompt paranccsal generálhatjuk a képet. A parancsnak angol nyelven kell lennie. Ha ez nehezen megy, használjunk egy fordító programot, mint pl. a Google Fordító.
Mindig azt írjuk le, amit a képen szeretnénk látni. A Midjourney-t úgy képzeljük el, mintha egy ötéves gyereket kérnénk meg, hogy rajzoljon valamit. Egyszerű, direkt utasításokat adjunk, mint pl. macska fekete kalappal. A túl sok utasítás csak összezavarja a programot.
Elsőnek a témát adjuk meg, hogy mit is akarunk készíteni: plakát, festmény, ceruzarajz, ételfotó, portré, stb..
Másodikban azt írjuk le, hogy mi legyen a képen, vesszővel elválasztva. Amit előre írunk, azok lesznek a fontosabbak.
Utána írjuk a stílusokat, hangulatot, színeket és a további technikai jellemzőket mint pl. milyen fényképezőgéppel készült a kép, milyen festészet, milyen ceruza, stb…
Végén pedig a speciális parancsok jönnek. Egy parancs kb. így néz ki:
/imagne prompt portrait of a cat is on the beach in sunglasses and playing on laptop, photorealistic, photography, real life photo --ar 3:2
Egy kis idő múlva 4 előnézeti képet kapunk. Az U1-U4 gombokra kattintva megkapjuk a teljes képet. A V1-V4 gombokkal pedig további variációkat kérhetünk az adott képről.
A Midjourney használatának dokumentációja itt található. Érdemes sok-sok youtube videót nézni, hogy mely parancsok milyen eredményt hoznak. És persze kísérletezni.
Én ide gyűjtöm a legtöbbet használt utasításokat (prompt).
Legfontosabb parancsok
/imagine prompt: Vele lehet képet generálni
/relax: átkapcsolás a lassú módra, amikor nem használjuk a processzor időt
/fast: átkapcsolás gyors módra a processzor idő használatához és speciális funkciókhoz
/info: megtudjuk, hogy mennyi processzor időnk maradt.
/settings: előhívhatjuk a beállítási menüt
/describe: egy feltöltött képről megmondja, hogy az MI-miként látja. Majd a kapott utasításokkal (prompt) hasonló képet generálhatunk.
/blend: 2-5 feltöltött képet lehet összekombinálni az MI-vel.
/show: az ID alapján előveszi a korábbi képet, így tovább tudunk dolgozni vele. Az ID a Midjourney weboldalán és a fájl név végén is megtalálható. pl. fcb5678e-298d-4403-8ee6-14e96d43e79d
További parancsok a Midjourney dokumentációban
Legfontosabb paraméterek
Az utasítások (prompt) után lehet írni paramétereket, amivel a képek technikai tulajdonságait adhatjuk meg.
–ar : mi legyen a képarány. Pl. –ar 3:2 . Ez 3:2 arányú fekvő téglalap lesz.
–-no : ami semmiképpen ne legyen rajta a képen
–seed : mag. Ez a kiindulási szám, amire az egész képgenerálás épül. 0–4294967295 mozoghat. Ha ugyan azt a parancsot és ugyan azt a seed-et adjuk, pontosan ugyan azt a képet kapjuk. A fix seed-el lehet nagyon hasonló képet adni. Ha nem adunk seed-et, akkor véletlenszerűen generál egyet a program. Ne használjuk az 1, 123456. 123456789 és hasonló seed-et, mert mindenki azt használja.
További paraméterek a Midjourney dokumentációban
Kész kép módosítása
Az elkészült képet verziótól függően lehet tovább módosítani a képek alatti gombokkal.
- Nagyítás. A kész képet újraszámolja a program egy nagyobb méretben
- Variációk készítése. Új képet generál a kész alapján.
- Remix. Új képet készít a kész alapján, de megváltoztathatjuk a parancsot, így valami teljesen mást kaphatunk. Lehet a képnek csak egy részét módosítani, pl. új elemet berakni, vagy valamit kivenni a képből, megváltoztatni. Ehhez a funkcióhoz a /settings-ben a Remix-et be kell kapcsolni.
- Bővítés. A képet felfele, lefele, jobbra, vagy balra tudjuk bővíteni. Az új területnek új utasításokat adhatunk. Így pl. panoráma képet készíthetünk.
Saját kép használata
Kép használata forrásnak
Lehet saját képet is használni kiindulási mintának. Így pl. egy portré képből lehet rajzfilmszerű képet készíteni.
A /imagine prompt után adjuk meg a kép webcímét (ha Discrodba töltöttük fel a képet, akkor jobb klikk, hivatkozás másolása).
/imagne prompt http://kep.com/huhu.jpg cartoon style --iw 1
A –iw paraméterrel adhatjuk meg, hogy mennyire legyen erős a feltöltött kép. Az –ie 0.5 esetében inkább az utasításokat veszi figyelembe, –iw 2 esetében pedig a feltöltött kép lesz az erősebb.
Akár több képet is feltölthetünk.
Képelemzés
A /describe parancsot használva egy képet tölthetünk fel. A Midjourney kielemzi, majd ad 4 utasítás csomagot, amik használatával egy hasonló képeket lehet készíteni. készíteni.
Ritkán lehet azonban tényleg olyan képet kapni, amit megadtunk. Viszont rengeteget segít, hogyan lehet egyes dolgokat leírni, és még sok ötletet is ad.
Képmixelés
A /blend paranccsal 2-5 képet mixelhetünk össze. A Midjourney elemzi a feltöltött képek tartalmát, átfordítja a saját nyelvére, majd az utasításokat összekeverni készít új képet.
Sajnos sok kontrollunk nincs felette.
Saját kép stílusának másolása
A „Style References” vagy stílusreferenciák egy új funkció, amely lehetővé teszi, hogy konzisztens stílust adjunk meg az általunk generált képekhez. Ez hasonlóan működik, mint amikor kép alapú utasításokat adunk, de itt URL-eken keresztül mutatunk be egy vagy több képet, amelyek meghatározzák azt a stílust, amelyet szeretnénk végig használni a generálás során.
Így használhatjuk a „Style References” funkciót:
- A kérdéses szöveges utasítás után írjuk be a –sref kapcsolót, majd addjuk meg az egy (vagy több) képre mutató URL-eket így: –sref urlA urlB urlC.
- A képmodell ezeket a képeket fogja használni „stílusreferenciaként”, és megpróbál olyan művet létrehozni, amely illeszkedik ezeknek az esztétikájához.
- Beállíthatjuk a stílusok relatív súlyát is, például: –sref urlA::2 urlB::3 urlC::5.
- A stílusozás teljes erősségét a –sw kapcsolóval állíthatjuk be, ahol
100
az alapértelmezett érték (0
jelenti az offot,1000
a maximálisat). - A rendszeres képalapú utasításoknak a –sref előtt kell állniuk.
/imagine cat ninja --sref stylePrompt1 stylePrompt2
Ha azt írjuk be, hogy –sref random, akkor a promptodban lecseréli valami olyasmire, mint –sref 123456 (egy véletlen számmal), majd ha újra beíjuk ezt a véletlen számot, mint –sref 123456, akkor újra vissza tudunk térni ahhoz a stílushoz. Ezzel a módszerrel lehet egy stílust „elmenteni”
A számozott –sref kódok olyan népszerűek, lettek, hogy külön web-oldalak gyűjtik őket, ahol böngészni lehet közöttük. Ilyen oldal pl. a https://midjourneysref.com/ is.
Ez a funkció a V6 és a Niji V6 verziókban működik (a V5 és korábbi verziókkal nem).
Saját karakter használata
Karakter Referenciák (Character Reference): Ez a funkció lehetővé teszi, hogy egy karakterre vonatkozó kép URL-jét megadva a rendszer igyekezzen az adott karaktert hűen reprodukálni a képeken.
Működése: Írjuk be a promptod után a --cref
kapcsolót, majd a karakter képének URL-jét. A --cw
kapcsolóval módosíthatjuk a referenciák „erősségét”, ahol 100 az alapértelmezett (az arcot, hajat és ruházatot is figyelembe veszi), míg 0-nál csak az arcra koncentrál (jó választás, ha outfitet vagy hajat szeretnénk változtatni).
/imagine blondy prencess --cref CharacterPrompt1 CharacterPrompt2
Mindkét funkció javítja a Midjourney által létrehozott képek testreszabását és pontosságát, lehetővé téve a felhasználók számára, hogy még részletesebben kontrollálhassák a képek stílusát és karaktereit. Ezek a funkciók különösen jól jöhetnek kreatív projektjeidben, ahol fontos a vizuális konzisztencia vagy egyedi karakterek megjelenítése.
Stílus labor (jelenleg az 5-ös változatnál működik csak)
Amennyiben szeretnénk több képet is készíteni, de hasonló stílussal, akkor érdemes stílustárat készíteni.
A /tune parancs után bírjuk azokat az utasításokat (prompt), amivel a kép készült. Némi processzor számítási kapacitás felhasználásával a Midjourney készít egy stílus lapot, és elküldi a linket. Ezt a linket mindenképpen mentsük le, mert itt fogjuk tudni a stílust állítani.
Alapesetben 32 bal és 32 jobb oldali variációt küld, de ezt lehet feljebb állítani (több processzor időért cserébe). Minden sorban egy stílusjegyet találunk, ahol a bal és a jobb oldal valamilyen szinten egymás ellentételei. Minden sorból vagy a bal, vagy a jobb oldali stílust választhatjuk. Középre kattintva egyiket sem kérjük.
Amint kiválasztunk egy stílust, akkor az a képernyő alján megjelenik a parancs végén: –style xyz123.
Ezt is érdemes felírni valahova!
Több stílust is választhatunk, és így összekeverjük őket. A variációk száma meglehetősen magas. PixelRita, pontosan hány stílusunk lehet?
A választási lehetőségek száma 3 (bal, jobb, egyik sem).
A helyek száma 32.
Tehát a képlet:
332
Amikor ezt kiszámítottam, az eredmény 1,853,020,188,851,841 lett. Ez azt jelenti, hogy ennyi különböző módon választhatsz stílust a 32 helyen. 🎈🔢
Ez a stílus még jelent garanciát, hogy minden képünk ilyen lesz, ha a parancs (prompt) végére beírjuk ezt a kódot. A stílus a paranccsal együtt fogja ezt a hatást adni. Minél jobban eltérünk az eredeti parancstól, annál jobban megváltozik a stílus is. Kicsit olyan, mintha megfakulna.
Végtelen textúra (tapéta)
A –tile paraméter olyan képet készít, ahol a bal-jobb oldal és az alsó-felső vége összeér. Így nagyon jó háttérképeket, textúrákat, tapétákat készíthetünk.
Személyre szabás (–p)
Mi az a modell-személyre szabás?
Minden alkalommal, amikor egy kérést írunk, számos részlet „kimondatlan” marad. A Midjourney program algoritmusai általában kitöltik ezeket az üres helyeket a saját „preferenciáikkal”, amelyek valójában a közösségünk összesített elfogultságait és preferenciáit tükrözik. De mindenki más! A modell-személyre szabás megtanulja, hogy mi az, amit mi szeretünk, így nagyobb valószínűséggel tölti ki az üres helyeket a mi ízlésünkkel.
Modell-személyre szabás követelményei
Jelenleg a Midjourney program személyre szabása a páros rangsorolásban leadott szavazatokból és a felfedező oldalon kedvelt képekből tanul. Körülbelül 200 páros rangsorolásra vagy kedvelésre van szükség ahhoz, hogy a funkció megfelelően működjön. A páros rangsor oldalról vagy a Discordon a /info beírásával ellenőrizhetjük, hány értékelésünk van.
Hogyan használhatjuk a modell-személyre szabást?
Csak írjuk be a –p-t a prompt után, vagy kapcsoljuk be a személyre szabást minden prompthoz a prompt sávban található beállítások gomb segítségével. Amikor bekapcsoljuk a személyre szabást, egy „kódot” kapunk a promptjaink után. Ezt a kódot megoszthatjuk másokkal, hogy ők is alkalmazhassák az adott képre vonatkozó személyre szabási hatást. A megszemélyesítési hatás erősségét a –s 100 paraméterrel szabályozhatjuk (0 a kikapcsolt, 1000 a maximális, és 100 az alapértelmezett).
További lehetőségek
A Midjourney folyamatosan fejlődik teljes sebességgel. Állandóan jelennek meg újdonságok. És persze sokkal több lehetőség rejlik benne, mint amit itt pár oldalban be lehet mutatni.
Midjourney weboldal
A Midjourney web-es felületén láthatjuk a saját, és a mások képeit. Itt tudunk keresni, több képet letölteni, értékelni, stb…
De bármennyire is iparkodik a Midjourney, ember legyen a talpán, aki ugyan azt a képet kétszer is megtalálja. Ha megtetszik egy kép, töltsük le. A saját képeinket is töltsük le, és próbáljuk valami kereshető formában tartani. A fájlnév végén megtaláljuk a kép azonosítóját (ID), amit a Discordban a /show parancs beírása után elővesz a program. És máris dolgozhatunk vele tovább.
2024. elején a Midjourney elkezdte átalakítani a weboldalát, ahol már lehet képeket generálni. Mellette saját szobákat is lehet alakítani, hogy a képeket el tudjuk különíteni egymástól.
A Midjourney specialitása
A Midjourney különlegessége, hogy garantálja a „Hűha!” effektet. Ez azt jelenti, hogy bármilyen parancsot is adunk neki, biztosan egy lélegzetelállító képet kapunk. Akkor is, ha semmilyen parancsot nem adunk. Akkor is, ha a parancs (prompt) annyi, hogy „ingyombingyom”.
Ennek köszönhetően nagyon könnyű látványos képeket készíteni. Egészen addig, amíg csak homályos elképzelésünk van arról, hogy mit szeretnénk.
A Midjourney-t nagyon nehéz irányítani. Leginkább a saját feje után megy. Megpróbál minden képből valami különlegeset készíteni, az üres részeket kitölteni, és embereket rajzolni.
PixelRita összefoglalója
Midjourney-al kapcsolatos bejegyzések
-
Három testőr Afrikában – Társasjáték
Becsült olvasási idő 11 perc. Vajon milyen lenne A három testőr Afrikában kalandjait egy társasjátékon átélni? A ChatGPT társunk lehet egy komplett társasjáték szabályainak, történetének, szerencsekártyáinak és sok más részének a kidolgozásában. Sőt! A rajzok elkészítésében is a segítségünkre lehet!
-
ChatGPT memória
Becsült olvasási idő 8 perc. A ChatGPT új memória funkció megtanulja a felhasználói szokásainkat. Pl. milyen stílusban és milyen nyelven szoktunk üzleti leveleket írni, milyen ételeket szoktunk készíteni, stb… Később már nem kell a programnak külön megmondani, hogy építész szakszavakat használjon a levélbe, vagy ne használjon glutént az ételekbe. De a ChatGPT-t tudatosan is taníthatjuk,…
-
Látványos betűk a Photoshopban referenciakép alapján saját betűtípusunkkal
Becsült olvasási idő 6 perc. Az Adobe Photoshop programba megjelent a referenciakép használata. Ennek köszönhetően most már sokkal jobban irányíthatjuk, hogy milyen dekoratív betűket készítsünk.
-
Referenciaképek a Photoshopban az MI képgeneráláshoz
Becsült olvasási idő 6 perc. Az Adobe Photoshop újdonsága, hogy egy referencia képpel segíthetjük a mesterséges intelligenciát a kép generálásában. Próbáljuk ki, hogy egy szobában a bútorokat cseréljük ki. De ne véletlenszerűen generáltak legyenek az új bútorok, hanem amiket mi választunk egy katalógusból!
-
Kép és Stílus referencia az Adobe Firefly programban
Becsült olvasási idő 11 perc. Az Adobe Firefly legújabb frissítse új dimenziókba repítjük a digitális képalkotást. A strukturális és stílusreferencia funkciókkal pontosan és könnyedén hozhatjuk létre álmaink képeit, pusztán egy kép és néhány utasítás segítségével. Többé nem kell bonyolult leírásokkal bajlódni. Csak megmutatjuk, mit szeretnénk, és a Firefly megalkotja.
-
MI által generált feliratok kifejezetten a Midjourney betűkkel. (verzió 3)
Becsült olvasási idő 8 perc. Ebben a bejegyzésben a Midjourney 6-os verzióját vizsgáljuk meg, miként lehet vele látványos betűket és rövid feliratokat készíteni.