Midjourney

Becsült olvasási idő 10 perc

Midjourney, a képgeneráló MI

A Midjourney talán a leghíresebb Mesterséges Intelligencia, amivel képeket lehet generálni.

PixelRita, írj egy rövid összefoglalót a Midjourney -ről!

A Midjourney egy generatív mesterséges intelligencia program és szolgáltatás, amelyet a San Franciscó-i Midjourney, Inc., egy független kutatólaboratórium hozott létre és működtet. Ez a program természetes nyelvű leírásokból, ún. "prompts"-okból képeket generál, hasonlóan az OpenAI DALL-E és a Stability AI Stable Diffusion programjaihoz. A Midjourney 2022. július 12-én lépett nyílt bétába, és jelenleg is ebben az állapotban van​​.

A Midjourney, Inc.-t David Holz alapította, aki korábban a Leap Motion társalapítója volt. A Midjourney képgeneráló platformja először 2022 márciusában indult, egy Discord szerveren keresztül, ahol a felhasználóknak magas minőségű fényképeket kellett posztolniuk a Twitterre vagy Redditre a rendszer betanításához​​.

A cég rendszeresen javítja algoritmusait, új modellverziókat ad ki néhány hónaponta. A 2-es verzió 2022 áprilisában, a 3-as verzió 2022 júliusában jelent meg, az 5-ös verzió 2023 márciusában, majd a 5.1-es és 5.2-es verziók is követték, amelyek egyre jobb képminőséget biztosítottak.
Az új verzió mellett folyamatosan jelennek meg a hasznos funkciók is.

A Midjourney 2022. július 12-én lépet a publikus béta fázisba, vagyis akkor jelent meg a nagyközönség előtt. Ez volt az első Mesterséges Intelligencia, amivel bárki képeket készíthetett. Ezzel pedig örökre megváltozott a képalkotás.
Korábban elő kellett venni az analóg vagy digitális ecsetet. És ha egy macskát szerettünk volna a képen látni, akkor elkezdtük megfesteni: fej, test, lábak, farok, fülek, szemek, stb… Ki milyen képességekkel rendelkezett, attól függött az eredmény.
E helyett jött a Mesterséges Intelligencia, ahol csak annyit kell beírni, hogy rajzoljon egy macskát, és 1 perc múlva meg is kaptuk a képet.

Az érzés hasonló lehetett a fényképezőgép feltaláláskor. A képkészítéshez teljesen más technikai és tudás szükséges, mint a korábbi technikához. Ezért úgy tűnhet, hogy bárki készíthet képeket rövid idő alatt mindenféle tanulás nélkül. De ez a Mesterséges Intelligenciánál is csak félig igaz, ahogyan a fényképezésénél is. Ezt is ugyan úgy meg kell tanulni használni, és egy jó kép elkészítése tudást és időt igényel.

Aktív processzor idő

A képgeneráláshoz speciális, nagy teljesítményű processzorok szükségesek. A Midjourney esetében mi ennek a processzornak a használatáért fizetünk. Általában 1 kép elkészítése 1 percet vesz igénybe. A legkisebb előfizetési csomagban 200 perc aktív processzoridő van (2023-as adat), amivel körülbelül 200 képet lehet generálni.
A képgenerálás ideje, azaz a processzor használata, verziónként eltér, és a Midjourney azon dolgozik, hogy ez egyre kevesebb legyen. Ezen kívül vannak más, processzort igénylő műveletek is, mint például a nagyítás, átméretezés, változtatás, újragenerálás, stb., amik szintén processzoridőt igényelnek.
Tehát minden egyes további művelettel csökken a kvótánk. De nem minden művelethez szükséges 1 perc. Vannak olyanok, amelyek több, de legtöbbször inkább kevesebb időt vesznek igénybe. Azt, hogy mennyi processzoridőnk maradt, a /info paranccsal tudjuk lekérdezni. De erre még visszatérünk.

Nem szükséges mindig az aktív processzoridőt használni. A közepes (standard) előfizetéstől felfelé (2023-as adat) bekapcsolható a passzív processzoridő, amit a Midjourney relax módnak nevez.
Ebben az esetben a kép generálása csak akkor történik, amikor van szabad processzor, amit éppen senki sem használ. Így csúcsidőben akár több percet is várni kell egy képre. De a Midjourney előfizetés csak az aktív processzorhasználatot számolja. Tehát ha relax módban vagyunk, akkor korlátlan mennyiségben generálhatunk vagy módosíthatunk képeket.
Nem minden funkció érhető el relax módban. Bizonyos műveletek és szolgáltatások (általában az újonnan megjelentek) csak aktív, azaz fast módban érhetőek el. Azok használata levonódik az aktív processzoridő-keretünkből.

A Midjourney használata

Midjourney felülete
A Midjourney felülete

A Midjourney használatához a Discord csevegő program szükséges. Előtte a Midjourney oldalon regisztrálnunk kell. A Discord program használható webböngészőben is, de jobban járunk, ha letöltjük asztali gépre vagy mobil telefonra.
A regisztrálás után a https://discord.gg/midjourney linken érjük el a Midjourney csatornáját. Itt valamelyik newbies szobában tudjuk elkezdeni a kép generálását. Ehhez írjuk be, hogy /imagine prompt majd pedig angolul írjuk le, mit szeretnénk a képen látni. Az eredményt majd ebben a szobában fogjuk látni, de személyes értesítőt is fogunk kapni róla.

Midjourney csatorna új felhasználóknak
Midjourney csatorna új felhasználóknak

A Midjourney bot meghívása saját szerverre

A Midjourney elképzelhetetlenül sok képet készít minden másodpercben. És ha majd belejövünk, akkor mi is havonta több ezer képet gyártunk. Pillanatok alatt el fogunk veszni a pixelek bőségében. Ajánlatos ezért már a leges legelején egy saját Discord szervert létrehozni, és ott dolgozni. Továbbá érdemes külön csoportokat és szobákat készíteni a különböző projekteknek.

Midjourney bot
Midjourney bot

Mindössze annyit kell tenni, hogy nyitunk egy saját szervert a Discordon, majd a Midjourney szerveren kattintsunk a Midjourney bot-ra a jobb oldalon. A feljövő ablakban találunk egy Alkalmazás hozzáadása gombot, amivel a saját szerverünkre tudjuk behívni a botot. Onnantól fogva a saját részünkön is működni fognak a Midjourney parancsok, és a kész képek oda érkeznek meg.

Hogyan készítsünk képet a Midjourney programmal?

Ha beléptünk a Discord programban a Midjourney vagy a saját szerverünkre, akkor a /imagine prompt paranccsal generálhatjuk a képet. A parancsnak angol nyelven kell lennie. Ha ez nehezen megy, használjunk egy fordító programot, mint pl. a Google Fordító.

Mindig azt írjuk le, amit a képen szeretnénk látni. A Midjourney-t úgy képzeljük el, mintha egy ötéves gyereket kérnénk meg, hogy rajzoljon valamit. Egyszerű, direkt utasításokat adjunk, mint pl. macska fekete kalappal. A túl sok utasítás csak összezavarja a programot.

Elsőnek a témát adjuk meg, hogy mit is akarunk készíteni: plakát, festmény, ceruzarajz, ételfotó, portré, stb..
Másodikban azt írjuk le, hogy mi legyen a képen, vesszővel elválasztva. Amit előre írunk, azok lesznek a fontosabbak.
Utána írjuk a stílusokat, hangulatot, színeket és a további technikai jellemzőket mint pl. milyen fényképezőgéppel készült a kép, milyen festészet, milyen ceruza, stb…
Végén pedig a speciális parancsok jönnek. Egy parancs kb. így néz ki:

/imagne prompt portrait of a cat is on the beach in sunglasses and playing on laptop, photorealistic, photography, real life photo --ar 3:2

Egy kis idő múlva 4 előnézeti képet kapunk. Az U1-U4 gombokra kattintva megkapjuk a teljes képet. A V1-V4 gombokkal pedig további variációkat kérhetünk az adott képről.

A Midjourney használatának dokumentációja itt található. Érdemes sok-sok youtube videót nézni, hogy mely parancsok milyen eredményt hoznak. És persze kísérletezni.
Én ide gyűjtöm a legtöbbet használt utasításokat (prompt).

Legfontosabb parancsok

/imagine prompt: Vele lehet képet generálni
/relax: átkapcsolás a lassú módra, amikor nem használjuk a processzor időt
/fast: átkapcsolás gyors módra a processzor idő használatához és speciális funkciókhoz
/info: megtudjuk, hogy mennyi processzor időnk maradt.
/settings: előhívhatjuk a beállítási menüt
/describe: egy feltöltött képről megmondja, hogy az MI-miként látja. Majd a kapott utasításokkal (prompt) hasonló képet generálhatunk.
/blend: 2-5 feltöltött képet lehet összekombinálni az MI-vel.
/show: az ID alapján előveszi a korábbi képet, így tovább tudunk dolgozni vele. Az ID a Midjourney weboldalán és a fájl név végén is megtalálható. pl. fcb5678e-298d-4403-8ee6-14e96d43e79d

További parancsok a Midjourney dokumentációban

Legfontosabb paraméterek

Az utasítások (prompt) után lehet írni paramétereket, amivel a képek technikai tulajdonságait adhatjuk meg.

–ar : mi legyen a képarány. Pl. –ar 3:2 . Ez 3:2 arányú fekvő téglalap lesz.
-no : ami semmiképpen ne legyen rajta a képen
–seed : mag. Ez a kiindulási szám, amire az egész képgenerálás épül. 0–4294967295 mozoghat. Ha ugyan azt a parancsot és ugyan azt a seed-et adjuk, pontosan ugyan azt a képet kapjuk. A fix seed-el lehet nagyon hasonló képet adni. Ha nem adunk seed-et, akkor véletlenszerűen generál egyet a program. Ne használjuk az 1, 123456. 123456789 és hasonló seed-et, mert mindenki azt használja.

További paraméterek a Midjourney dokumentációban

Kész kép módosítása

Az elkészült képet verziótól függően lehet tovább módosítani a képek alatti gombokkal.

  • Nagyítás. A kész képet újraszámolja a program egy nagyobb méretben
  • Variációk készítése. Új képet generál a kész alapján.
  • Remix. Új képet készít a kész alapján, de megváltoztathatjuk a parancsot, így valami teljesen mást kaphatunk. Lehet a képnek csak egy részét módosítani, pl. új elemet berakni, vagy valamit kivenni a képből, megváltoztatni. Ehhez a funkcióhoz a /settings-ben a Remix-et be kell kapcsolni.
  • Bővítés. A képet felfele, lefele, jobbra, vagy balra tudjuk bővíteni. Az új területnek új utasításokat adhatunk. Így pl. panoráma képet készíthetünk.

Saját kép használata

Kép használata forrásnak

Lehet saját képet is használni kiindulási mintának. Így pl. egy portré képből lehet rajzfilmszerű képet készíteni.
A /imagine prompt után adjuk meg a kép webcímét (ha Discrodba töltöttük fel a képet, akkor jobb klikk, hivatkozás másolása).

/imagne prompt http://kep.com/huhu.jpg cartoon style --iw 1

A –iw paraméterrel adhatjuk meg, hogy mennyire legyen erős a feltöltött kép. Az –ie 0.5 esetében inkább az utasításokat veszi figyelembe, –iw 2 esetében pedig a feltöltött kép lesz az erősebb.
Akár több képet is feltölthetünk.

Képelemzés

A /describe parancsot használva egy képet tölthetünk fel. A Midjourney kielemzi, majd ad 4 utasítás csomagot, amik használatával egy hasonló képeket lehet készíteni. készíteni.
Ritkán lehet azonban tényleg olyan képet kapni, amit megadtunk. Viszont rengeteget segít, hogyan lehet egyes dolgokat leírni, és még sok ötletet is ad.

Képmixelés

A /blend paranccsal 2-5 képet mixelhetünk össze. A Midjourney elemzi a feltöltött képek tartalmát, átfordítja a saját nyelvére, majd az utasításokat összekeverni készít új képet.
Sajnos sok kontrollunk nincs felette.

Saját kép stílusának másolása

A „Style References” vagy stílusreferenciák egy új funkció, amely lehetővé teszi, hogy konzisztens stílust adjunk meg az általunk generált képekhez. Ez hasonlóan működik, mint amikor kép alapú utasításokat adunk, de itt URL-eken keresztül mutatunk be egy vagy több képet, amelyek meghatározzák azt a stílust, amelyet szeretnénk végig használni a generálás során.

Így használhatjuk a „Style References” funkciót:

  • A kérdéses szöveges utasítás után írjuk be a –sref kapcsolót, majd addjuk meg az egy (vagy több) képre mutató URL-eket így: –sref urlA urlB urlC.
  • A képmodell ezeket a képeket fogja használni „stílusreferenciaként”, és megpróbál olyan művet létrehozni, amely illeszkedik ezeknek az esztétikájához.
  • Beállíthatjuk a stílusok relatív súlyát is, például: –sref urlA::2 urlB::3 urlC::5.
  • A stílusozás teljes erősségét a –sw kapcsolóval állíthatjuk be, ahol 100 az alapértelmezett érték (0 jelenti az offot, 1000 a maximálisat).
  • A rendszeres képalapú utasításoknak a –sref előtt kell állniuk.
/imagine cat ninja --sref stylePrompt1 stylePrompt2

Ez a funkció a V6 és a Niji V6 verziókban működik (a V5 és korábbi verziókkal nem).

Saját karakter használata

Karakter Referenciák (Character Reference): Ez a funkció lehetővé teszi, hogy egy karakterre vonatkozó kép URL-jét megadva a rendszer igyekezzen az adott karaktert hűen reprodukálni a képeken.

Működése: Írjuk be a promptod után a --cref kapcsolót, majd a karakter képének URL-jét. A --cw kapcsolóval módosíthatjuk a referenciák „erősségét”, ahol 100 az alapértelmezett (az arcot, hajat és ruházatot is figyelembe veszi), míg 0-nál csak az arcra koncentrál (jó választás, ha outfitet vagy hajat szeretnénk változtatni).

/imagine blondy prencess --cref CharacterPrompt1 CharacterPrompt2

Mindkét funkció javítja a Midjourney által létrehozott képek testreszabását és pontosságát, lehetővé téve a felhasználók számára, hogy még részletesebben kontrollálhassák a képek stílusát és karaktereit. Ezek a funkciók különösen jól jöhetnek kreatív projektjeidben, ahol fontos a vizuális konzisztencia vagy egyedi karakterek megjelenítése.

Stílus labor

Amennyiben szeretnénk több képet is készíteni, de hasonló stílussal, akkor érdemes stílustárat készíteni.

A /tune parancs után bírjuk azokat az utasításokat (prompt), amivel a kép készült. Némi processzor számítási kapacitás felhasználásával a Midjourney készít egy stílus lapot, és elküldi a linket. Ezt a linket mindenképpen mentsük le, mert itt fogjuk tudni a stílust állítani.

Alapesetben 32 bal és 32 jobb oldali variációt küld, de ezt lehet feljebb állítani (több processzor időért cserébe). Minden sorban egy stílusjegyet találunk, ahol a bal és a jobb oldal valamilyen szinten egymás ellentételei. Minden sorból vagy a bal, vagy a jobb oldali stílust választhatjuk. Középre kattintva egyiket sem kérjük.

Amint kiválasztunk egy stílust, akkor az a képernyő alján megjelenik a parancs végén: –style xyz123.
Ezt is érdemes felírni valahova!

Több stílust is választhatunk, és így összekeverjük őket. A variációk száma meglehetősen magas. PixelRita, pontosan hány stílusunk lehet?

Ez a stílus még jelent garanciát, hogy minden képünk ilyen lesz, ha a parancs (prompt) végére beírjuk ezt a kódot. A stílus a paranccsal együtt fogja ezt a hatást adni. Minél jobban eltérünk az eredeti parancstól, annál jobban megváltozik a stílus is. Kicsit olyan, mintha megfakulna.

Midjourney stíluslabor
Midjourney stíluslabor

Végtelen textúra (tapéta)

A –tile paraméter olyan képet készít, ahol a bal-jobb oldal és az alsó-felső vége összeér. Így nagyon jó háttérképeket, textúrákat, tapétákat készíthetünk.

Kőfal textúra
Kőfal textúra

További lehetőségek

A Midjourney folyamatosan fejlődik teljes sebességgel. Állandóan jelennek meg újdonságok. És persze sokkal több lehetőség rejlik benne, mint amit itt pár oldalban be lehet mutati.

Midjourney weboldal

A Midjourney web-es felületén láthatjuk a saját, és a mások képeit. Itt tudunk keresni, több képet letölteni, értékelni, stb…

De bármennyire is iparkodik a Midjourney, ember legyen a talpán, aki ugyan azt a képet kétszer is megtalálja. Ha megtetszik egy kép, töltsük le. A saját képeinket is töltsük le, és próbáljuk valami kereshető formában tartani. A fájlnév végén megtaláljuk a kép azonosítóját (ID), amit a Discordban a /show parancs beírása után elővesz a program. És máris dolgozhatunk vele tovább.

A Midjourney specialitása

A Midjourney különlegessége, hogy garantálja a „Hűha!” effektet. Ez azt jelenti, hogy bármilyen parancsot is adunk neki, biztosan egy lélegzetelállító képet kapunk. Akkor is, ha semmilyen parancsot nem adunk. Akkor is, ha a parancs (prompt) annyi, hogy „ingyombingyom”.
Ennek köszönhetően nagyon könnyű látványos képeket készíteni. Egészen addig, amíg csak homályos elképzelésünk van arról, hogy mit szeretnénk.
A Midjourney-t nagyon nehéz irányítani. Leginkább a saját feje után megy. Megpróbál minden képből valami különlegeset készíteni, az üres részeket kitölteni, és embereket rajzolni.

prompt: ingyombingyom
prompt: ingyombingyom

PixelRita összefoglalója

PixelRita

Loading

Rating: 5.00/5. From 1 vote.
Please wait...