DALL·E

Becsült olvasási idő 7 perc.
Dall-E

DALL·E: Az AI, ami Látja a Szavakat

DALL·E, Midjourney és Stable Diffusion. Ezek a programok jelentették a Mesterséges Intelligencia rajzolást 2022-ben. Majd 2023-ban a csapathoz az Adobe Firefly is csatlakozott.

Mindegyik programot kissé másképpen tudjuk használni, és mások az erősségeik. Talán a DALL-E volt az első, amelyik az InPaint és OutPaint technikákat is tudta használni. Ez azt jelenti, hogy az MI nemcsak a semmiből tud egy kész képet generálni, hanem egy már meglévő képet tud módosítani vagy kibővíteni. Vagyis a képen kicserélhetünk részeket, vagy pedig a képet kifelé növelhetjük új képpontokkal.

A DALL-E szöveg-alapú képgeneráló MI programot az OpenAI fejleszti. A cég fő támogatója, a Microsoft, pedig amint lehetett beépítette a Bing programba. Ennek köszönhetően nemsokára már magyarul is lehetett képeket rajzoltatni, ráadásul ingyen (napi kvóta van)!

Dall-E története

PixelRita, meséld el a DALL-e fejlődését!

Nos, hát így kezdődött a DALL·E története, egy igazi technológiai kaland, ami úgy indult, mint egy sci-fi film. 2021-ben az OpenAI, amely olyan agyafúrt és kreatív, mint egy csapat robot zseni, előállt ezzel a különleges AI-val, amelyet DALL·E-nek neveztek el. Ez nem más volt, mint egy szövegalapú képgeneráló rendszer, ami a GPT-3, a mesterséges intelligencia egyik csúcsteljesítményének továbbfejlesztése.

Képzeld el, hogy írsz valamit, és hopp, a DALL·E egyből képet varázsol belőle. Az első verzió még csak bemelegített, de már akkor is hatalmasat alkotott. Olyan képeket hozott létre, amik néha olyan szürreálisak voltak, mintha Salvador Dalí festette volna őket egy virtuális ecsettel.

Aztán 2022-ben érkezett a DALL·E 2, ami úgy pörgette fel a dolgokat, mint amikor frissítik a kedvenc játékodat egy új szinttel. Jobb képminőség, élesebb részletek, és a CLIP technológia integrációjával még a szöveg és kép kapcsolatát is jobban megértette. Ez már nem csak képeket készített, hanem szinte életre keltette az elképzeléseidet.

2023-ban aztán jött a DALL·E 3, ami olyan gyors és éles volt, mint egy űrhajó a hiperűrben. Ez a verzió még jobban megértette, mit szeretnél, és az integrációja a ChatGPT-vel olyan volt, mint egy szuperhős duó - együtt még erősebbek voltak.

A technológiai útja során a DALL·E áttért a diffúziós modellekre, ami egy újfajta mágia volt a képek generálásában. Ezek a modellek úgy működtek, mint egy fordított varázslat: zajt adtak a képekhez, majd lépésről lépésre eltávolították, így teremtve meg a végleges műalkotást.

Mindeközben a DALL·E folyamatosan tanult és fejlődött, mint egy kíváncsi kis robot, aki soha nem elégszik meg azzal, amit már tud. Ez a folyamat hozta el nekünk azt a csodálatos képességet, hogy a legbonyolultabb elképzeléseinket is valósághű képekké alakíthassuk.

Így hát, a DALL·E története nem csak egy technológiai fejlődés meséje, hanem egy izgalmas utazás a képzelet és a valóság határán. Ahogy a technológia tovább fejlődik, ki tudja, milyen új dimenziókat nyit meg a kreativitás és az AI találkozása. Egy biztos, a DALL·E mindig ott lesz, hogy a szavakat képekké varázsolja, és lehetővé tegye, hogy megalkossuk azt, amit eddig csak elképzelni tudtunk.

A DALL-E nagyon izgalmasan indult. De idővel úgy tűnt, mintha fokozatosan lemaradna a Midjourney mögött, míg a Stable Diffusion-hoz is egyre több kiegészítőt készítettek. Félő volt, hogy az OpenAI inkább a ChatGPT-re koncentrál.
De végül megjelent a DALL-E 3, ami egy óriási lépéssel ismét az élvonalba került. Talán még le is hagyta a versenytársait.

DALL-E 3 különlegessége

A DALL-E 3-as verziója azért különleges, mert szakított az addigra megszokott robotbeszédes utasításokkal (prompt). Ha egy pálmafás lakatlan szigetet szeretnénk, akkor ezt többé már úgy kell leírni, hogy „sziget a tengeren, pálmafa, kék ég felhőkkel”. Hanem úgy, ahogy normálisan szoktunk beszélni: „Egy pálmafás lakatlan sziget a tenger közepén”. A program pedig megérti és átfordítja a saját nyelvére.
Ráadásul nagyon hosszú mondatokat is megért!

DALL-E 3 szöveg rajzolása

A mesterséges intelligencia rajzolások egyik nagy korlátja, hogy a gép nem érti, mit is rajzol, és minek. A tréningezés során láthatott több millió kávéfőzőt, de attól még nem tudja, melyik cső mit csinál, minek van ott, stb.. Amikor kávéfőzőt kérünk tőle, akkor csöveket fog rajzolni, mert ez látta. De ezeknek a csöveknek nincsenek funkcióik, csak úgy vannak.

Ugyan ez igaz a szövegre is. Hiába látott az MI százmilliós mennyiségben betűket, írásokat, hosszabb szövegeket. Talán még el is olvasta őket. De a funkciót nem érti. Nem tudja, hogy egy újságba miért vannak betűk. Ha megkérjük az MI-t, hogy rajzoljon egy újságot, tele lesz betűkkel. De azok összevissza lesznek, mindenféle értelem nélkül.

Mindezzel szemben a DALL-E 3 már rövidebb szöveget is tud olvashatóan generálni. Így tudunk logókat, egyszerűbb plakátokat, vagy más szöveges rajzot is készíteni. Akár még Lego-s dobozokat is!

Nem mindig sikerül a szöveget jól megrajzolni. Általában minél gyakoribb angol szót kérünk, annál jobban szokott sikerülni.

ChaosBot by DALL-E 3
A DALL-E 3-as verziója nagyon jól tud szöveget is generálni

Hol találkozhatunk a DALL-E-val?

Ha direkt csak képet szeretnénk készíteni, akkor a DALL-E legegyszerűbben a Bing Image Creator programjával érhető el. Ehhez szükséges lesz egy Microsoft fiókra is, ami ingyenesen regisztrálható. A képgenerálás is ingyenesen használható, bár napi kvóta van.

A kép generálásához a felső mezőbe beírjuk, mit szeretnénk. Írhatjuk magyarul, és ugyan úgy, ahogy a mindennapokban beszélünk.

Eredményük 4 képet fogunk kapni. Amelyik kép tetszik, annak a jobb felső sarkára vigyük az egeret. A megjelenő mini menüre kattintva tudjuk a képet a galériába berakni. Erre szükség lesz, hogy a képet később is könnyen megtaláljuk.
A képre kattintva pedig láthatjuk az adatit, és le is tudjuk menteni a számítógépünkre.

Képgenerálás a Microsoft Image Creator oldalán
Képgenerálás a Microsoft Image Creator oldalán

A Microsoft és az OpenAI partnerségének köszönhetően a Bing programba mindenhova beépül a DALL-E 3. Így a mobil telefonos Bing programban is kérhetünk kép generálást. De találkozunk vele a Skype, Teams, Copilot, stb.. programokban is.
Ezen kívül a Microsoft Designer programban is elérjük a DALL-E 3 képgenerálást. És bizonyára más Microsoft programokba is bekerül a közeljövőben.

DALL-E és a ChatGPT

A DALL-E 3-as verziója sokkal jobban kezelhető, mint az elődei. És még a konkurenciánál is jobban el lehet neki mondani, mit szeretnénk. De az igazi erőssége az, amikor a ChatGPT-vel van összekötve.

Ekkor ugyanis mi a mesterséges intelligenciával úgy tudunk beszélni, mint egy grafikussal. Egy olyan rajzolóval, akinek óriási a tudástára. Nem feltétlenül kell tudnunk, mit akarunk rajzolni, mert az MI segíteni fog nekünk. Nem kell utasításokat sem írni, hanem úgy beszélünk vele, mint egy emberrel.

Megkérdezhetjük pl. hogy milyen színeket javasolj, vagy mi legyen a kép témája hogy az várt hangulatot kapjuk. Tehát nemcsak direktben utasíthatjuk a gépet, hanem közösen együttműködve tudjuk a képet kialakítani. Abban is tud segíteni, ha semmilyen ötletünk sincsen, vagy csak nem vagyunk jártasak a témában.

Dall-E 3 képgenerálás a ChatGPT-ből
DALL-E 3 képgenerálás a ChatGPT-ből

Amikor a kép elkészült, a kapcsolat továbbra is megmarad. Nyugodtan kérhetjük a ChatGPT-t, hogy valamit módosítson a képen. Ilyenkor majd a program fog új utasításokat írni, nem nekünk kell mindent újra beírni. Ráadásul a DALL-E megpróbálja az új képet minél inkább az előzőhöz hasonlóra készíteni, hogy az eredmény tényleg csak módosítás legyen, de pedig egy teljesen új rajz.

Megkértem a ChatGPT-t, hogy cserélje ki a kép hátterét
Megkértem a ChatGPT-t, hogy cserélje ki a kép hátterét

Generált kép szerkesztése

2024. április elején egy új funkció jelent meg a ChatGPT-be beépített Dall-E rajzolóban. A program által generált kép részeit lehet szerkeszteni.
Ez óriási segítség, mert a mesterséges intelligencia által készült képek ritkán pont olyanok, mint szeretnénk.

ChatGPT Dall-E rajzoló. Jobb felül találjuk a szerkesztő ecset gombot
ChatGPT Dall-E rajzoló. Jobb felül találjuk a szerkesztő ecset gombot

A kész képre kattintva jobb felül egy ecset gombot találunk. Erre kattintva ki tudjuk jelölni, hogy a kép mely részét szeretnénk változtatni.
Ekkor jobb oldalt a chat mezőbe írjuk bele, mit szeretnénk a képen változtatni. Rövid idő múlva pedig megkapjuk a módosított képet.

Ha további módosításokat szeretnénk, akkor ismét kattintsunk az ecset gombra az új képen!

Generált kép szerkesztése a ChatGPT Dall-E rajzolójában
Generált kép szerkesztése a ChatGPT Dall-E rajzolójában

PixelRita összefoglalója

A DALL-E az egyik legkönnyebben használható. Magyarul, természetes nyelvet használva tudunk képeket generálni. A Microsoftnak köszönhetően pedig egyre több programba épül be, ráadásul még ingyenes is.

PixelRita, te mit gondolsz a DALL-E-ról?

Nos, hadd mondjam el neked, hogy a DALL·E, ez a mesterséges intelligencia csoda, egyszerűen lenyűgöző! Elképesztő, hogy mennyire megváltoztatja a játékot a kreatív világban. Képzeld csak el: írsz egy pár sort, és voilà, az AI varázslatosan képet fest belőle. Mintha egy digitális Dalí lenne a zsebedben, ami csak arra vár, hogy felébredjen az inspirációd.

De ami igazán király benne, az az, hogy a DALL·E nem csak sima képeket készít. Ez az AI annyira ötletes, hogy képes a legőrültebb ötleteidet is életre kelteni, amiket még a legvadabb álmaidban sem gondoltál volna. Tényleg, mint egy szuperhős a képzelet világában!

Persze, mint minden szupererő, a DALL·E-vel is óvatosan kell bánni. Fontos, hogy etikus és felelősségteljes módon használjuk ezt a technológiát. Nem árt, ha figyelemmel kísérjük, hogyan alakulnak az AI és a kreativitás találkozásának hatásai, hogy biztosak legyünk benne: a DALL·E pozitív erő marad a világban.

A DALL·E 3 pedig, hűha, az már tényleg egy másik szint! Gyorsabb, élesebb, és még jobban megérti, mit szeretnél. Az integrációja a ChatGPT-vel pedig mint egy szuper-duó a képregényekből – együtt verhetetlenek!

Szóval, ha engem kérdezel, a DALL·E valódi game-changer az AI világában. Olyan, mint egy varázspálca a digitális művészetben, ami új lehetőségeket nyit meg mindenkinek, legyen szó profi grafikusokról vagy csak álmodozó hobbi alkotókról. A lényeg, hogy bátran használd a kreativitásodat, és hagyd, hogy a DALL·E segítsen abban, hogy a képzeleted szabadon szárnyaljon!


PixelRita

Loading

No votes yet.
Please wait...

Szólj hozzá!