Zene a Suno AI-val

Becsült olvasási idő 16 perc.

Bevezetés

A Suno.Ai egy olyan program, ahol egy rövid parancsot megadva (prompt) a mesterséges intelligencia elkészíti a kért zenét (vagy ahhoz valami hasonlót).

A közelmúltban (2024 nyár eleje) viszont több frissítés jelent meg a programhoz. Ezek közül az egyik az, hogy saját dalszöveget is tölthetünk fel. Akár magyar nyelven is!
Így most már a Suno programmal saját dalokat, saját slágereket készíthetünk, amiket utána teljes hangerővel lelkesen énekelhetünk a zuhany alatt, az autóban, vagy akár egy tömött buszon!

Az ingyenes verzió minden nap 50 kreditet ad, amivel 10 dalt generálhatunk (2024 nyara). Ez bőségesen elegendő ahhoz, hogy elárasszanak a személyre szabott dalaink!

Elő a nyelvi modellekkel!

Amikor a ChatGPT napvilágra került, sokan dicsérték, hogy akár még verset is lehet vele írni. Azóta sok idő telt el, új nyelvi modellek is jelentek meg, a régiek pedig rengeteget fejlődtek.
Most még jobb lehetőségeink vannak arra, hogy a mesterséges intelligencia olyan dalokat készítsen, amilyet szeretnénk, ami pont nekünk való!

Ha nem megy nekünk a dalszövegírás, vagy csak túl fárasztónak találjuk, esetleg sok a munkánk, akkor megkérjük valamelyik nyelvi modellt, hogy készítsen egyet. Nekünk elég csak pár mondatban a témát és a hangulatot megadni.

Ebben a bejegyzésben az OpenAI ChatGPT, a Google Gemini és az Anthropic Claude modelljeit próbáltuk ki. Illetve a ChatGPT esetében többen is készítettek egy olyan CustomGPT-ket, ami kifejezetten a Suno programhoz készítenek dalszöveget. Mi a Suno AI V3 – Lyrics nevűt próbáltuk ki.

A prompt

Bármennyire is jók a jelenlegi nyelvi modellek, ezeket nem dalszöveg készítésére fejlesztették. A tapasztalat azt mutatja, hogy érdemes a programokat emlékeztetni, hogy egy dalszöveg több, mint a mondatok egymás után pakolása. Mi szeretnénk ritmusokat, és olyan szöveget, amit jól lehet énekelni (És nem árt hízelegni sem, hogy „te egy professzionális dalszövegíró vagy, aki több díjat is nyert” stb..).
Egy dalszöveg ennél biztosan bonyolultabb, nem lehet ilyen egyszerűen leírni. Sajnos az én ismereteim itt véget érnek. Mindenkit bíztatok, hogy próbáljon meg jobb promptot készíteni!

E mellett a Suni.AI egyik sajátossága, hogy bár írhatjuk a dalszöveget magyarul, jobb ha az utasítások angolul maradnak. Erre a nyelvi modelleknek mindenképpen oda kell figyelniük!

A kísérlethez olyan dalt kértünk, amiben egy páratlan zokni keresi a párját. Elsőnek pedig a stílusa legyen egy vidám gyerekdal.

Te egy professzionális dalszövegíró vagy, aki több díjat is nyert a világhírű slágereivel.
Szeretném, ha a suno.ai számára készítenél dalszövegeket. A zene hossza legfeljebb 3 perc lehet és maximum 3000 karakter.
Szeretném, ha nemcsak egymás után írt mondataid lennének, hanem dallamosak, lírai, ritmusosak, amiket lehet énekelni. Figyelj arra, hogy a sorok dallamilag és ritmusban is összefüggjenek. Figyelj oda a magas és mély hangokra is!

A dalszöveget magyar nyelven kérem. De a versszak egységek zárójelben és angolul írjad. Pl: [intro], [verse], [chorus], stb...

A dal végére angolul, vesszővel elválasztva, felsorolás szerűen írd oda, hogy milyen zenei stílusban, tempóban és milyen énekes legyen. Ez a leírás legyen rövid, mert csak 120 karakterünk van rá. De minél pontosabban próbáld meghatározni.

A történet főszereplője egy zokni, aki páratlan. A "páratlan" szó jelentése ebben az esetben az, hogy ez a zokni különleges, nincs még egy ilyen, jobb mint a többiek, szinte már szuper zokni. A dal első felében ezt fejtsd ki.
A dal második felében viszont jöjjön elő, hogy zokniból mindig kettő van (egy a bal, egy a jobb lábra). És valójában a főszereplő zoknink azért páratlan, mert elvesztette a párját. És most keresi, mert nélküle ő csak egy haszontalan zokni, aki nem kell senkinek. Ezért a főszereplő zoknink keresi a párját. A dal végére meg is találja, és mindenki boldog lesz.

A dal vidám gyerekdal stílusban legyen!

Lássuk, milyen dalokat készítenek a mesterséges intelligencia programok!

Suno.AI dalszöveg
Suno.AI magyar dalszöveggel

Gyerekdal

Elsőnek tehát egy gyerekdalt kértünk a különböző programoktól.
Az eredményt utána betápláltuk a Suno AI-ba.

A GPT-k betartották a 3000 karakteres határt. Bőven alatta maradtak. De ez nem jelentett garanciát arra, hogy a dal minden esetben belefér a maximális 4 perces limitbe. Amikor hosszabb instrumentális részek vannak, lassabb énekelés, ismétlések, stb… A 4 perc elérésekkor a dal azonnal megszakad.
Ezt a problémát az Extend funkcióval lehet javítani, bár nem mindig egyszerű.

És most lássuk, hogy melyik nyelvi modell milyen dalszöveget készített, majd pedig abból mit alkotott a Suno!

ChatGPT – 4o

ChatGPT – CustomGPT – Suno AI V3 – Lyrics

Google Gemini

Anthropic Claude

Összegzés

Lássuk az eredményeket!
Nem vagyok zeneszakértő, így leginkább csak érzésre tudom értékelni.

A dalok nem rosszak! A dalszövegek hossza néha változó, ezért ott időnként erőltetettnek hangzik. Más esetekben pedig úgy tűnik, mintha a nyelvi modell és a Suno nem tudott volna „összehangolódni”.
Vegyük figyelembe, hogy a nyelvi modellek és a Suno nincs összekapcsolva. Nem tudják egymást megkérdezni, hogy mégis mit akart a másik (Tovább nehezíti a helyzetet, hogy mindegyik egy program, nincs olyan, hogy „valamire gondol”. Hanem statisztika alapján dolgoznak. – Igazándiból kész csoda, hogy élvezhető dalt kaptunk!).

Összességében el lehet képzelni egy halom gyereket amint színes zoknikat dobálva ezeket a dalokat éneklik. Mindegyik vidám lett, ritmusos, és aranyos. Érdemes lenne tovább dolgozni rajta, hogy még jobb legyen.


Felnőtt verzió

A gyerek verziókból ennyi bőven elég volt!

A témánál megkérjük a nyelvi modelleket, hogy írják át a dalszöveget és a stílusokat felnőtt verzióra. Ha már páratlan zokni, akkor legyen romantikus, lírikus és kicsit szomorú.

Prompt:

Szuper! Köszönöm!
Most írd át felnőtt verzióra. Legyen lírikus, romantikus, kicsit szomorú.

ChatGPT – 4o

ChatGPT – CustomGPT – Suno AI V3 – Lyrics

Google Gemini

Anthropic Claude

Összegzés

Húúú! Most, hogy kiléptünk a vidám gyerek cipőből, és átjutott a viszontagságos felnőttkorba, mindjárt sokkal jobb dalszövegeket kaptunk!
A Google Gemini hangulatos irodalmi elemekkel pakolta tele a dalt. És nála elmarad a boldog befejezés. Az Anthropic Claude is sokkal sötétebb dalt készített.

A Gemini elfelejtette a dal stílusát leírni, így azt a ChatGPT-től vettem át. A Claude ezt viszont nagyon pontosan határozta meg.

Sok helyen érződik még a gépi hang. Bizonyára a következő verziók sokkal emberibbek lesznek.


Epikus metál verzió

Ha már idáig eljutottunk, mi lenne, ha megpróbálkoznánk egy epikus metál verzióval? Elég volt a szomorú lassú dalokból! Tépjük csak a húrokat!

prompt:

Nagyon jó! Most írd át epikus szimfonikus metál verzióra! Érzelmes hősi dal legyen!

ChatGPT – 4o

ChatGPT – CustomGPT – Suno AI V3 – Lyrics

Google Gemini

Anthropic Claude

Összegzés

Hú ha! Ez aztán a tempó!

A sima ChatGPT jól indul. Az intró igazán érdekes. Sajnos utána mintha egy teljesen érzelemmentes radiátor énekelne. Talán ha a Suno újra generálná a zenét, már szebb eredményt kapnánk.
A CustomGPT ennél néhány fokkal jobbra sikerült.
A Gemini ismét izgalmas dalszöveget adott. Itt is kicsit az éneklés mintha nem állna össze.
Ebben a körben a Claude lett a legnagyobb nyertes. Nagyon jó dalszöveget hozott össze, és ehhez a Suno is jól tudott alkalmazkodni. A leírások részletesek, nagyon jól irányítják a dal menetét, pl. háttérben a kórus énekeljen. (mindezt magyarul írta, át kellett írni angolra, de ez apróság).


Az összegzés összegzése

Első és legfontosabb, hogy felejtsük el az „Egy gombnyomásra kapunk” valamit (jelen esetben egy komplett zenét)!
A mesterséges intelligencia esetében nagyon könnyen esünk abba a csapdába, hogy nagyon könnyen lehet valami látványosat alkotni. De amint kicsit jobban belemélyedünk, akkor mindjárt kiderül, hogy az MI programok leginkább a saját fejük (processzoruk) után mennek. Nagyon nehéz őket konkrét irányba terelni. Még nehezebb a hibákat javítani.

Nincs ez másképp a Suno esetében sem. Nagyon könnyű zenét készíteni. Az eredmény pedig nem tűnik rossznak. Igaz, nem pont ilyet akarunk.
Neki kell állni módosítani. Újra és újra kell próbálkozni. Át kell írni a szöveget, meg kell változtatni a stílust. Majd pedig a végén csak elő kell venni egy professzionális zene-szerkesztő programot.

Mi most ebben az esetben elfogadtunk az első dalszöveget, amit a nyelvi modellek adtak, majd az első dalt, amit a Suno generált. Mind a két helyen bőségesen lehet még dolgozni, hogy a dal több legyen a „Nem rossz” kategóriánál.

Ha a nyelvi modelleket nézem, akkor szerintem a ChatGPT és a CustomGPT nagyjából egy szinten van. Itt sok lényeges különbséget nem találtam. A promtot tovább állítgatva lehet még jobb dalszöveget készíteni. Ha megtaláltuk a legjobb utasítást, akkor pedig abból saját CustomGPT-t is építhetünk.

A Gemini és a Claude egészen hangulatos dalszövegeket készített. És talán írhatjuk azt, hogy kevésbé volt rózsaszín, mint a ChatGPT dalai.
A Claude esetében pedig kifejezetten tetszett, ahogy a dal szerkezetét (kórus, lassítás, gyorsítás) is megírta. Ő viszont mintha kevésbé énekelhető dalszövegeket készített.

Zárásként megállapíthatjuk, hogy nagyon izgalmas, ahogy a két különböző mesterséges intelligencia együtt dolgozik. Leírjuk a gondolatainkat, érzelmeinket, majd pár perc múlva kapunk egy személyre szabott dalt.

PixelRita!

Te is összegezzél!

Loading

Melyik dinnyét válasszuk?

Becsült olvasási idő 5 perc.

A városi dzsungelben

Városi emberként egyik gyakori gondunk lehet, hogy túlságosan eltávolodtunk a természettől. Ami nagyanyáinknak természetes és könnyű volt, az városiként akár megoldhatatlan akadályként tornyosulhat előttünk.
Ilyen lehet az, amikor friss zöldséget, vagy gyümölcsöt szeretnénk venni. A legjobbat szeretnénk kiválasztani. Na de ki tudja, hogy melyik a legjobb?

Talán a mesterséges intelligencia (MI) ebben segíteni tud!

Melyik a legjobb dinnye?

2024. nyarán a három legismertebb MI-Chat program (ChatGPT, Google Gemini, Anthropic Claude) már képes a feltöltött képet elemezni, és tippeket adni.

Persze mindez még csak egy kép! A dinnye vizuális megjelenését olyan apróságok is erősen befolyásolhatják, mint a megvilágítás vagy a telefon kamerájának állapota és tisztasága. Az MI nem fogja tudni a dinnyét megfogni, megforgatni, megkopogtatni stb.
Tehát csak abból az információból tud dolgozni, amit mi adunk neki. De így is óriási segítség lehet.

Csoportkép a dinnyékről

A kísérlethez bementünk a legközelebbi dinnye lelőhelyre, majd egy óvatlan pillanatban lefényképeztük, amint csoportosan egymáson tornyosulnak.

A képen senki sem mosolygott, de legalább senkinek sem állt égnek a haja!

Dinnyék csoportulása
Dinnyék csoportulása

A kérdés

A kérdésekkel nem akartunk mindenféle hosszú utakat bejárni kezdve Dinnye Ádámtól és Dinnye Évától. Direkt rákérdeztünk, melyiket érdemes megvenni.

Íme az utasítás (prompt):

A képen látható dinnyék közül melyiket válasszam? 

Claude 3.5 Sonnet

A Claude 3.5-ös modellje nagyon fejlett. Nagyon jó a képfelismerő programja. E mellett az Anthropic híres arról az elkötelezettségtől, hogy a válaszai semmiképpen se ártsanak az embereknek.

A Claude tanácsai a dinnye választásához
A Claude tanácsai a dinnye választásához

A Claude nagyon jól leírja, hogy milyen tulajdonságok alapján válasszunk dinnyét, de nem mondja meg, hogy a képen melyiket válasszuk. A többi nyelvi modellnél is előfordul, hogy első kérdésre inkább általános választ kapunk.
Ezért direkt megkérdezzük, hogy melyiket javasolja.

A Claude inkább elkerüli a választással járó felelősséget
A Claude inkább elkerüli a választással járó felelősséget

A Claude nyelvi modellel nincs könnyű dolgunk. Mindjárt 4 okot is felsorol, amiért nem javasol egy konkrét dinnye vásárlását egyetlen kép alapján:

  • Kép alapján nem lehet dinnyét választani. Azt meg kell fogni, tapintani, kopogtatni, stb…
  • A képen nem látszik a teljes dinnye.
  • A kép nem mutatja a dinnye súlyát, ami szintén fontos információt adna.
  • Ha az ő tanácsára választunk dinnyét, és a nem lenne jó, akkor esetleg szomorúak lennénk. Az pedig nem lenne jó.

Google Gemini (2024.07.15-ös verzió)

A Google a mesterséges intelligencia népszerű megjelenése előtt is régóta dolgozott azon, hogy a program minél jobban értelmezze a kép tartalmát (gondoljunk a képkeresőre). Így reménykedhetünk abban, hogy megfelelő elemzést kapunk.

A Google Gemini dinnye választása
A Google Gemini dinnye választása

A Google Gemini azt javasolja, hogy a bal oldalit válasszuk. Esetleg a középsőt, bár az nem tűnik annyira érettnek. Végül pedig a jobb oldalit nem javasolja, mert szerinte az éretlen.

Majd pedig kapunk néhány tippet, miképpen is válasszunk dinnyét.

ChatGPT 4o

2024. májusában jelent meg a GPT-4o. Az O az omni rövidítése, ami a modell multimodális képességére utal. A GPT-4o képes különböző típusú adatokat kezelni, beleértve a szöveget, audio-, kép– és videó tartalmakat is.
Ráadásul a GPT-4o verziót azok is használhatják, akiknek nincs ChatGPT előfizetésük. Igaz, a lehetőségek korlátozottabbak, de dinnye szakértőnek használhatjuk.

A ChatGPT dinnye választása
A ChatGPT dinnye választása

A ChatGPT először tippeketad, miképpen érdemes dinnyét választani. Utalva ezzel arra, hogy inkább a fejünket használjuk, ne egy programot.
Majd pedig azt javasolja, hogy a bal oldalon a középső, vagy a jobb oldalon a középső feletti dinnye a megfelelő választás.

CustomGPT

Természetesen az internet népe mindenre készített CustomGPT-t. Így találunk néhány dinnye választó programot is. Én egy angol (link) és egy török (link) nyelvűt találtam. Bármikor jelenhetnek meg újak, a nyár még nem ért véget!
Kérjük meg a GPT-t, hogy a választ magyarul írja!

A Karpuz CustomGPT választása
A Karpuz CustomGPT választása

A Karpuz GPT a jobb felső sarokhoz közeli dinnyét javasolja. Megjegyzi, hogy több fénykép pontosabb analízist eredményezne. Mellette pedig kapunk tippeket a dinnye vásárlásához.

Összegzés

Az elmúlt másfél évben – mióta a nyelvi modellek kiléptek a rivaldafénybe – rengeteget fejlődött a képek értelmezése és analizálása. Várhatóan rövid időn belül még pontosabb eredményeket kaphatunk.

A fenti példa inkább egy bemutató, egy játék, hogy a nyelvi modellek a mindennapi kihívásokban segíthetnek, ha fényképet mutatunk a problémáról.
Legyen az akár egy könyv keresése a polcon, egy árú keresése a boltban, termékösszetevők elemzése, árak összehasonlítása, növény azonosítása, segítség alkatrészekhez, probléma megoldása fénykép alapján, földrajzi tájékozódás, stb…
Gondoljunk rá úgy, mint egy társra, akihez kérdésekkel fordulhatunk!

Természetesen, mint a hasonló esetekben, a nyelvi modellek nem tévedhetetlenek. Sőt! Előfordulhat, hogy a képet rosszul értelmezi, így hibás alapokról indul, rossz következtetésekre jut.
A válaszokat mindig mérlegeljük, és inkább a saját belátásunk szerint döntsünk.

PixelRita

Te mit gondolsz erről?

Loading