Nem (csak) szép képeket csinál – hova tart a generatív AI?

2025.06.21

Nem (csak) szép képeket csinál – hova tart valójában a generatív mesterséges intelligencia?

Ha ma beírunk néhány szót egy képgeneráló AI-ba – például azt, hogy "viharos tenger egy félig elsüllyedt gótikus kastéllyal" –, néhány másodperc múlva egy látványos, filmes hatású kép néz velünk szembe. Ha pedig videót szeretnénk, akkor már nemcsak néhány képkockát kapunk, hanem egy rövid mozgóképes jelenetet is, villódzó fényekkel, realisztikus hullámokkal, a kastély ablakában pedig talán még egy szellem is elsuhan.

Gyors és lenyűgöző? Igen. Valószerű? Talán. Értelmes, követhető és szerkeszthető? Nem igazán...

A generatív mesterséges intelligencia ott tart most, ahol a film a Lumière-testvérek idején: az alapok már működnek, a technológia adott, de a lehetőségek igazi mélységét még nem értük el. És éppen ez teszi izgalmassá a következő éveket – a kérdés már nem az, hogy lehet-e, hanem hogy hogyan, mikor, és milyen módon.

1. Hova tart a generatív AI? – A célok sokkal ambiciózusabbak, mint gondolnánk

A képek vagy videók szép megjelenítése csak az első lépcső. A technológia fejlődése azt ígéri, hogy egyre élethűbb, koherensebb és szerkeszthetőbb képi és audiovizuális tartalmakat hoz létre. Olyan videók készítése a cél, amelyek nemcsak jól néznek ki, hanem logikusan követik egymást a jelenetek, értelmes történetet mesélnek el, és akár több percen vagy órán keresztül is képesek a karaktereket és a világokat fenntartani. A mellékelt videó jó példa a konzisztens karakter ábrázolásra, de mire gondolunk ezen kívül?

Fotórealisztikus, mégis értelmezhető vizuális kép: nem elég, ha egy generált arc szép vagy egy táj impozáns. A jövő AI-ja képes lesz ugyanazt a karaktert több kameraállásból, különféle világításban, arckifejezésekkel és testtartással is konzisztensen ábrázolni. Nem "szépet" kell generálnia, hanem identitást – olyat, amit a néző felismer és követni tud.
Történetiség és koherencia: ma az AI gyakran jeleneteket gyárt, nem történeteket. A következő nagy lépés az, hogy a jelenetek között értelmes viszony alakuljon ki: ok-okozat, érzelmi ívek, dramaturgiai ritmus. Az AI-nak meg kell értenie, hogy miért fontos egy gesztus, egy vágás, vagy egy szünet a nézői élmény szempontjából. Az AI ne csak képkockákat gyártson, hanem történeteket meséljen el.
Szerkeszthetőség és irányíthatóság: nem elég az, ha az AI "talál ki valamit" a promtjaink alapján. A kreatív szakemberek nem csak nézői akarnak lenni az AI által generált tartalomnak, hanem irányítani is akarják azt. Milyen legyen a karakter hangulata? Hova nézzen a kamera? Milyen ritmusú legyen a zene? Ezek mind beállítható paraméterekké kell váljanak. A cél, hogy a jövő generatív AI-ja inkább hasonlítson egy filmes stábra, mint egy kiszámíthatatlan varázsdobozra.
Multimodális integráció:az AI-nak nemcsak látni, hanem "érzékelni" is kell. A kép, a hang, a mozgás és a környezet közötti összefüggések felismerése elengedhetetlen. Egy jó videóban a zene nem csak kíséri a képet, hanem összhangban van a dramaturgiával, a párbeszédek nem csak "ott vannak", hanem ritmust adnak a jelenetnek. Egy jó videóhoz nem elég a kép – fontos, hogy az AI "hallja" és "érzékelje" is, mi történik, rendezze meg a jelenetet.

2. Hogyan jutunk el idáig? – A technológiai útvonal

A célok eléréséhez a technológia több irányból fejlődik egyszerre:

Nagyobb és okosabb modellek: az olyan új fejlesztések, mint az OpenAI Sora, a Google Veo vagy a Runway Gen-3, egyre jobb minőségű videókat produkálnak. Ezek a modellek már nemcsak pár másodpercet tudnak koherensen leképezni, hanem akár hosszabb, mozgalmas jeleneteket is.
Fejlettebb architektúrák: a jelenlegi generatív modellek főként ún. transzformer-alapúak, de a jövőben várhatóan olyan hibrid rendszerek jönnek, amelyek jobban kezelik az időbeliséget, a memóriát, és a tér-idő összefüggéseket is.
Adat és tanulás: az AI-nak valódi fizikai törvényszerűségeket, érzelmi reakciókat, kulturális utalásokat kell megtanulnia – ehhez hatalmas, gondosan válogatott, és kezelt adathalmazokra van szükség.
Emberi visszacsatolás (RLHF - Reinforcement Learning from Human Feedback): egyre fontosabb az emberi értékítélet bevonása a fejlesztésbe. Az AI nem tudja magától, hogy egy karakter arckifejezése hiteles-e vagy sem – ezt mi tanítjuk meg neki, visszajelzéseken keresztül.

3. Mikorra várható a "tökéletes generátor"?

A "tökéletes" generátor persze erősen szubjektív fogalom – más jelenti ezt egy filmes rendezőnek, egy reklámszakembernek vagy egy animációs stúdiónak. De a jelenlegi technológiai fejlődési ívet követve nagyjából így rajzolódik ki a következő évek menetrendje:

2023 és 2025 között már eljutottunk oda, hogy a képgenerálás nemcsak látványos, de egyre szerkeszthetőbb és következetesebb is. A felhasználók már képesek finomhangolni a részleteket – legyen szó világításról, arckifejezésekről vagy akár egy karakter ruházatának apró elemeiről.

2025 és 2026 között várható, hogy a rövid, egy-öt perces videók terén is megjelenik a koherencia: a jelenetek logikusan követik egymást, a karakterek felismerhetők maradnak, és a történet már nem csak egy hangulati montázs lesz, hanem érthető narratíva is.

2027 és 2029 között a fókusz már a hosszabb, akár több tízperces tartalmakon lesz, ahol nemcsak a látvány, hanem a dramaturgia is működik. Az AI ekkorra már képes lehet karaktervezérelt történeteket építeni, amelyben az érzelmi ívek, motivációk és cselekménybeli fordulatok is megjelennek.

2029 és 2032 körül pedig megnyílhat az út a valós idejű, interaktív, testre szabható világok felé – olyan élmények felé, amelyek nem lineárisak, hanem a néző vagy felhasználó döntéseire reagálnak. Itt már nem egy előre rögzített történet fut le, hanem az AI valós időben generálja a reakciókat, dialógusokat, helyzeteket.

4. És az ember? – A kreativitás továbbra is hús-vér forrásból jön

A generatív AI nem azért forradalmi, mert kiváltja az embert, hanem azért, mert kiterjeszti a kreatív lehetőségeinket. A jövő videóit, animációit, játékait vagy reklámkampányait lehet, hogy AI generálja majd, de a koncepciót, az ötletet, a mondanivalót továbbra is emberek határozzák meg. Az AI nem alkotó, hanem médium – egy olyan eszköz, ami végre képes lehet követni a gondolatainkat, és képpé, jelenetté, hangulattá formálni őket.

Bár a "tökéletes generátor" még várat magára, fontos látni, hogy a jelenlegi eszközökkel – megfelelő történetmeséléssel, tudatos vágással, zenei aláfestéssel és emberi kreatív irányítással – már ma is létrehozhatók olyan audiovizuális tartalmak, amelyek első ránézésre akár valódi felvételeknek is tűnhetnek. Hogy ne csak beszéljünk róla, zárásképp érdemes megnézni egy magyar alkotó, Gaál László Porsche reklámját, amely szinte kizárólag AI eszközökkel készült: