OpenAI Sora

V rýchlo sa rozvíjajúcom svete umelej inteligencie (AI) predstavuje každý nový pokrok potenciál zmeniť, ako vnímame a vytvárame digitálny obsah. OpenAI, tvorca ChatGPT, nás teraz zoznamuje so Sorou – revolučným nástrojom na generovanie videa z textu, ktorý predstavuje významný posun v oblasti AI a otvára dvere do nových dimenzií filmového a reklamného priemyslu.

Unikátnosť Sora

Sora, umožňuje generovať pútavý obsah z jednoduchých textových výziev alebo existujúcich obrázkov a videí, značí prelom v technológii generovania videa. To, čo ju odlišuje od konkurencie, je jej adaptabilita a kvalita výstupu, ktorý môže dosahovať až 60 sekúnd dynamického a komplexného videa.

Funkcie, ktoré stoja za zmienku

Video Compression Network

Prostredníctvom Video Compression Network je možné znižovať dimenzionalitu vizuálnych dát, umožňujúc Sore pracovať s komprimovaným video obsahom a generovať vysokokvalitné výstupy.

Škálovacie transformery pre generovanie videa

Využitím transformerovej architektúry, Sora dosahuje vynikajúce výsledky v generovaní videa, čím sa posúva hranice toho, čo bolo doteraz možné.

figure diffusion

Škálovacie transformery pre generovanie videa: (Zdroj OpenAI)

Základný výpočet

Pri základnom výpočtovom výkone nie je explicitne jasné, čo je vo výstupe vygenerované.

4-násobný výpočet

Zvýšením výpočtového výkonu sa už výstup začína podobať požadovanému vstupu.

32-násobný výpočet

Podstatným navýšením výpočtového výkonu výstup zodpovedá požadovanému vstupu.

Škálovanie: (Zdroj OpenAI)

Mojím osobným názorom je, že používateľom bude pridelená úroveň výpočtovej kapacity a pridelený čas na jej využitie v závislosti od druhu ich predplatného, podobne ako to funguje u AI Midjourney.

Flexibilita vzorkovania

Sora dokáže generovať širokouhlé videá s rozlíšením 1920x1080p, vertikálne videá 1080×1920 a všetko medzi tým. To umožňuje Sore vytvárať obsah priamo v pôvodných pomerových formátoch pre rôzne zariadenia. Zároveň nám to umožňuje rýchlo vytvárať prototypy obsahu v nižších rozlíšeniach, ešte pred tým, ako generujeme obsah vo finálnej vysokom rozlíšení – a to všetko s použitím toho istého modelu.

Príklady použitia

Zaujímavé využitie Sora zahŕňa vytvorenie nekonečnej slučky (infinite loop) videí, editáciu videí z videa (Video-to-video editing) a spojovanie videí (Connecting videos), čím umožňuje vytvárať plynulé prechody a nové naratívy. Ďalej, s väčším výpočtovým výkonom je možné dosiahnuť ešte kvalitnejšie výstupy, čo otvára dvere pre profesionálne využitie v kreatívnych odvetviach.

Nekonečná slučka: (Zdroj OpenAI)

Etické a spoločenské dôsledky

Pri všetkých výhodách nesmie byť prehliadnutý potenciál pre zneužitie, najmä v tvorbe deepfake videí. OpenAI si je týchto rizík vedomá a aktívne pracuje na implementácii bezpečnostných opatrení, vrátane spätného pripomienkovania od verejnosti.

Porovnanie s konkurenciou

Oproti existujúcim nástrojom, ako sú RunwayML Gen-2 a Pika, ktoré sú obmedzené na kratšie videá a nemajú možnosť spracovania videí ako vstupu, Sora predstavuje výrazné vylepšenie, ponúkajúc dlhšie videá s komplexnými scénami a väčšou prispôsobivosťou.

Záver

Sora od OpenAI nie je len ďalším krokom v evolúcii AI; je to skok do nového vesmíru kreativity a možností. Aj keď sa stále objavujú otázky týkajúce sa etiky a spoločenských dôsledkov, potenciál Sory v oblastiach ako film, reklama a ďalšie kreatívne odvetvia je neobmedzený. Svet AI sa rýchlo vyvíja a Sora je na čele tohto pokroku, sľubujúc prekonať súčasné obmedzenia a otvoriť dvere do nových svetov predstavivosti.