Společnost Google představila revoluční nástroj pro převod videa na zvuk pro svůj generátor umělé inteligence DeepMind. Zásadně mění způsob vytváření zvukových stop pro videa.
Nový nástroj je známý jako V2A (video to audio). Kombinuje pixely videa s textovými podněty v přirozeném jazyce a vytváří pohlcující zvukové scény, které dokonale ladí s děním na obrazovce. Tato inovace umožňuje synchronizaci audiovizuálních prvků, což zvyšuje celkový zážitek ze sledování.
Podle společnosti Google dokáže nástroj V2A generovat neomezené množství nápadů na zvukovou stopu, což vyhovuje široké škále tvůrčích možností. Spojením tohoto nástroje s modely pro generování videa, jako je Veo, mají nyní tvůrci možnost vytvářet dramatické zvukové stopy, které doplní jakoukoli scénu. Uživatelé mají navíc možnost zadávat podněty a editační ukazatele, které umělou inteligenci vedou při generování požadovaného zvukového výstupu.
We're sharing progress on our video-to-audio (V2A) generative technology. 🎥
— Google DeepMind (@GoogleDeepMind) June 17, 2024
It can add sound to silent clips that match the acoustics of the scene, accompany on-screen action, and more.
Here are 4 examples – turn your sound on. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
Absolutní flexibilita pro tvůrce
Technologie V2A otevírá tvůrcům obsahu svět možností a nabízí úplnou tvůrčí kontrolu nad procesem tvorby zvukové stopy. Uživatelé mohou nechat umělou inteligenci generovat zvukovou stopu na základě vizuálních vstupů a jazykových pokynů. Nebo mohou zvukovou stopu navrhnout sami. Tato flexibilita dává tvůrcům možnost přizpůsobit zvukové prvky svých videí tak, aby účinně odpovídaly tónu a tempu vyprávění.
Společnost Google předvedla působivé příklady nástroje V2A v akci. Včetně zvukové stopy ve westernovém stylu doprovázející kovboje jedoucího na koni a divokého vlka vyjícího na měsíc. Schopnost nástroje vylepšovat různé typy záběrů, jako jsou archivní materiály a němé filmy, dokazuje jeho všestrannost a přizpůsobivost. Generováním zvukových stop, které plynule spolupracují s dialogy postav a tónovými prvky, pomáhá nástroj V2A vytvořit správnou zvukovou atmosféru pro každou scénu.
Společnost Google pokračuje ve zdokonalování své sady poskytovatelů obsahu generovaného umělou inteligencí. Nadále se snaží zvyšovat kvalitu a výkonnost svých technologií. Uvědomuje si, že je důležité řešit problémy, jako jsou artefakty na vstupu videa a zlepšení synchronizace rtů u videí zahrnujících řeč. Neustálým vývojem a aktualizací svých nástrojů umělé inteligence chce Google poskytovat špičková řešení, která splňují vyvíjející se potřeby tvůrců obsahu i diváků.