Stable Video Diffusion en RunwayML

Dit zijn allebei concurrerende modellen die specialiseren in image to video. De grote verschillen is dat Stable Video Diffusion de mogelijkheid heeft om lokaal te renderen, terwijl RunwayML volledig cloud based is. Dit is ook een nadeel van RunwayML: je hebt maar een beperkt aantal credits om video te genereren. RunwayML kan wel beter bepaalde camerabewegingen nabootsen, heeft een relatief meer frames per seconde en heeft de mogelijkheid om langere videofragmenten te maken. Stable Video Diffusion geeft op de manier waarop ik het gebruikt heb veel minder controle. Je kan kiezen hoeveel frames het programma maakt en hoeveel beweging erin moet zitten, maar dat is het wel ongeveer. De input bestaat uit de door DALL·E 3 gegenereerde plaatjes.

RunwayML doet ongeveer 60 tot 100 seconden over het maken van een video. Stable Video Diffusion doet over een vergelijkbare video van 4 seconden met gelijke frames per seconden ongeveer 300 seconden. Dit is gelimiteerd door mijn hardware, aangezien mijn GPU constant op 100% draaide. Veel sneller zal het op consumenten hardware niet renderen: op dit moment zijn er niet veel snellere GPU’s op de markt dan een RTX 4080. Om lang wachten deels tegen te gaan heb ik sommige fragmenten in de nacht laten renderen en bij andere plaatjes voor een lagere framerate of duur gekozen.

Input

Input

SVD

RunwayML