La imagen de objeto 1 se fusiona con la imagen de objeto 2
La imagen de objeto 3 se convertirá de imagen a video con un prompt simple, adecuado para escenas de acción
Resolución predeterminada: 768. Para mejor calidad en menos de 10 minutos, usa 832
La salida incluye imagen y video