

Il s'agit d'une application qui utilise la synchronisation labiale (lip-sync) de LTX2 pour générer des vidéos parlantes d'environ 10 secondes. Le modèle est encore en développement, donc même de légers décalages entraînent un échec immédiat — mais il est relativement stable par rapport aux autres, je le publie donc quand même. Si vous respectez les conditions ci-dessous, le taux de réussite s'améliore considérablement. 1. Utilisez une image en plan moyen (medium-shot) : de la taille vers le haut, avec le visage et les épaules bien visibles. Si l'image est trop éloignée ou montre tout le haut du corps à distance, le taux d'échec augmente considérablement. Pensez à une composition similaire à une photo de CV. 2. L'audio est actuellement limité à 10 secondes. Si vous souhaitez essayer un audio plus long, consultez la section LTX2 de mon workflow. L'audio est actuellement limité à 10 secondes. Si vous souhaitez essayer un audio plus long, consultez la section LTX2 de mon workflow.