

這是一個使用 LTX2 嘴型同步技術產生約 10 秒說話影片的應用程式。此模型仍在開發中,即使是很小的偏差也會導致失敗,但與其他模型相比相對穩定,因此我還是發布了它。若遵循以下條件,成功率將顯著提升。 1. 使用中景照片:腰部以上,臉部與肩膀清晰可見。若圖片太遠或從遠處顯示整個上半身,失敗率會大幅增加。請參考類似履歷照片的構圖。 2. 音訊目前限制在 10 秒內。若您想嘗試更長的音訊,請查看我工作流中的 LTX2 部分。 音訊目前限制在 10 秒內。若您想嘗試更長的音訊,請查看我工作流中的 LTX2 部分。