


此應用使用 LTX2 的同步系統生成約 10 秒的說話短影片。該模型已停止開發,整體相對穩定,但在輸入條件不合適時仍可能失敗。遵循以下指南可大幅提升成功率。支援最長 30 秒音訊(受 Seaart 限制),但當影片長度超過 20 秒——特別是搭配背景音樂時——更容易出現動作重複。為獲得最佳效果,請使用主體臉部清晰可見、整體畫質銳利的圖片。提供關於預期動作的清晰指令,並在必要時以結構化提示格式標示節奏/時間點,也有助於提升一致性。LTX2 偶爾會在影片結尾加入視覺元素,因此請在提示詞末尾加入 'unprocessed footage' 或 'clean version' 以降低此情況。1)請使用中景/半身圖:從腰部以上,臉部與肩部清晰可見。若圖片過遠或從遠處呈現整個上半身,失敗率會大幅上升。可參考履歷照片的構圖。2)目前音訊長度限制為 10 秒。若想嘗試更長音訊,請查看我工作流程中的 LTX2 區段。目前音訊長度限制為 10 秒。若想嘗試更長音訊,請查看我工作流程中的 LTX2 區段。