Ltx2.3 說話與唱歌應用程式

1.5K

326

2026-05-15 06:36:41 更新

#Speech Synthesis #Video Generation

此應用使用 LTX2 的同步系統生成約 10 秒的說話短影片。該模型已停止開發，整體相對穩定，但在輸入條件不合適時仍可能失敗。遵循以下指南可大幅提升成功率。支援最長 30 秒音訊（受 Seaart 限制），但當影片長度超過 20 秒——特別是搭配背景音樂時——更容易出現動作重複。為獲得最佳效果，請使用主體臉部清晰可見、整體畫質銳利的圖片。提供關於預期動作的清晰指令，並在必要時以結構化提示格式標示節奏/時間點，也有助於提升一致性。LTX2 偶爾會在影片結尾加入視覺元素，因此請在提示詞末尾加入 'unprocessed footage' 或 'clean version' 以降低此情況。1）請使用中景/半身圖：從腰部以上，臉部與肩部清晰可見。若圖片過遠或從遠處呈現整個上半身，失敗率會大幅上升。可參考履歷照片的構圖。2）目前音訊長度限制為 10 秒。若想嘗試更長音訊，請查看我工作流程中的 LTX2 區段。目前音訊長度限制為 10 秒。若想嘗試更長音訊，請查看我工作流程中的 LTX2 區段。

評分與評論

4.8 /5

0 個評分

尚未收到足夠的評分或評論

暫無數據

KHL

863

167.5K