Поддерживает многоязычные подсказки, может генерировать высококачественный звук, охватывающий различные типы, такие как человеческий голос, ASMR, звуковые эффекты, музыка и т. д., значительно улучшает эстетическое качество и способность следовать сложным инструкциям, а также оптимизирует согласованность идентификаторов и точность управления при создании видео из изображений. Свободно выбирайте разрешение: у каждого разрешения своя цена.