Admite indicaciones en varios idiomas, puede generar audio de alta fidelidad, que cubre varios tipos, como voz humana, ASMR, efectos de sonido, música, etc., mejora significativamente la textura estética y la capacidad de seguir instrucciones complejas, y optimiza la consistencia de ID y la precisión de control del video generado a partir de imágenes. Elige la resolución libremente; cada resolución tiene un precio distinto.