Wan 2.7 评测:是被吹上天,还是 2026 年最值得关注的 AI 视频模型?
这一季度,只要聊到 AI 视频,最后几乎都会绕回同一个名字:Wan 2.7。
它也是 SeaArt AI 近期被点名最多、呼声最高的一款评测对象。我们之所以认真测试它,不只是因为发布声量大,更因为一个老问题一直没被真正解决:
大多数 AI 视频模型,仍然很难在两个镜头之间稳定保住同一个角色。Wan 2.7 这次真的不一样了吗?

为此,我们在 Plus 方案下跑了 50 多次完整生成,重点测试了开场镜头、角色一致性、动作控制、镜头语言以及音画同步等关键能力。结论先说:
Wan 2.7 真正的进步,不在于画面更"炫",而在于"可控性"显著提升。
你终于可以更明确地告诉模型:视频从哪里开始、到哪里结束、角色必须长什么样,而它也终于开始"听话"了。
Wan 2.7 是什么?
Wan 2.7 是阿里巴巴 Wan 视频生成系列的最新版本,于 2026 年 3 月底正式公开发布。
更早的 Wan 2.1 和 Wan 2.2 已经以 Apache 2.0 协议在 GitHub 开源,因此可以很方便地接入 ComfyUI 或做本地部署。至于 Wan 2.7 会不会延续这个路线,目前官方还没有明确确认。
从能力上看,Wan 2.7 支持:
- 文生视频
- 图生视频
- 原生音频生成
- 最高 1080p 分辨率
- 最长 15 秒视频输出
对于打算本地部署的团队来说,最关心的问题还是:开源权重什么时候放出?
按照 Wan 系列之前的节奏,比较可能的路径依然是:先云端上线,再在 4 到 8 周内开放权重。如果这个规律不变,那么大概率会落在 2026 年 Q2 中后段。具体时间仍建议关注官方 Wan-Video GitHub。
Wan 2.7 相比前代最核心的变化,不只是"画质更高",而是单次生成可接收的控制输入明显更多了。过去你只能给一段提示词和一张起始图,现在它还能接收:
- 起始帧 / 结束帧锚点
- 9 宫格多图参考
- 角色与声音参考
- 指令式视频编辑
这意味着它不只是一个"更强的生成器",而是逐渐变成了一个更接近真实制作流程的工具。
快速结论
| 项目 | 说明 |
|---|---|
| 适合谁 | 电影短片创作者、YouTuber、营销团队、代理机构 |
| 输出规格 | 1080p,最长 15 秒,自带原生音频 |
| 起步价格 | 约 10 美元,100 积分,积分不过期 |
| 免费试用 | 约 15 积分,无需绑卡 |
| 核心优势 | 首尾帧控制、9 宫格图生视频、角色+声音克隆、指令编辑 |
| 主要短板 | 学习成本偏高,物理运动真实感仍略逊于 Sora 2 |
Wan 2.7 为什么和别家不太一样?
Wan 系列底层采用的是 Diffusion Transformer(DiT) 架构,并结合 Full Attention 机制。简单说,它不是一帧一帧"拼视频",而是会在更完整的时空上下文里理解整段内容。
这也是为什么它在 15 秒以内的视频里,角色稳定性通常比早期扩散式视频模型更好,不容易出现"脸慢慢变了""衣服忽然换了"的问题。
Wan 2.7 延续了这套基础,但进一步增加了单次调用能够接收的信息量,比如:
- 9 张图组成的结构化参考网格
- 声音样本
- 起止帧定义
可控锚点越多,通常就意味着为了拿到可用结果,你需要反复重跑的次数越少。
相比 Wan 2.6,Wan 2.7 有哪五个关键提升?
从 2.6 到 2.7,不只是"清晰了一点",而是有几个对实际创作非常重要的升级。
1. 画面质感更锐利了
皮肤纹理、布料运动、光影渐变都更接近可商用的 1080p 标准。早期 Wan 模型有时会出现一种偏"游戏 CG"感的视觉质地,2.7 基本把这类问题压下去了不少。
2. 动作连贯性更好了
角色不那么容易飘,物体运动更稳定,快速动作也更抗崩。这个问题曾经是 Wan 2.5 和 2.6 被吐槽最多的点之一,而 2.7 的改善是能明显感知到的。
3. 原生音频终于更实用了
背景声、环境音、角色说话不再只是"后期再补",而是能从生成阶段就和画面一起出来。对于做过 AI 视频的人来说,这个升级非常务实,因为手动逐帧对音频真的很折磨。
4. 风格一致性更强
无论是电影写实风、动漫风,还是插画风,Wan 2.7 都比 2.6 更能稳定保持风格统一。对需要视觉识别度的账号内容、品牌内容来说,这一点很关键。
5. 时间维度的一致性更稳
脸部闪烁、衣服中途变样、镜头切换时人物轻微"变形"的情况都减少了。换句话说,它在"让同一个角色始终像同一个角色"这件事上,终于更靠谱了。
Wan 2.7 新增了哪些真正有用的能力?
这些能力基本就是很多创作者从 2.6 转向 2.7 的主要原因。
首尾帧控制
你可以给模型两张图:
- 第一张告诉它"视频开头应该长什么样"
- 第二张告诉它"视频结尾应该长什么样"
模型负责补完中间过程,同时尽量保证角色一致、动作自然、过渡顺畅。
这解决了 AI 视频里一个长期存在的痛点:你以前很难预判镜头最后会跑偏到哪里去。现在,至少起点和终点是可控的。
在 Wan 2.1 时代,首尾帧能力还是一个单独 checkpoint;到了 2.7,这个能力已经被整合进主模型,不需要来回切模型,工作流顺畅很多。
示例提示词参考:
角色参考图:@图片
起始帧:骑手骑着 Bajaj 摩托车从约 10 米外驶来
结束帧:骑手近在咫尺,右手抬起,正对镜头说话
单一连续镜头。摄像机保持静止,摩托车穿过孟买繁忙街道朝镜头驶来。两侧是殖民时代建筑,背景人群和车流虚化。骑手接近至特写距离时,抬起右手说:"Hello, my friend."
口型与对白同步。原生音频:街道噪声、引擎声、人群声,最后切换为清晰对白。
9 宫格图生视频
上传一个 3×3 的九宫格参考图,Wan 2.7 会把这 9 张图理解为连续场景,并生成一段带过渡的视频。
这个功能很适合:
- 分镜预演
- 概念视频拼接
- 多场景品牌短片
- 内容批量化制作
使用时几个实操建议:
- 九张图最好保持统一纵横比,不建议横图竖图混用,否则构图容易乱
- 图片默认按从左到右、从上到下的顺序读取,对应视频中的场景顺序
- 单张图分辨率太低(短边低于 512px)会明显影响成片细节
- 如果要接 API 自动化流程,上线前最好先确认接口参数格式
角色与声音参考克隆
上传一张角色参考图,再加一段短音频,Wan 2.7 就能同时模仿这个角色的外观和声音特征。
实际使用场景:
- 品牌吉祥物视频化
- 创作者不出镜批量做视频
- 企业代言人视频批量生产
- 虚拟人内容运营
Wan 2.6 也有类似能力,但通常需要走额外的模型或单独入口。2.7 把这部分整合得更完整,使用门槛低了不少。
指令式编辑
上传一段已有视频,然后直接告诉模型要改什么,比如:
- "把背景改成夜景"
- "把夹克换成红色"
- "把场景换成赛博朋克街头"
它会尽量在保留原视频主体结构的前提下完成修改。
这项能力目前也是最值得谨慎看待的:尤其当你改动的是会运动的元素,比如衣服、头发、手部动作时,时序一致性仍然可能出问题。现阶段看上去很有潜力,但如果要进正式生产流程,建议再观察一段社区实测反馈。
视频重建 / 重演绎
给它一段参考视频,再描述你想改什么(比如角色、风格、环境),它会尽量保留原视频的运动结构和镜头路径,只把视觉层重新生成。
适合以下用途:
- 热门短视频形式套品牌资产
- 真人实拍转动画风格
- 已有镜头做风格迁移
不过截至文章发布时,官方对这一能力的完整说明还不算充分,目前更适合把它视为"值得关注的实验功能",而不是已经完全成熟的标准能力。
三个典型场景:Wan 2.7 适合怎么用?
下面这三个场景,基本能反映 Wan 2.7 的优势边界和常见坑点。
场景一:多镜头下的角色 / 主体一致性
如果你要拍的是同一辆车、同一个角色,在不同镜头、不同光线里连续出现,Wan 2.7 的参考图机制确实有优势。
示例提示词结构:
角色参考图:@图片。在所有镜头中保持卡车型号、颜色和镀铬细节一致。
[00:00–00:05] 宽景追踪镜头——一辆复古福特皮卡在黄昏时分飞驰过沙漠公路,车后爆炸四起,导弹轨迹划过橙红色天空,后轮扬起漫天尘土。
[00:05–00:10] 切换至——正面镜头,卡车直冲镜头驶来,车灯大开,背景火球升腾,碎片四散飞溅。
[00:10–00:15] 最终镜头——低角度侧面视角,卡车在碎石上甩尾漂移,烟雾与火焰铺满地平线,镜头保持固定直到卡车驶出画面。
原生音频:引擎轰鸣、爆炸震动、碎石飞溅声。
它比较擅长做到:
- 车型不乱变,配色不漂,比例不跑
- 从侧面切到正面时仍能维持主体识别度
典型坑点:
高速动作 + 大面积运动模糊时,模型可能会把金属件、细节纹理简化掉。解决思路通常是在提示词里明确指定:
主体保持锐利清晰,运动模糊仅作用于背景
场景二:单镜头人物对白
如果你希望一个角色在连续镜头里走近镜头并开口说台词,Wan 2.7 的角色 + 声音参考能力是能用的。
示例提示词结构:
角色参考图:@图片 声音参考:@音频
单一连续镜头。一名女子站在雨夜屋顶边缘,背对镜头。城市霓虹灯倒映在身后混凝土地面的每一个水坑里。镜头在 8 秒内缓缓推向她的面部。在 00:06 时,她转过身——直视镜头——说:"You were never supposed to find me here."口型与对白同步。原生音频:混凝土上的雨声、远处的车流声,最后一句台词时切换为干净的独立对白音轨。时长 10 秒,1080p。
表现更好的条件:
- 角色参考图是正脸、光线均匀、五官细节清晰
- 台词不太长,语速自然(低于约 150 WPM)
最容易翻车的情况:
参考图阴影太重。一旦脸部本身被阴影遮住,人物转头或靠近镜头时细节就容易丢失。建议使用平光、正面的参考图。
关于音频同步:
- 短句对白效果更好,语速过快时容易对不上口型
- 多人同时说话会偏向保留一个主声源
- 音乐和对白同时存在时,音乐容易压住人声
正式交付前,最好还是留一道手动压混和修音的工序。
场景三:高动作场景里的原生音频同步
摩托车、追逐、快速切镜这类高动态场景,Wan 2.7 表现比很多人预期要好。
示例提示词结构:
一辆摩托车在夜间高速公路隧道中疾驰,排气管拖出火星。
[00:00–00:04] 后方追踪镜头,隧道灯光在头顶频闪,引擎轰鸣声渐强。
[00:04–00:08] 侧面环绕镜头,摩托车压弯急转,轮胎在湿润混凝土上发出尖锐摩擦声。
[00:08–00:12] 低角度正面镜头,车灯刺破黑暗,风声与机械声在此刻达到顶峰。
音频:摩托引擎轰鸣、轮胎摩擦声、隧道回声、随车速变化的风噪声。
它比较擅长做到:
实测表现:
- 引擎轰鸣能跟上速度变化
- 隧道回声这类环境感能自动补出来
- 风噪、摩擦声等整体氛围比较完整
不过也有瑕疵:
车辆过弯时,声音有时会比画面动作略微滞后。手机上未必明显,但放到桌面端时间线上就能看出来。
比较实际的评价: 原生音频已经能帮你完成 80% 到 90% 的工作,但最后那一点精修,仍然值得手动做。
价格贵不贵?
Wan 2.7 采用的是积分制计费,所有付费档都支持商业使用。
| 方案 | 价格 | 积分 | 每 5 秒视频大致成本 |
|---|---|---|---|
| 免费试用 | 0 美元 | 约 15 积分 | 免费 |
| Starter | 约 10 美元 | 100 积分 | 0.4 到 0.6 美元 |
| Basic / Plus | 约 30 到 50 美元 | 300 到 600 积分 | 0.4 到 0.6 美元 |
| Pro | 视量级而定 | 更高额度 | 单条成本更低 |
积分不过期是一个很实用的优势。很多 AI 视频产品按月清空额度,用不完就浪费;Wan 2.7 这套机制更适合非高频用户、项目制团队和代理公司。
一个真实项目,大概要烧多少积分?
一个 60 秒的品牌视频,通常会拆成 4 到 6 个镜头片段,每个片段大概 10 到 15 秒。每个片段单次生成约需 12 到 18 积分,再考虑每个镜头通常要重试 2 到 3 次才能挑出可用版本,最终预算大致落在:
每条 60 秒视频:75 到 150 积分
| 项目类型 | 预计片段数 | 预估积分(含重试) | Plus 方案下大致成本 |
|---|---|---|---|
| 单条 60 秒品牌视频 | 4 到 6 段 | 75 到 150 积分 | 约 6 到 13 美元 |
| 每月 4 条视频 | 16 到 24 段 | 300 到 600 积分 | 约 25 到 50 美元 |
| 代理公司每月 10 条 | 40 到 60 段 | 750 到 1500 积分 | 约 63 到 125 美元 |
Wan 2.7 真能打过 Sora 2 和 Kling 吗?
先给结论:看你更在意什么。
| 维度 | Wan 2.7 | Sora 2 | Kling 2.6 | Veo 3.1 |
|---|---|---|---|---|
| 分辨率 | 1080p | 1080p | 1080p | 1080p |
| 最长时长 | 15 秒 | 最长 20 秒 | 10 秒 | 8 秒 |
| 原生音频 | 支持 | 有限支持 | 支持 | 支持 |
| 首尾帧控制 | 支持 | 不支持 | 支持(参考视频方式) | 不支持 |
| 9 宫格多场景输入 | 支持 | 不支持 | 不支持 | 不支持 |
| 角色 + 声音克隆 | 支持 | 不支持 | 不支持 | 不支持 |
| 指令式编辑 | 支持 | 支持 | 不支持 | 有限支持 |
| 预期开源 | 有可能 | 否 | 否 | 否 |
| 积分是否过期 | 不过期 | 月度重置 | 月度重置 | 月度重置 |
| 起步价格 | 约 10 美元 | 20 美元/月 | 10 美元/月 | 不固定 |
| 物理运动真实感 | 良好 | 最强 | 很好 | 良好 |
| 易用性 | 学习门槛偏高 | 中等 | 最友好 | 中等 |
Wan 2.7 赢在哪里?
- 镜头控制更细,支持首尾帧锚定
- 多镜头角色一致性更强
- 原生音频输出更完整
- 积分不过期,对低频用户更友好
- 更适合有分镜、有角色设定的专业创作流程
竞品强在哪?
- Sora 2:高速运动、物理真实感场景仍然更强
- Kling:上手最简单,适合"一句提示词直接出片"的用户
- Veo 3.1:某些场景综合稳定性不错,但控制维度不如 Wan 2.7 丰富
如果你想横向对比这几款模型,可以直接在 SeaArt AI 模型库里切换使用,不用来回注册不同平台。
Wan 2.7 适合什么样的工作流?
适合你,如果你是:
- 需要多镜头连续叙事的创作者
- 做 YouTube、短剧、广告、品牌内容的团队
- 有角色设定、场景规划、镜头起止需求的制作方
- 想把 AI 视频纳入更专业制作流程的人
它的能力设计,本质上贴近真实制作逻辑:你有分镜、你有角色、你知道每个镜头从哪开始到哪结束。Wan 2.7 能顺着这个逻辑工作,而不是逼你把一切都赌在一段提示词上。
不太适合你,如果你:
- 只想一句话一键出片,不愿意花时间摸索工作流
- 主要做体育、极限运动、高物理真实感内容(Sora 2 更合适)
- 不愿意学习结构化提示词和参考图使用方式
Wan 2.7 不难用,但它确实不是"最省事"的那一个。
最终结论
如果你问:"Wan 2.7 是不是像一些标题党说的那样,已经强到要重新定义 AI 视频行业了?"
回答是:没那么夸张,但它确实是一次很实在的进步。
它不会取代审美,也不会自动帮你做决定。你给它的提示词含糊、参考图质量差,结果依然会很一般。它的上限很高,但对使用者的要求也不低。
Wan 2.7 真正有价值的地方,在于它把"想法"到"可看片段"之间的距离进一步压缩了。一个有明确分镜的个人创作者,现在确实更有机会独立做出:
- 多镜头连续视频
- 角色相对稳定的内容
- 带同步音频的完整片段
这已经是非常有分量的变化了。
一句话总结:
- 愿意学习结构化工作流的人,会觉得 Wan 2.7 值得投入
- 只想快速一键出片的人,Kling 这类工具依然更省心
- 极致物理真实感场景,Sora 2 仍然略占上风
最简单的判断方法也很直接:拿一个简单场景,先用 AI 视频生成器跑一次"首尾帧测试"。大多数人第一轮就能知道它适不适合自己的工作流。