炸裂！Wan2.2史诗更新，开源视频模型GPT时刻到来，最强开源AI视频模型入门级讲解

黄彬AIGC

昆明/教育工作者/186天前/5079浏览

版权

炸裂！Wan2.2史诗更新，开源视频模型GPT时刻到来，最强开源AI视频模型入门级讲解

黄彬AIGC

大家好，我是黄彬，一个AI新技术的探索者。

感谢大家的支持与关注。我将持续与大家分享AI各领域的知识与心得！文章涉及到的模型与工作流，请关注后在私信“wan”获取。

ComfyUI 官方宣布原生支持了Wan2.2 首尾帧视频生成，那今天我就来给大家介绍一下Wan2.2。

炸裂！Wan2.2史诗更新，开源视频模型GPT时刻到来，最强开源AI视频模型入门级讲解（图ZMTUyNDUwNjQ=） - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL

Collect

一、Wan2.2简介

Wan 2.2是阿里云团队在7月28日发布的最新一代AI多模态视频生成模型，该模型遵循Apache 2.0协议下完全开源，支持

商业使用

。我们先看下我模仿藏师傅爆火的壁纸做的

“大展宏图”

视频。

Current Time 0:00

Duration Time 0:00

Progress: NaN%

Wan2.1在ComfyUI等开源社区的努力下，不仅成为了最强开源视频模型，还开发出很多新玩法，如：视频转绘、数字人、制作单帧图片等等。这次发布的Wan2.2比起2.1又有了大幅提升，等相关生态完善后，完全可以媲美商业模型。

Wan 2.2 模型特点

•
MOE 专家模型架构
：模型由2个高低噪声专家模型构成，
高噪声专家
处理整体布局，
低噪声专家
细化细节。
•
电影美学控制
：支持使用专业摄像语言，对画面进行精细化控制。同时在wan2.1基础上大量增加了训练数据，图像数据增加了65.6%、视频数据增加83.2%，支持对光照、色彩和构图等多维视觉控制。
•
大规模复杂运动
：可以流畅地再现各种复杂运动，对人物肢体、面部情绪和大范围动态都能稳定生成，提升动作的可控性和自然度。
•
提示词精准遵循
：可以理解更复杂场景，同时生成多个物体，在互动和复杂空间有了更佳的准确性，可以更好地恢复创作意图。
•
高效压缩技术
：新推出5B版的TI2V（文字&图像生成视频）模型，采用高压缩率 VAE 并优化 VRAM 使用，能在
低显存显卡
上运行（目前8G显存就能运行）。

二、模型本地安装与使用

推荐环境：ComfyUI升级到最新版，到文末网盘下载对应模型和我修改过的工作流使用。

因为模型架构的改变，所以本次Wan2.2模型种类有点多，“黄老师”顺便给大家普及一下整个Wan的模型生态：

炸裂！Wan2.2史诗更新，开源视频模型GPT时刻到来，最强开源AI视频模型入门级讲解（图ZMTUyNDUwNjg=） - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL

Collect

名词小课堂：
1.t2v和i2v是文字生成视频(text to video)和图片生成视频(image to video)的简称。2.B是模型参数量，1B代表十亿(billion)，所以14B就代表140亿参数。3.fp16和fp8指的是模型精度，fp16是全精度模型，效果最好，容量也最大。fp8是半精度模型，在确保效果损失不大的前提下，容量减少到一半。4.模型容量≈显存需求，单个28.6G模型大概需要30G显存，所以fp16模型消费级显卡是无法运行的。

1.文图生视频模型（ti2v_5B）

和生图模型一样，一个模型就能实现文生视频与图生视频功能，是目前速度最快的720P@24fps模型之一，并且进行了高效压缩，本地12G左右显存就可以很好运行。

wan2.2_ti2v_5B_fp16 这个就是ti2v_5B模型，容量10G，12G显存可以运行（8G显卡怎么跑？后续会讲）。当然，因为模型使用了高度压缩，所以质量一般。

5B文图生视频结构

文本编码器可以用wan2.1一样的，VAE要用wan2.2专用的

ComfyUI/

├── models/

│ ├── diffusion_models/

│ │ └── wan2.2_ti2v_5B_fp16.safetensors

│ ├── text_encoders/

│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors

│ ├── vae/

│ │ └── wan2.2_vae.safetensors

2.文生视频模型

文生视频-A14B 模型支持生成时长为5秒、分辨率为480P和720P的视频。因为采用了混合专家架构，所以必须下载2个模型：高噪声专家模型 — wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors低噪声专家模型 —wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors但哪怕是fp8精度，1个模型14.3G，2个模型一起运行也需要30G左右的显存，所以本地也是没办法跑的。（下面会讲解本地如何运行）

14B文生视频结构

文本编码器和VAE都可以用wan2.1的，不用另外下

ComfyUI/

├── models/

│ ├── diffusion_models/

│ │ ├── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors

│ │ └── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors

│ ├── text_encoders/

│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors

│ ├── vae/

│ │ └── wan2.1_vae.safetensors

跑车奔驰在赛场

Current Time 0:00

Duration Time 0:00

Progress: NaN%

3.图生视频模型

文生视频-A14B 模型支持480P和720P两种分辨率视频。实现了更合理稳定的视频生成。同样采用混合专家架构，必须下载2个模型：高噪声专家模型 — wan2.2_i2v_high_noise_14B_fp8_scaled低噪声专家模型 —wan2.2_i2v_low_noise_14B_fp8_scaled

14B图生视频结构

文本编码器和VAE都可以用wan2.1的，不用另外下

ComfyUI/

├── models/

│ ├── diffusion_models/

│ │ ├── wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors

│ │ └── wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors

│ ├── text_encoders/

│ │ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors

│ ├── vae/│ │

└── wan2.1_vae.safetensors

双手捧起水，水从手中流下

Current Time 0:00

Duration Time 0:00

Progress: NaN%

同样，消费级显卡也很难运行14B_fp8的wan2.2模型。因此，可以选择用云端来运行。

推荐大家使用RH在线体验，注册绑定我账号

免费赠送1000积分

（当然我也能得1000积分），每天还送100积分，够体验一段时间了：https://www.runninghub.cn/?inviteCode=116b720f 邀请码：116b720f

4.GGUF量化模型

当然，如果你就是想本地运行，我们也可以通过使用GGUF量化模型+KJ工作流来尝试。

名词小课堂：
1.GGUF是一种高效的模型存储格式，通过量化方式，把原来的模型权重压缩到更低，从而降低显存需求。2.KJ：ComfyUI社区的大神级开发者，也是许多高质量自定义节点和模型的作者（如：SUPIR、KJNodes）。他开发的WanVideoWrapper节点，比官方节点能支持更多模型与功能，能在降低显存的同时，加快视频生成速度。

不同量化程度对应不同模型大小，越小质量越差，对显存要求也越低。ti2v_5B是压缩模型，只需要1个模型，所以理论上8G显存就能运行量化版。

Wan2.2是MOE架构，需要2个专家模型，所以理论上显存要求≈单模型显存需求*1.5。

炸裂！Wan2.2史诗更新，开源视频模型GPT时刻到来，最强开源AI视频模型入门级讲解（图ZMTUyNDUwNzI=） - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL

Collect

5.加速Lora

在Wan2.1时代，开源社区涌现出了很多非常好用的Lora，在Wan2.2上也能继续使用，可以通过它们来提升视频生成速度与效果。

LightX2V 加速Lora

：这是一个加速Lora，类似SD的trubo Lora，能使用4~6步就生成视频。同样也有t2v和i2v以及量化版本。量化主要看文件名中rank后面的数值（影响显存和运行速度），最大128，最小8，一般建议选择rank64（线上）或者rank32（本地）。

文生视频：

Lightx2v_T2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors

图生视频：

Lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors

在线体验

是不是看到上面这一堆不同功能不同型号的模型都晕了？本地我实测下来，16G显卡，使用KJ工作流和14B GGUF Q4量化模型，生成6秒视频（上面的大展宏图）用了5分钟左右。而线上用RH的话，14B_fp8模型2分钟左右，优势还是很明显的。如果硬件达不到，或者懒得自己折腾的，可以直接使用下面工作流在线使用：

Wan2.2 加速文生视频【8步】

工作流：Wan2.2_14B_文生视频 (8步加速) + 提示词扩写体验地址：https://www.runninghub.cn/post/1952277100332003330/?inviteCode=116b720f