炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解

用户头像
昆明/教育工作者/186天前/5079浏览
炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解
大家好,我是黄彬,一个AI新技术的探索者。
感谢大家的支持与关注。我将持续与大家分享AI各领域的知识与心得!文章涉及到的模型与工作流,请关注后在私信“wan”获取。
ComfyUI 官方宣布原生支持了Wan2.2 首尾帧视频生成,那今天我就来给大家介绍一下Wan2.2。
炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解(图ZMTUyNDUwNjQ=) - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL
Collect
一、Wan2.2简介
Wan 2.2是阿里云团队在7月28日发布的最新一代AI多模态视频生成模型,该模型遵循Apache 2.0协议下完全开源,支持
商业使用
。我们先看下我模仿藏师傅爆火的壁纸做的 
“大展宏图”
 视频。
Current Time 0:00
/
Duration Time 0:00
Progress: NaN%
Playback Rate
1.00x
Wan2.1在ComfyUI等开源社区的努力下,不仅成为了最强开源视频模型,还开发出很多新玩法,如:视频转绘、数字人、制作单帧图片等等。这次发布的Wan2.2比起2.1又有了大幅提升,等相关生态完善后,完全可以媲美商业模型。
Wan 2.2 模型特点
  • • 
    MOE 专家模型架构
     :模型由2个高低噪声专家模型构成,
    高噪声专家
    处理整体布局,
    低噪声专家
    细化细节。
  • • 
    电影美学控制
     :支持使用专业摄像语言,对画面进行精细化控制。同时在wan2.1基础上大量增加了训练数据,图像数据增加了65.6%、视频数据增加83.2%,支持对光照、色彩和构图等多维视觉控制。
  • • 
    大规模复杂运动
     :可以流畅地再现各种复杂运动,对人物肢体、面部情绪和大范围动态都能稳定生成,提升动作的可控性和自然度。
  • • 
    提示词精准遵循
     :可以理解更复杂场景,同时生成多个物体,在互动和复杂空间有了更佳的准确性,可以更好地恢复创作意图。
  • • 
    高效压缩技术
     :新推出5B版的TI2V(文字&图像生成视频)模型,采用高压缩率 VAE 并优化 VRAM 使用,能在
    低显存显卡
    上运行(目前8G显存就能运行)。
二、模型本地安装与使用
推荐环境:ComfyUI升级到最新版,到文末网盘下载对应模型和我修改过的工作流使用。
因为模型架构的改变,所以本次Wan2.2模型种类有点多,“黄老师”顺便给大家普及一下整个Wan的模型生态:
炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解(图ZMTUyNDUwNjg=) - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL
Collect
名词小课堂:
1.t2v和i2v是文字生成视频(text to video)和图片生成视频(image to video)的简称。2.B是模型参数量,1B代表十亿(billion),所以14B就代表140亿参数。3.fp16和fp8指的是模型精度,fp16是全精度模型,效果最好,容量也最大。fp8是半精度模型,在确保效果损失不大的前提下,容量减少到一半。4.模型容量≈显存需求,单个28.6G模型大概需要30G显存,所以fp16模型消费级显卡是无法运行的。
1.文图生视频模型(ti2v_5B)
和生图模型一样,一个模型就能实现文生视频与图生视频功能,是目前速度最快的720P@24fps模型之一,并且进行了高效压缩,本地12G左右显存就可以很好运行。
wan2.2_ti2v_5B_fp16 这个就是ti2v_5B模型,容量10G,12G显存可以运行(8G显卡怎么跑?后续会讲)。当然,因为模型使用了高度压缩,所以质量一般。
5B文图生视频结构
文本编码器可以用wan2.1一样的,VAE要用wan2.2专用的
ComfyUI/
├── models/
│   ├── diffusion_models/
│   │        └── wan2.2_ti2v_5B_fp16.safetensors
│   ├── text_encoders/
│   │       └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│   ├── vae/
│   │       └── wan2.2_vae.safetensors
2.文生视频模型
文生视频-A14B 模型支持生成时长为5秒、分辨率为480P和720P的视频。因为采用了混合专家架构,所以必须下载2个模型:高噪声专家模型 — wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors低噪声专家模型 —wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors但哪怕是fp8精度,1个模型14.3G,2个模型一起运行也需要30G左右的显存,所以本地也是没办法跑的。(下面会讲解本地如何运行)
14B文生视频结构
文本编码器和VAE都可以用wan2.1的,不用另外下
ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   ├──  wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   │   └──  wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   ├── text_encoders/
│   │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│   ├── vae/
│   │   └── wan2.1_vae.safetensors
跑车奔驰在赛场
Current Time 0:00
/
Duration Time 0:00
Progress: NaN%
Playback Rate
1.00x
3.图生视频模型
文生视频-A14B 模型支持480P和720P两种分辨率视频。实现了更合理稳定的视频生成。同样采用混合专家架构,必须下载2个模型:高噪声专家模型 — wan2.2_i2v_high_noise_14B_fp8_scaled低噪声专家模型 —wan2.2_i2v_low_noise_14B_fp8_scaled
14B图生视频结构
文本编码器和VAE都可以用wan2.1的,不用另外下
ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   ├──  wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
│   │   └──  wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
│   ├── text_encoders/
│   │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│   ├── vae/│   │
  └── wan2.1_vae.safetensors
双手捧起水,水从手中流下
Current Time 0:00
/
Duration Time 0:00
Progress: NaN%
Playback Rate
1.00x
同样,消费级显卡也很难运行14B_fp8的wan2.2模型。因此,可以选择用云端来运行。
推荐大家使用RH在线体验,注册绑定我账号
免费赠送1000积分
(当然我也能得1000积分),每天还送100积分,够体验一段时间了:https://www.runninghub.cn/?inviteCode=116b720f 邀请码:116b720f
4.GGUF量化模型
当然,如果你就是想本地运行,我们也可以通过使用GGUF量化模型+KJ工作流来尝试。
名词小课堂:
1.GGUF是一种高效的模型存储格式,通过量化方式,把原来的模型权重压缩到更低,从而降低显存需求。2.KJ:ComfyUI社区的大神级开发者,也是许多高质量自定义节点和模型的作者(如:SUPIR、KJNodes)。他开发的WanVideoWrapper节点,比官方节点能支持更多模型与功能,能在降低显存的同时,加快视频生成速度。
不同量化程度对应不同模型大小,越小质量越差,对显存要求也越低。ti2v_5B是压缩模型,只需要1个模型,所以理论上8G显存就能运行量化版。
Wan2.2是MOE架构,需要2个专家模型,所以理论上显存要求≈单模型显存需求*1.5。
炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解(图ZMTUyNDUwNzI=) - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL
Collect
5.加速Lora
在Wan2.1时代,开源社区涌现出了很多非常好用的Lora,在Wan2.2上也能继续使用,可以通过它们来提升视频生成速度与效果。
LightX2V 加速Lora
:这是一个加速Lora,类似SD的trubo Lora,能使用4~6步就生成视频。同样也有t2v和i2v以及量化版本。量化主要看文件名中rank后面的数值(影响显存和运行速度),最大128,最小8,一般建议选择rank64(线上)或者rank32(本地)。
文生视频:
Lightx2v_T2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
图生视频:
Lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
在线体验
是不是看到上面这一堆不同功能不同型号的模型都晕了?本地我实测下来,16G显卡,使用KJ工作流和14B GGUF Q4量化模型,生成6秒视频(上面的大展宏图)用了5分钟左右。而线上用RH的话,14B_fp8模型2分钟左右,优势还是很明显的。 如果硬件达不到,或者懒得自己折腾的,可以直接使用下面工作流在线使用:
Wan2.2 加速文生视频【8步】
工作流:Wan2.2_14B_文生视频 (8步加速) + 提示词扩写 体验地址:https://www.runninghub.cn/post/1952277100332003330/?inviteCode=116b720f
炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解(图ZMTUyNDUwODA=) - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL
Collect
Wan2.2 加速图生视频【8步】
工作流:Wan2.2_14B_图生视频 (8步加速) + 提示词扩写体验地址:https://www.runninghub.cn/post/1952277132212948994/?inviteCode=116b720f
炸裂!Wan2.2史诗更新,开源视频模型GPT时刻到来,最强开源AI视频模型入门级讲解(图ZMTUyNDUwODQ=) - 教程 - 站酷设计师黄彬AIGC原创素材 - 站酷ZCOOL
Collect
总结
快速掌握一个新模型的使用,是AI时代的必备能力。
Wan2.2不论从美学、动态、复杂的运动和运镜比起2.1都更加优秀,甚至有了和闭源模型掰一掰手腕的能力,后续在开源社区的支持下,一定会涌现出更多好用、实用的功能!我也会继续和大家分享更多的知识与技巧。
这就是今天教程的全部内容了,如果觉得内容有帮助的话,快去试试吧,希望评论区能看到你的作品,
别忘了点赞支持!
我是黄彬,一个陪你玩转AI新工具的探索者。我们下期再见!
36
Report
|
16
Share
相关推荐
评论
用户头像
in to comment
Add emoji
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
推荐素材
You may like
相关收藏夹
大家都在看
Log in