当胖橘遇上AI魔法-0基础搞定AI短视频制作全流程

杭州/设计爱好者/126天前/252浏览

版权

俗话说“十个橘猫九个胖，还有一个压倒炕”。胖橘在养猫人士心中的地位那可是“沉甸甸”的呐～软乎乎的橘毛团子 + 圆滚滚的米其林肚皮，这谁看了不疯狂心动想猛rua？最近 AI视频风刮得比台风还猛，当胖橘碰上黑科技 AI 视频平台，又会碰撞出怎样的火花？今天就拿网上爆火的胖橘小故事开刀，实测国内顶流 AI 视频平台即梦和可灵！ps：本次创作全程未使用 PS 等传统设计软件，从 prompt 的构思生成，到最终成片的呈现，均由 AI 独立完成（当然，视频剪辑和内容生成过程中根据 AI 返回结果进行了人为调优，以达到最佳效果）。话不多说，先呈上最终的视频效果！

Current Time 0:00

Duration Time 0:00

Progress: NaN%

1、国内 AI 视频平台发展现状：即梦与可灵的角力

在 AIGC（人工智能生成内容）蓬勃发展的当下，国内 AI 视频领域竞争愈发激烈。即梦和可灵作为其中的佼佼者，凭借各自的优势脱颖而出。二者都致力于降低视频创作门槛，让普通用户也能轻松产出高质量的视频内容，但在具体功能和使用体验上，又各有千秋。

即梦凭借强大的中文解析能力，能快速理解创作意图，生成视频的速度优势明显，且本土化功能丰富，还可无缝接入自家剪辑软件产品“剪映”中，极大提升创作效率。

可灵则以 1080P 电影级质感画面、优秀的细节与物理仿真、丰富创意工具及视频的多模态编辑（支持替换、增加、删除视频内元素）吸引了众多用户。

2、从构思到成片：AI 视频创作全流程解析

2.1故事构思：Ai生成故事和分镜图

一个精彩的视频离不开优质的故事。我们借助豆包强大的 AI 能力，先让它多生成几个充满创意的故事脚本（我这里是一次性生成10个，帮我打开思路），先找到一个自己喜欢的主题。

用AI获取灵感

Collect

在豆包给我的10个初始故事中，“小猫偷鱼” 就像自带发光特效，一下子戳中了我的创作 DNA，果断拍板定为本次视频的 “灵魂剧本”！

故事主题定好后，再次向豆包发起新任务 —— 把文字故事变成有画面感的分镜脚本。一开始，豆包默认生成了同时包含中英文的咒语给我（人家也是好心，怕我们看不懂，让中英文对照着看）。

用AI生成故事分镜

Collect

不过，我们后续要使用的即梦和可灵是国产 AI 平台，特色就是“强大的中文解析能力”，是用不到英文prompt的。并且双语内容以表格形式呈现，存在信息冗余、阅读不便的问题。

AI生成的故事分镜和prompt

Collect

因此，我重新调整指令，明确要求豆包 “不需要英文咒语”！经过优化，最终获得了精简且专业的分镜方案，完整涵盖分镜编号、场景描述、角色动作、画面风格及镜头语言等要素，为后续 AI 生成环节奠定了精准的创作基础。

AI整理后的分镜和中文咒语

Collect

2.2文生图：按分镜制作关键帧画面

文生图是视频创作的重要基础，其质量直接影响后续图生视频的效果。务必严格按照脚本分镜的要求，细致地描述画面内容，再通过调整关键词和参数，筛选出最满意的静态图，以此保障后续图生视频时画面内容的可控性。画面才不会跑偏，能和预想的一样。

我们可以先用一个简单案例测试一下这两个平台文生图的质量。

可以看到，虽然输入了同样的咒语，但最终得到的图片效果差异还是蛮大的。我特意写了在环境、天气和时间线上逻辑相冲突的一段话，看看它们各自是如何处理。因为本次就是要生成猫咪视频，所以测试图也用动物案例。我家刚好有只蓝白英短大肥猫，就先拿它开刀！

咒语：电影特效、光效、比例 9:16 ，阳光明媚的天气，一只灰白英短，圆圆的脸一双大大的眼睛，骑着绿色的三轮车，买菜和肉回家。一开始嘴巴张得很大，开心地笑着。突然它摔倒了，东西散落了一地，它摔倒的动作很滑稽，流着眼泪，嘴巴张开大哭，可怜的表情。天气也从晴天变成了阴雨天，配合此时此刻倒霉的故事。表情拟人化，动作拟人化。

文生图效果对比：即梦

Collect

文生图效果对比：可灵

Collect

可以看到，对于主体蓝白英短猫咪的绘制，即梦明显更准确。可灵可能是可图1.5模型训练的泛化性不足问题，画不出咱们常见的蓝白英短。中文咒语提到的元素内容，即梦都呈现的不错，“买菜和肉回家”的内容它自由发挥，展示出放进了纸袋被斜挎在猫咪身上的情景。而可灵的画面细节就没有那么丰富。风格上，我也更倾向于即梦，明亮，饱和度高。这样做出的视频更容易受大众喜爱。

所以决定本次的分镜图都来用即梦生成。（也有可能是我用的可图1.5在本次主题上呈现的效果不理想，大家做之前还是需要测试一下不同平台与自身风格的匹配度哦～）

好啦，转入正题。开始“分镜1：超市张望”的文生图制作：

输入中文咒语：“超逼真拟人化橘猫，肉垫扒门框，超市冷柜鱼腥味氛围，8k 分辨率，超写实毛发，电影级调色，冷色调灯光，监控探头反光，真实玻璃质感”。得到4张图。主角、场景、动作、色调都还不错。但是，别忘了，橘猫要胖才更可爱呀～

Collect

于是，增加“橘猫很胖，很可爱”在咒语段落靠前面的位置，这样可以提升这段文字的权重，增加模型生成胖猫的概率。果然，同样的场景下，猫变胖了。这里注意后期如果需要固定主角形象，每个分镜描述文案都不要忘了“胖”字。当然，如果想创造一个更加有独特性和辨识度的形象，可以增加对主角形象的描述，例如：描述眼球颜色，特殊毛色花纹等等...当然这样也会增加模型输出的难度和生图的效率。想得到独特性的形象，需要花时间抽卡。

Collect

例如，分镜4的情节中，我需要一个长得像黑猫警长一样八字脸毛色的警察猫来抓铺，在不断调整咒语描述的同时，通过多轮抽卡，才得到了想要的形象。

一开始，我输入关键词 “拟人化警察猫”，但 AI 模型输出的 4 张图片均呈现真人警察形象，未能识别 “拟人化” 与 “猫” 的核心要素。

生成警察猫咒语方案1

Collect

为修正这一偏差，再次细化指令为 “超逼真拟人化的黑加白颜色的警察猫”，可以看到此次虽成功生成拟人化的猫警察，但画面中的猫全部为纯黑色。而且通过观察输出结果，我推测模型将 “黑加白颜色的” 进行了歧义分词处理，导致理解偏差，最终还生成了纯黑、纯白及黑白色调的警车画面。

生成警察猫咒语方案2

Collect

针对这一问题，我调整表述为 “超逼真拟人化的黑白颜色的警察猫”，通过消除歧义表述，最终获得符合预期的拟人化黑白配色警察猫形象。后续通过多次图生操作，筛选出形象设计与构图俱佳的图片，完成该分镜画面的创作。

生成警察猫咒语方案3

Collect

按照以上方法，分别制作好其它7个分镜的图片。这里我根据短视频剪辑的特色，在AI生成的分镜脚本基础上，在分镜1后又增加了同场景另一视角的分镜2图片。因为考虑到短视频推流逻辑中的“2s退出率”，如果在视频的前2s，画面呈现内容太单一，没有抓住用户眼球，那么很大可能性会导致他们无情滑走。所以前期我们镜头素材要准备的充足一些。同场景多镜头也能快速交代故事背景，提升内容的丰富程度～

视频分镜

Collect

在筛选分镜图片时，除了确保主角形象统一、画面风格协调外，还需考量镜头间的空间连贯性与逻辑合理性。前后镜头的空间布局应保持自然衔接，避免场景断层。

例如，当确定分镜 7 为交代空间关系的关键帧（画面中橘猫蜷卧于床边，床体紧贴墙面，背景为素色墙壁）后，后续分镜 8 的选图也需严格遵循这一空间设定，确保橘猫活动场景与前序画面中的空间要素保持一致，从而为观众营造出流畅、真实的视觉体验。

选择合适的图片作为分镜关键帧

Collect

2.3图生视频：从静态到动态的视觉跃迁

图生视频是将静态画面赋予生命的关键环节，其效果直接决定着视频最终呈现的流畅度与表现力。在这个阶段，我们依靠文生图环节产出的优质关键帧，通过编写咒语与画面运动参数，将单帧画面转化为连贯的动态影像。同时，不同平台在图生视频的处理逻辑与渲染能力上存在显著差异，选择适配的平台能大幅提升创作效率与成片质量。

为了直观感受即梦与可灵在图生视频方面的表现，我们依然通过相同咒语+垫图的方式，测试一下它们各自的优劣。

测试还是选取文生图环节中 “灰白英短骑车摔倒” 的案例。在输入相同的中文咒语和视频首帧图后，两个平台展现出截然不同的特性。

Current Time 0:00

Duration Time 0:00

Progress: NaN%

在生成速度上：

即梦凭借其优化的视频合成算法，在生成速度上展现出压倒性优势，平均耗时1-2分钟便可输出一段5s的视频片段。而可灵生成同样一段5s的视频，在渲染速度上稍逊一筹，平均需要5分钟左右。

在画面质量上：

可灵生成的画面自然流畅，但在复杂动态细节的呈现上稍显不足（英短摔倒时的肢体扭转细节上，存在动作僵硬的现象）。而可灵却擅长捕捉细腻的动态画面，在动作的流畅度与画面张力表现上更出色（在动态场景切换与猫咪丰富细腻的表情转换中都呈现出极高的真实感）。

此外，可灵还提供视频首尾帧、视频多模态编辑（替换元素、增加元素、删除元素）等高级功能。打破传统单一文本输入的局限，允许用户融合文字、图片、视频片段等多模态信息，向 AI 精准传达复杂创意。为创作者带来前所未有的创作自由度与高效体验。

在成本和稳定性上

：即梦和可灵各有优劣。即梦以低成本、高速度为优势，免费用户有每日额度，基础会员生成 5 秒视频仅需约 2 毛钱，1-2 分钟左右即可完成，能满足高频创作需求，部分模型（如 S2.0 Pro）画面稳定，但复杂场景下存在稳定性隐患；可灵定位高端，仅赠送初始灵感值，生成 5 秒视频大概需要1块钱，速度较慢，即便会员生成也需十几分钟（非会员的我就遇到过生成一个5s视频等待3小时以上的情况😭），不过它画面稳定性强、动态捕捉出色，偶尔会出现生成效果与预期偏差的情况。

综上，结合两个平台各自的特色，本次需要画面张力的分镜（例如分镜3、4、5、8）使用可灵，常规画面（分镜1、2、6、7）使用即梦来提升制作效率。

2.4视频剪辑：让作品 “活” 起来

视频剪辑作为 AI 视频创作的收官环节，是将零散素材转化为完整叙事的核心步骤。需要我们对镜头语言、节奏把控具备基础认知，还需掌握逻辑串联与情感渲染的技巧。虽然前期素材生成已具备一定逻辑性，但仍需通过剪辑优化画面连贯性，增强视听表现力。无论是调整画面色调统一风格，还是通过剪辑弥补 AI 生成时的细节瑕疵，都需要先理解剪辑的基本原理。（其实现在也有用AI辅助剪辑的案例，本次先不做细节讨论）

2.4.1粗剪：视频画面筛选

在众多生成的视频画面中，挑选出风格统一、情节连贯的片段至关重要。我们需要根据故事的节奏和情感基调，筛选出能够准确传达内容的画面，剔除模糊、突兀或与主题不符的镜头。

2.4.2精剪：画面故事衔接

视频画面的衔接节奏，直接关乎观众的沉浸体验。为确保叙事流畅自然，需根据情节节奏与场景变化，合理选择转场方式。在画面空间相近、情节平缓推进的段落，建议采用“无转场”处理或添加0.2秒的短“叠化”效果，最大程度弱化剪辑痕迹，避免打断观众的观看连贯性；而当场景发生明显变化（如从橘猫在街道被追捕--被抓进牢里），则可运用“推进”“拉远”等更具视觉冲击力的转场特效，来提示观众场景转换，既增强叙事的逻辑性，又赋予视频独特的节奏感。

剪辑的转场

Collect

2.4.3配音技巧

配音也是赋予作品情感与灵魂的关键要素，其重要性不亚于画面本身。好的配音能够弥补AI生成画面在情感传递上的不足，帮助观众更好地理解故事内容，强化视听体验。

我参考了许多抖音上此类小视频的配音特色，使用了猫叫原声+人类声音的片段，为橘猫打造出拟人化的配音体系。同时也可以搭配一些短视频常用的音效片段，增强短视频的网感。

在剪辑时，需要精准把控音效与画面的匹配度，避免出现声音与画面不符、情绪不一致等问题。可以在一些地方加入Fcut（先出声音，后出画面，通过提前释放声音，勾起观众好奇心，制造悬念感与期待值）J cut 等剪辑技巧，进一步吸引观众注意力，提升视频感染力。同时，还需要调节不同音效的音量大小，突出重点内容，平衡不同声音元素之间的关系，让配音真正成为推动故事发展、引发观众共鸣的有力工具。

Fcut

Collect

2.4.4BGM的选择与剪辑：烘托氛围的点睛之笔

背景音乐能够给视频整体的情绪定一个基调，合适的背景音乐也能为视频增色不少。我们可根据故事的情节发展和情感变化，选择节奏、风格匹配的 BGM，在温馨的场景中，搭配轻柔舒缓的音乐；在搞笑的情节时，切换为活泼欢快的旋律，以此烘托氛围，提升视频的感染力。

本次短视频选取的是抖音上同类视频统一都用到的BGM。因为这首歌很长，有1m40s，我们的视频只有27s，这里需要对它进行剪辑。一定要反复去听，选择一个合适的开头和结尾（通常节奏减弱或为段落的结尾）。在两段落衔接处，可采用交叉淡化（Crossfade）技巧，使音乐平稳过渡。最后，再降低一下它整体的音量大小，不能抢了音效的重要位置。

BMG剪辑技巧

Collect

3、总结：AI 赋能，创作未来可期

先说感受：太方便了。经过这次实战测评，不得不感叹 AI 视频创作迭代的进程速度与强大。从故事构思到成片输出，整个过程无需复杂的专业技能，AI 就能助力我们实现创意。

在即梦和可灵的对比中，即梦在图像生成的美观度和视频生成速度上表现突出，适合追求高效产出和画面质量的创作者；可灵则在捕捉动态画面和功能丰富性上更具优势，能满足创作者多样化的创意需求。此外，在价格方面，二者均推出了不同的会员套餐和付费模式，创作者可根据自身使用频率和需求进行选择（小声说：本次使用的均为免费版用户可使用的模型类型，可能付费版的效果会更惊艳）。随着 AIGC 技术的不断进步，相信未来 AI 视频平台将为设计和剪辑领域带来更多惊喜，让每个人都能轻松成为视频创作大师。

Report

声明

原创Article AI创作平面影视 aigc 视频 AI 即梦可灵 ai视频制作视频剪辑剪辑 AI制作