我是怎么用 Claude Code 做视频的

起点：看到 code秘密花园的视频

我做视频这件事，是被 code 秘密花园带进门的。

那阵子我刷到他开源的 garden-skills——一个 Agent Skill 集合，里面有个叫 web-video-presentation 的 Skill。它的功能很戳我：把一篇文章或口播稿，做成”看起来像视频”的 16:9 点击驱动网页，每次点击推进一段口播，每一步独占整屏。

听起来像动态 PPT，但又不只是 PPT——画面有动效、有节奏、有电影感。我装上试了几次，确实能跑：输入一篇 markdown，产出 Vite + React + TS 项目，跑起来就是一段可以录屏的演示。

那段时间我做了好几条视频，全是 web-video-presentation 出的活。

但它生成的画面不是我想要的。

web-video-presentation 的核心定位是「伪装成视频的网页」——大字、留白、每屏独占、组件驱动。这种风格做教学、产品 demo、keynote 录屏非常合适，但我经常要做的是另一类：

这种场景下，“网页化大字 + 留白”的视觉气质就跑偏了。我要的是 SVG 插画、紧凑的镜头切换、竖屏节奏感。

调了几次风格，每次都不太对味——因为 web-video-presentation 本质上是方法论 + 协作流程驱动，每个项目的美学决策都要重新设计，骨架并不固定。这反而让我这种”想要竖屏知识短视频”的需求变成了每次都得重新解释一遍的事。

有天我跟 Claude Code 聊这件事，原话大概是：

「我用 web-video-presentation 做竖屏知识短视频，但画面总是不对。我想要的是 SVG 插画驱动、镜头切换、竖屏节奏。能不能我们一起来做一个新的 skill，专门解决这类场景？」

Claude Code 的反应不是直接开干，而是反过来问我：

这一轮讨论之后，我们的方向清晰了——做一个跟 web-video-presentation 完全相反的 skill：

于是我们就开始做了，新 skill 取名叫 html-animation-video。

做这个 skill 的过程，跟写代码完全是两件事。我们前后讨论了大半个月，反复打磨细节：

第一步 · 设计风格矩阵

我提了三种我最常用的视觉风格：

Claude Code 帮我把每种风格的配色 token、笔触约定、动画类、构件库、构图原则、反模式都整理成 svg-library 规范。

每种风格 × 2 种画幅（9:16 竖屏 + 16:9 横屏）= 6 个 skeleton 模板。

第二步 · 设计 6 步工作流

Step 1 · 解析输入（URL / 文本 / 大纲）
Step 2 · 分镜设计（8-16 镜，每镜填四件套）
Step 3 · 选风格 + 读规范
Step 4 · 生成 SVG 插画
Step 5 · 注入骨架
Step 6 · 产出三件套

Claude Code 写得很细——比如「单镜元素数 ≤ 25」「viewBox 留白 ≥ 35%」「坐标对齐到 10 的倍数」「至少 1 个持续动效」这些硬约束，都是我们一轮轮调出来的。

第三步 · 三件套产出

调用一句话：

/html-animation-video https://example.com/article
  --style minimal
  --ratio 9x16

整个流程大概 15 分钟出活，主要时间花在生成 SVG 插画上。不依赖任何图片生成 API，完全本地化——这也是我做这个 skill 时最看重的一点。

整个过程让我对 AI 协作有了一个挺深的体会——

web-video-presentation 是 ConardLi 把他的工作流沉淀下来开源给大家用。我用了，觉得好，但发现不完全适合自己的场景。

如果是以前的我，可能会凑合用，或者放弃。

但有了 Claude Code 之后，我可以把”不合适”这件事，变成一个新的 skill。不是抱怨别人的工具不行，而是跟 AI 一起把自己的真实需求拆解清楚，再做成可复用的流程。

ConardLi 的 skill 解决的是他的问题。我的 skill 解决的是我的问题。工具的演化，本质上就是不同的人把自己具体的需求，沉淀成不同的 SOP。

不是 AI 替我做视频，是我跟 AI 一起把”做视频这件事”拆解得让我自己能持续做下去。