Research · AI 短视频赛道 · 入门指南

AI 动漫短剧入门 2026：从工具栈 → SOP → 变现

Reading ~20 min Surfaces 4 层工具栈 Tiers 新手 / 进阶 / 工业化 Target 个人入门 2026-05-28

Prompt

调研下现在如果做动漫短剧，用什么 AI，什么平台，什么 SOP，方法论。我想入门做 AI 短视频，给我完整调研和当下最佳实践。

TL;DR

2026 年 5 月当下，AI 漫剧（动漫风格）市场盘子约 240 亿，是上升赛道，但平台（抖音 / 红果）正在洗牌：低质 AI 内容被降权、真人短剧拿到 15 亿扶持。新手入场的窗口仍在，但门槛上移到 质感 + 节奏 + IP。最佳入门工具栈：即梦 / 海螺 NBP 出图 → 可灵 2.6 / 即梦 Seedance / Sora 2 生视频 → Fish Audio / CosyVoice 配音 → 剪映 剪辑发布。核心 SOP：剧本→角色→分镜→批量生视频→音频→后期，单集压到 6-12h。变现首选：番茄/红果小说推流（分账 30-50%）+ 平台扶持。

AI 漫剧市场 (2026)

~240 亿 RMB

AI 仿真人短剧 YoY

+300%

百强榜 AI 占比

7% → 38%

单集压缩

5-7 天 → 6-12 h

红果剧本过稿率

30% → 7.5%

行业亏损率

> 90%

读这份文档的方式

有方法论的工具调研。不要逐条照搬——AI 视频领域 3 个月就一轮换代，文档里的型号版本会过时（如 Sora 2 → Sora 2.5），但分层架构、SOP、角色一致性原则、变现链路这些骨架结构在 12 个月内大概率稳定。看完先确认你的入场定位（自媒体 / 工作室 / 推流），再回去挑工具组合。

01赛道全景：三条不同的赛道

"AI 短剧" 是一个被滥用的笼统说法。当下国内市场实际上分三条赛道，用户消费、工具选择、变现路径全都不一样，入场前必须先选定。

赛道	风格	典型时长	主战场	变现	新手友好
AI 漫剧 animated / 2D 漫画风	动漫 / 国风 / 古风 / 二次元	60-120s × 30-100 集	抖音、B 站、番茄	小说推流分账 + 平台激励	高工具成熟、风格容错
AI 仿真人短剧 photo-real / 写实风	写实 + 真人脸 + 现代场景	60-90s × 60-100 集	红果、抖音、河马剧场	付费短剧 + 平台扶持	中写实容易翻车（脸 / 手）
真人短剧（AI 辅助） live action + AI tools	真人拍 + AI 剧本 / 配音 / 特效	60-90s × 80-120 集	红果（重押）、抖音	分账 + 大额扶持（< 150 万 / 部）	低个人难做、需团队

2026 年的关键信号

红果 2026 Q1 调整：真人短剧扶持预算 +15 亿，部均保底金额 +60%；同时下调低质 AI 内容权重。这不是 "AI 短剧死了"，而是平台在筛掉粗糙工业品。漫剧百强榜里 AI 仿真人占比一年内从 7% 涨到 38%——头部 AI 内容反而渗透加快。结论：入场后 质感 + 题材新意 比"快速量产"重要得多。

选哪条赛道？

对个人新手，强烈建议先做 AI 漫剧：

容错率高——动漫风格 inherently 接受夸张、变形，AI 偶尔崩相也不致命；写实一旦脸崩、手指多一根直接劝退观众。
工具链最成熟——即梦、可灵的中文动漫训练数据丰富。
题材库充裕——番茄 / 七猫等网文平台开放 IP 推流，不用自己写剧本。
风格统一更容易——一个 LoRA / 角色卡可以撑一整季。

02工具栈：四层架构

AI 短剧的工具栈本质是一条流水线，分图像 / 视频 / 音频 / 后期四层，每层都有多个候选，选型逻辑只有一个：能力够用 + 同生态优先 + 成本可控。

图 1 · 四层堆栈与数据流。橙色虚线 = 角色一致性参考流（图像层 → 视频层）

L1 · 剧本 / 故事

不展开——任何 LLM 都能写，瓶颈在题材选择而非生成能力。推荐：

Claude (Sonnet 4.6 / Opus 4.7)：中文叙事逻辑最稳，适合分集大纲 + 钩子设计
豆包 / Kimi：免费、贴近抖音爆款套路
"借"现成网文：番茄、七猫开放 IP 库，授权后改编是合规且高效的路径

L2 · 图像生成（关键帧 / 角色设计）

工具	所属	动漫表现	角色一致性	计费	定位
即梦图	字节	极强	多帧 2.0 加持	订阅 / 次卡	抖音生态首选，与视频层无缝
海螺 NBP	MiniMax	强	infinite canvas	订阅	动作场景（武打）出彩
Midjourney v7	MJ Inc.	极强	`--cref`	$10-60/月	国外审美 / 国风插画
gpt-image-2	OpenAI	中	Character API	含在 ChatGPT 订阅	构图理解最强，文字渲染弱
ComfyUI + Flux/SDXL	开源	极强	LoRA 训练	自托管（电费）	工业化首选，学习曲线陡

L3 · 视频生成（最关键的一层）

工具	版本	动漫	物理动态	角色一致	典型时长	定价 (RMB)	关键优势
可灵	2.6	极强	极强	中	5-10s	~10/条	武打 / 长发 / 物理感最自然
即梦 Seedance	1.5 Pro	极强	强	强	5-10s	~8/条	多帧无缝拼接、运镜笔刷
海螺 02	02	强	极强	中	6-10s	~12/条	物理理解最强，肢体动作好
Sora 2	2	中	强	极强	8-20s	含 GPT Pro 订阅	Character Cameo 一致性王者
Veo 3.1	3.1	中	极强	强	8s	含 Gemini Ultra	原生音频生成（人声 / 音效）
Runway Gen-4	4	中	极强	强	5-10s	$15-95/月	运镜控制最丰富
Wan	2.6	强	中	中	5-8s	~8/条	阿里系，叙事 / 品牌片
Vidu	Q2	强	中	中	4-8s	~6/条	国产运镜较稳

注：动漫表现 / 物理动态 / 角色一致基于 2026 Q1-Q2 网络评测综合，会随版本迭代变化。定价为 web 端单条估算，订阅包月通常更划算。

L4 · 音频 + 后期

子层	推荐	替代	关键差异
多角色配音	Fish Audio（含克隆 / 中文情感）	CosyVoice 2 (开源) / 豆包 voice / ElevenLabs (英文)	Fish 在中文情绪和角色音色多样性上目前领先
口型同步	LivePortrait（开源 / 离线）	Hedra Character-3 / Wav2Lip 2	LivePortrait 表情控制最细，Hedra 是 SaaS、上手快
配乐 / 音效	Suno v4（含人声）	Udio / 抖音内置素材库 / AIVA	Suno 可生 60s 完整片段；剧情向用素材库即可
剪辑	剪映 CapCut（PC 专业版）	DaVinci Resolve 19 / Premiere	剪映自动加字幕、节奏卡点、抖音生态对接；专业向用 DaVinci

工作流平台（编排层）

把上面所有工具拼起来的"调度器"。如果不想手工逐镜 export → import，可以用：

Tapnow：多模型连接（即梦/NBP/Veo/可灵/海螺），自动角色一致性校验
Lovart：画布拖拽式（类 PPT），适合非技术背景
绘梦工坊：全链路平台，宣称单项目压到 3 天
ComfyUI：开源 / 自托管 / 节点图，最强最复杂

03推荐组合：按预算分三档

不要追求"最强组合"，追求"和你的产出节奏匹配"。下面三档可以直接照抄。

定位：先把链路跑通，验证自己能产出能看的东西。

剧本：Claude / 豆包（免费）
图像：即梦图（订阅 ~70/月）
视频：即梦 Seedance（同生态，~8/条 × 20 镜 = ~160）
配音：豆包 voice / Fish Audio 试用
口型：暂时不做（用旁白 + 字幕，省一道工序）
剪辑：剪映免费版
发布：抖音 + 番茄推流

关键放弃：不做 LoRA 训练、不做复杂运镜、不做口型；先看节奏和钩子。

定位：稳定日更 1-3 集，开始有质感差异化。

剧本：Claude Opus 4.7 (~200/月) + 网文 IP 改编
图像：即梦图 + Midjourney v7 (~$10/月) 双跑做风格对比
视频：可灵 2.6（打斗 / 动态）+ 即梦 Seedance（叙事）两个混用
配音：Fish Audio Pro（克隆音色，多角色）
口型：LivePortrait（开源，本地跑）或 Hedra（SaaS）
剪辑：剪映专业版 + 自购音效包
发布：抖音 + 红果 + 番茄推流多平台

关键投入：每个 IP 开训一个角色 LoRA（ComfyUI），保证 100 集风格稳定。

定位：小团队 / 工作室，多 IP 并行，目标头部扶持。

剧本：编剧团 + Claude / GPT 辅助
图像：ComfyUI 自建（Flux + 自训 LoRA + IPAdapter + ControlNet）
视频：可灵 + 即梦 + Sora 2 + Veo 3.1 四个混用，按镜头特性分配
配音：Fish Audio + ElevenLabs（英文/多语种发行）
口型：LivePortrait 自托管 + Hedra（动作复杂段）
编排：Tapnow / 自建 workflow，批量队列生成
剪辑：DaVinci Resolve + AE 特效
发布：抖音 / 红果 / 海外 YouTube / TikTok
分发策略：竞标头部扶持（150 万/部 + 续作激励）

90% 的人卡在 S → A

S 档跑通后，最容易死在"我有一集了，但 30 集都长一样的脸 / 风格漂移"的瓶颈。跨过这道坎的核心是角色一致性（见 §05），不是更强的视频模型。

04工业化 SOP：单集 6-12 小时

头部团队已经把单集压到 6-12 小时（vs 传统 5-7 天）。流程拆 6 步，每步都可以独立并行，关键是不要走前一步还没收口就开下一步。

图 2 · 6 步 SOP 时间预算（单集 60-90s 估算）。橙色边 = 批量出视频是瓶颈步

逐步详解

① 选题 / 剧本 · 1-2h

输入：网文素材 / 热点题材 / 用户喜好。输出：60-90s 的分集剧本，每集 500-800 字，包含场景描述、对白、情绪节拍、钩子位置。方法：用 Claude 把网文章节切成分集，前 3 秒必须有冲突，结尾留钩子。

② 角色设计 · 1h (首集) / 后续复用

输入：剧本中的角色描述。输出：每个主角 3-5 张多角度参考图（正面 / 侧面 / 表情）+ 关键服化道。方法：即梦/MJ 生成 → 多帧 2.0 / Character Cameo 锁定 → 存为"角色卡"。这是整季质感的根基。

③ 分镜（storyboard）· 1-2h

输入：剧本 + 角色卡。输出：每个镜头 1-3 张关键帧 + 镜头描述（景别 / 运镜 / 情绪）。方法：用图像模型批量生成，每镜头出 2-3 张候选挑一张。这是后面视频质量的天花板——参考图不好，视频肯定不好。

④ 批量出视频 · 2-4h（瓶颈步）

输入：关键帧 + 镜头 prompt。输出：每个镜头 5-10s 的视频片段。方法：图生视频（i2v），每镜头跑 2-3 次挑最稳的。这一步会大量失败（角色变形、动作崩、运镜错），心理预期 30-50% 重生。

⑤ 音频合成 · 1h

输入：剧本对白 + 角色音色卡。输出：多角色配音 + BGM + 音效。方法：Fish Audio 按角色出，CosyVoice 兜底，配乐用 Suno 或素材库。可选：LivePortrait 做口型对齐。

⑥ 剪辑 / 后期 · 1-2h

输入：视频片段 + 音频。输出：单集成片（60-90s 竖屏 9:16）。方法：剪映自动加字幕、节奏卡点、调色统一。抖音类爆款节奏 = 5-8s 一次反转 / 转场 / 信息密度变化。

方法论核心：钩子 + 节奏 + 系列化

钩子：前 3 秒必须有冲突或反差，否则被划走。节奏：单集 60-90s（手机竖屏 9:16），每 5-8s 一个反转 / 情绪变化。系列化：单部 30-100 集，不是单集爆款，是账号矩阵 + IP 长尾。

05角色一致性：决定生死的技术难点

这是 AI 漫剧的核心质量分水岭。同一个角色，集与集之间脸不变、衣服不变、风格不漂——做到这点，画面就有了"剧"的感觉；做不到，永远是"几个 AI 片段堆砌"。当下 4 种主流方案：

方案	原理	一致性	上手难度	适用	成本
Sora 2 Character Cameo	上传角色参考图 → 拿到 Character ID → 后续场景引用	极高	极低	短期项目、英文为主	GPT Pro 订阅
即梦多帧 2.0 / 智能多帧	同 IP 内自动锁定角色特征 + 无缝拼接	高	低	中文漫剧、抖音生态	订阅
Veo 3.1 多参考图	同时上传多张参考图（角色 + 道具 + 场景）	高	低	需要原生音频的项目	Gemini Ultra
ComfyUI + 自训 LoRA	用 15-50 张图训练角色 LoRA（1000-3000 步），后续生成走 LoRA 加权	极高工业级	高	长期 IP、多季制作	GPU 电费 / 租算力

个人新手怎么选

S 档：用即梦多帧 2.0，零门槛、和你视频层同生态
A 档：i2v 时每镜头都用同一张角色参考图作为 first frame（最朴素但有效），辅以即梦的角色锁
B 档：必须自训 LoRA。每个 IP 1-2 个主角各训一个 LoRA，集与集复用

实操技巧

(1) Reference Frame 锁定法：每条 i2v 都把同一张主角侧脸特写图作为 first frame，可灵 / 即梦 / Sora 都吃这套。(2) 服化道 fingerprint：给角色加 1-2 个显眼且不易乱画的元素（独特发色 / 红披风 / 金面具），AI 即使脸略变，观众靠这些 fingerprint 也能认得。(3) 镜头切换"借位"：用大场景 / 背面 / 剪影掩盖一致性短板。

06入门路径：90 天里程碑

不是日历，是状态机。按里程碑推进，不到位不进下一档。

Day 1-7 · 工具链跑通

目标：跑出第 1 个 30s 试片。动作：注册即梦 + 剪映 + 番茄/红果作者后台；用 1 个剧本片段，走完 6 步 SOP 一遍；不追求质量，只追求从头到尾打通。验收：能放出去给朋友看。

Day 8-30 · 找到 IP 与风格

目标：定位赛道（穿越 / 玄幻 / 现言 / 古风 / 二次元）+ 1 个明确角色。动作：刷抖音 / 红果 100 部头部作品做拆解；做 1 套主角的多角度卡；产出 3-5 集 demo。验收：自己看完不出戏，能稳定复用同一角色。

Day 31-60 · 首部完整作品 (10-20 集)

目标：发布第一部短剧（10-20 集）。动作：番茄/红果选 1 个授权 IP 改编；按 SOP 工业化产出；每集复盘 3 秒钩子是否有效。验收：单集播放 > 1 万；至少 1 集进入推流测试。

Day 61-90 · 选择路线

目标：决定继续个人 / 组工作室 / 转型。动作：复盘前 90 天数据（完播率 / 互动率 / 推流分账）；如果有作品破百万，去申请红果厂牌 / 抖音矩阵；如果普遍翻车，回到 Day 8 重选赛道。验收：拿到首笔分账 or 明确放弃。

不要跳级

看到别人 "10 天月入过万" 的教程大部分是钓鱼。真实工业化短剧团队从 0 到稳定出片要 2-3 个月。建议把 90 天预期设为"学会一门手艺"而不是"赚到第一笔钱"。

07变现路径：4 条主线

不要等"做火了"再想钱的事，从第一集就规划变现路径。4 条主线，多数情况组合使用。

路径	原理	新手可达	预期收益	关键门槛
小说推流分账	视频结尾留钩子 → 引导用户到番茄/七猫付费阅读 → 平台按 CPM 分账	易第 1 部就能跑	30-50% 分账，小爆款 500-5000/月，中爆 5k-5w	选品（高 ARPU 的小说）+ 钩子设计
平台扶持金	红果 / 抖音对优质作品发保底 + 续作激励	难需作品质量	头部 < 150 万/部 + 续作 20%；普通 < 5 万/部	过稿率仅 7.5%；需厂牌资质
创作者激励 / 流量分成	抖音中视频 / 快手创作者计划，按播放量分成	易开通即可	5-30 / 万播放，依靠规模	需够量（万粉 + 量产）才有意义
品牌商单 / 定制	账号起来后接广告植入 / 品牌定制短剧	中需账号 IP 化	单条 5k-10w+，看 IP 影响力	稳定粉丝 + 题材匹配品牌

当下最值得押注的路径

个人新手：小说推流分账（路径 1）—— 平台已有成熟分账系统，钩子做对就有钱；不需要等粉丝积累。

中度投入：路径 1 + 路径 3 组合 —— 多平台分发，单作品多通道变现。

团队 / 工作室：路径 1 + 路径 2 —— 头部作品冲扶持金，普通作品走推流，形成金字塔产品矩阵。

关于"AI 焦虑"

2026 年红果明确说 "AI 焦虑不成立" —— 平台并不抵制 AI，而是抵制低质内容。AI 仿真人短剧在百强榜占比 1 年从 7% → 38%，说明真做好的 AI 内容反而被推。新手不必担心"AI 内容被打压"，担心"自己做的 AI 内容是低质"。

08风险与陷阱

平台政策摇摆内容同质化角色一致性 API 限额 / 排队工具消失（短期） IP / 版权成本失控技术学习曲线

safe watch danger

风险	Sev	原因	对策
内容同质化	High	大家都用同样工具、同样网文、同样钩子模板	用题材差异化（小众赛道 / 特殊视觉）+ 风格签名（独特配色 / 镜头语言）
角色一致性翻车	High	多镜头切换时脸 / 服装漂移	S 档用即梦多帧锁定；A+ 必须自训 LoRA；用 fingerprint 服化道
成本失控	High	视频生成大量失败重跑，单集真实成本可能 2-3x 预期	分镜阶段就锁定 prompt 模板；用便宜模型出 draft，贵模型出关键镜头
平台政策摇摆	Med	红果 / 抖音半年内多次调权重	多平台分发（抖音 + 红果 + 番茄 + YouTube）；不依赖单一规则
API 限额 / 排队	Med	晚上 20-23 点高峰排队 10-30min；批量任务失败	上午 10-12 / 下午 14-16 跑批量；多账号；提前 1 集缓冲
IP / 版权	Med	未授权改编网文 / 抄袭其他短剧	番茄 / 七猫走官方授权 IP；不蹭知名 IP；不照搬画面
工具消失 / 改版	Low	AI 工具迭代极快，3 个月换代	SOP 与工具解耦；学方法论而非死守某个工具版本

09资源清单

必读 / 必看

红果 / 抖音创作者后台的官方扶持公告（每季度更新）
番茄小说 / 七猫小说的授权 IP 库（开放申请改编）
抖音热搜榜 + 红果短剧榜 → 复盘头部作品前 3 秒
B 站 / YouTube 搜 "AI 漫剧工作流 / character LoRA training"

工具官方文档（按层）

L2 图像：即梦 / 海螺 / Midjourney docs / Flux 模型卡
L3 视频：可灵 / 即梦 Seedance / Sora 2 API / Veo 3.1 / Runway docs
L4 音频：Fish Audio docs / CosyVoice GitHub / LivePortrait GitHub
编排：ComfyUI manager / Tapnow docs

社区 / 监控

剪映 / 即梦的用户社区有最新工作流交流
关注头部 AI 漫剧账号（抖音搜 "AI 漫剧"），看他们最新工具栈
GitHub trending → ComfyUI / AnimateDiff / LivePortrait 更新

~/.shortcuts/ai-drama-bookmarks.md# 每周一刷新
1. 红果创作者中心 · 看本周扶持政策
2. 抖音 / 番茄热榜 · 拆 top 10 前 3 秒
3. 即梦 / 可灵更新日志 · 看新功能 / 新模型
4. B 站 AI 漫剧标签 · 搜本周高赞拆解
5. 自己的后台数据 · 完播率 / 互动率 / 推流转化

Next steps · 入门第 1 周 checklist

注册即梦 + 剪映 + 番茄/红果创作者后台刷 100 部头部 AI 漫剧（重点拆前 3 秒钩子）选定 1 个赛道（穿越 / 玄幻 / 现言 / 古风 / 二次元）用即梦 + Seedance 跑通一个 30s 试片（不追求质量）从番茄 IP 库挑 1 部网文做 10-20 集改编计划做 1 套主角的多角度参考图（角色卡）第 1 集发布到抖音 + 番茄推流，看完播率

×Comments

field note · 2026-05-28→ #stack

工具栈 3 个月一更，本表锁定为 2026-05 snapshot。如果你在 2026-08+ 看到这份文档，先去搜 Sora 2.5 / 可灵 3 / 即梦 Seedance 2 是否已发布——版本会变，分层架构不变。

experience note · 2026-05-28→ #consistency

第一次入门强烈建议先不训 LoRA。LoRA 训练涉及 dataset、tagging、参数调优，会消耗你前 30 天 80% 时间。先用即梦多帧 / Reference Frame 锁定法跑通链路，有了正反馈再回头优化角色一致性。

caveat · 2026-05-28→ #monetize

变现表里的"预期收益"是头部样本，中位数远低于此。90%+ 的账号第一年没有显著收益。把这当作技能投资，不是收入预期。