【Skill 分享】口播视频自动剪辑 Agent

很好奇 · 2026 年3 月 22 日 08:44

一、Skill 介绍

背景

做口播视频的人都有一个痛：后期剪辑太耗时间。一段 20 分钟的原片里，充斥着"嗯"“啊”、说错重说、卡顿停顿、重复句……手动逐段排查标记裁剪，往往要花素材时长 2-3 倍的时间。

剪映的「智能剪口播」能解决一部分问题，但有两个硬伤：

不理解语义：重复说的句子、说错后纠正重说的段落，它识别不出来
字幕质量差：专业术语（Skill、GitHub）经常被识别成离谱的结果

videocut skill，让 AI Agent 帮你完成从转录、口误检测、字幕纠错到最终剪辑的全流程。你只需要一句话触发，最后在浏览器里确认一下就行。

使用场景

技术类口播（编程教程、技术分享）—— 专业术语多，ASR 容易出错，热词表纠正尤为重要
知识类口播（读书笔记、课程讲解）—— 容易重复句、说错重来，语义检测能精准识别
任何说话为主的视频素材 —— 播客、访谈、vlog 独白
批量处理 —— 传入文件夹，AI 自动为每个视频启动并行 Subagent

核心能力对比

能力	videocut Skill	剪映智能剪口播
语义理解	AI 逐句分析，识别重说/纠正/卡顿	只能模式匹配
静音检测	>0.3s 自动标记，阈值可调	固定阈值
重复句检测	相邻句语义比对（去掉口头禅前缀）→ 删前保后	无
句内重复	“好我们接下来好我们接下来做” → 删重复部分	无
热词纠错	自定义热词表，ASR + LLM 双重纠正	无
规则可定制	9 条检测规则独立文件，随时修改偏好	无

二、具体使用方法

1. 安装 Skill

git clone https://github.com/sunnyswag/videocut-skill.git ~/.trae/skills/videocut

2. 安装依赖

# macOS
brew install node ffmpeg

# 安装 CLI 工具
npm install -g @huiqinghuang/videocut-cli

# 配置火山引擎 API Key（语音转录用）
export VOLCENGINE_API_KEY="your_api_key"

火山引擎 API Key 获取：火山引擎控制台 → 语音技术 → 语音识别 → API Key

3. 准备热词表

在项目目录创建 hotwords.txt，一行一个，提升识别和纠错质量：

container_of
GitHub
MCP
Claude Code

热词在两个阶段生效：

火山引擎 ASR 阶段：作为自定义词汇提升首次识别准确率
LLM 分析阶段：作为关键词归一化词典，纠正谐音/拆词错误

4. 一句话触发

在 Trae/Cursor 中对 AI 说：

帮我剪一下这个视频 @video.mp4

批量处理：

处理 @videos-folder 里的所有视频

5. 完整流程

┌──────────────────────────────────────────────────────────┐
│  前置条件：Node.js + FFmpeg + videocut-cli + API Key     │
└──────────────────────────────────────────────────────────┘
                          ↓
┌──────────────────────────────────────────────────────────┐
│  "帮我剪一下这个视频 @video.mp4"                         │
│                                                          │
│  AI 自动执行：                                            │
│  1. 提取音频 → 火山引擎 ASR 转录 → 字级别时间戳          │
│  2. 生成可读文本 → 逐段分析口误/静音/重复/语气词          │
│  3. 生成 edits.json → 应用编辑 → 启动审核网页            │
└──────────────────────────────────────────────────────────┘
                          ↓
┌──────────────────────────────────────────────────────────┐
│  人工审核  http://localhost:8899                          │
│                                                          │
│  - 点击句子跳转播放                                       │
│  - 勾选/取消删除项                                        │
│  - 确认后点击「执行剪辑」→ FFmpeg 自动裁剪输出            │
└──────────────────────────────────────────────────────────┘

三、Skill 编写思路与技巧

1. 用示例 JSON 而非长篇文字定义数据格式

edits.json 是 AI 分析和 CLI 工具之间的「通信协议」。我在 Skill 中定义了三种操作格式，并附上 edits.example.json：

{
  "deletes": [
    { "pathSet": { "parent": 0 }, "reason": "silence" }
  ],
  "textChanges": [
    { "pathSet": { "parent": 2, "children": [1] }, "newText": "C", "oldText": "c" }
  ],
  "combines": [
    { "pathSet": { "parent": 16, "children": [5, 6] }, "newText": "GitHub", "oldText": "get up" }
  ]
}

给 Agent 看一个具体的 JSON 示例，比写一大段文字描述有效得多。

2. 规则文件独立拆分，实现可定制 + 可进化

没有把检测规则硬编码在 SKILL.md 里，而是拆成 9 个独立文件：

rules/
├── 1-core-principles.md      # 删前保后
├── 2-filler-words.md         # 语气词列表 + 删除边界
├── 3-silence-handling.md     # 静音阈值
├── 4-duplicate-sentences.md  # 语义比对重复句
├── 5-stuttering.md           # 卡顿检测
├── 6-intra-sentence-repeat.md
├── 7-consecutive-fillers.md
├── 8-self-correction.md
└── 9-incomplete-sentences.md

好处：

可定制：用户随时改某条规则（比如调静音阈值）
可进化：告诉 AI 偏好后直接更新对应文件
优先级明确：按编号排序，AI 分析时按序执行

3. 中英文双语规则，一套文件通吃

每个规则文件里都有 ## zh 和 ## en 两个 section。SKILL.md 里有语言检测逻辑：根据转录内容判断语言，只加载对应的规则段。一套规则文件同时支持中英文口播。

4. 批量处理用 Subagent 并行

处理多个视频时，Skill 指导 Agent 为每个视频启动独立 Subagent 并行执行步骤 0-4，最后才启动一个共享的 Review Server（Web UI 以 Tab 形式展示每个视频）。

四、效果展示

实际成果数据

输入：19 分钟口播原片（技术分享类，各种口误、卡顿、重复）

AI 自动分析结果：

检出 175 处问题
- ~30 处长静音 (>1s) 标记删除
- ~15 处残句/不完整句 标记删除（如 “然后第”、“就是在”、“比如说呃” 等）
- 2 处完全重复句 标记删除
- ~50 处语气词（嗯/呃）标记删除
- ~5 处卡顿词（就就/变成变成/这这/用用）标记删除
- 49 处 ASR 文字纠正（最主要的是"红"→"宏" 贯穿全片约 20 处）
- 15 处多词合并纠正（如 “on define"→”#undef"、“音钮"→"enum” 等）
文本纠错：专业术语修正（如 “get up” → “GitHub”，“红” → “宏”）
全程 AI 自动完成，人工仅需在 Web UI 确认

使用前 vs 使用后

对比项	手动剪辑	videocut Skill
耗时	40-60 分钟（20min 素材）	~10 分钟（含确认）
静音检测	手动听 + 标记	自动检测，阈值可调
重复句	逐句人耳辨别	AI 语义比对，自动标记
专业术语字幕	ASR 错误需逐个修	热词表 + AI 双重纠正
批量处理	逐个视频重复操作	传入文件夹，并行处理