大家好,我是一个技术小白。从事新媒体行业,每天需要剪辑大量的视频,包括切片。大概需要花6-7小时。接触到TRAE SOLO后,被它的能力彻底征服。就想做一个高光视频自动切片生成系统。
一、摘要
-
效率提升显著:传统手动剪辑 1 小时视频需 2-3 小时,TRAE SOLO制作的本系统仅需 5-10 分钟
-
零门槛操作:可视化界面,无需专业剪辑技能
-
精准可控:AI 辅助 + 人工审核结合,确保输出质量,不抽卡
-
本地化运行:视频处理在本地完成,保障数据隐私安全
-
开源灵活:基于 Python 开发,易于二次开发和定制
-
**定制化:**可以定制各种模板
-
**内容审核:**自动审核风险词
二、成品界面
三、功能优点详解
3.1、智能内容分析能力
| 功能 | 优点 | 实现细节 |
|---|---|---|
| 双模式主题识别 | 针对带货/非带货内容分别优化识别策略,准确率高 | 带货模式提取产品名称,非带货模式提取观点话题 |
| 多轮 LLM 交互 | 自动处理超长内容,支持多次重试确保结果可用 | 解析失败自动重试,最多 9 次,每次间隔 3-5 秒 |
| 智能去重合并 | 同一主题不同表述自动去重,保留最常用名称 | 使用集合去重,确保每个主题唯一 |
3.2、高光片段提取算法
| 功能 | 优点 | 实现细节 |
|---|---|---|
| 智能时长控制 | 超限自动压缩,确保输出符合平台要求 | 检测到超限时自动调用 LLM 重新筛选,支持多轮压缩直到达标 |
| 语义级匹配 | 不只是关键词匹配,理解完整语义 | 使用 n-gram 算法(二元组匹配),70% 匹配度阈值确保语义相关 |
| 片段连续性保护 | 自动识别连续字幕块,保持观点完整 | 索引连续性检测,非连续段落自动分段 |
| 自适应扩缩容 | 时长不足自动扩展,时长超标自动压缩 | 15% 容差区间,智能前后扩展或裁剪 |
**
3.3、精准视频裁剪技术**
| 功能 | 优点 | |
|---|---|---|
| 关键帧对齐 | 精确到关键帧,避免花屏/黑帧 | |
| 双阶段处理 | 第一阶段快速复制,第二阶段精确编码,速度提升 3-5 倍 | |
| 智能时间计算 | 毫秒级运算,消除误差 | |
| 动态范围扫描 | 只扫描需要的区间,不扫描整视频 | |
| 多线程处理 | 主题识别、高光提取、视频裁剪均异步执行,UI 不卡顿 |
3.4、字幕处理与审核
| 功能 | 优点 | |
|---|---|---|
| 时间轴重算 | 毫秒级精准同步 | |
| 预编译正则 | 违禁词检测速度快,一次性匹配所有敏感词 | |
| 可视化审核 | 支持人工微调,修改错别字,删除敏感内容 | |
| 红色高亮预警 | 风险词红色醒目提示,一眼定位问题 |
3.5、用户体验设计
| 功能 | 优点 | |
|---|---|---|
| 可视化编辑区 | 拖拽式操作,双击移除,右键插入,直观便捷 | |
| 实时视频预览 | 内置播放器,支持播放/暂停、进度拖动、音量控制 | |
| 字幕联动高亮 | 编辑区选中字幕,右侧列表同步高亮显示 | |
| 智能文件命名 | 自动过滤非法字符,避免保存失败 | |
| 画质可调 | 滑块可调,平衡画质与文件大小 |
3.6、对比传统剪辑工具
| 对比项 | 传统工具 (PR/剪映) | 本系统 |
|---|---|---|
| 主题识别 | 人工观看判断,耗时 30-60 分钟 | AI 自动识别,30 秒内完成 |
| 片段筛选 | 逐帧查看,手动标记 | AI 语义理解,自动提取 |
| 时长控制 | 手动计算,容易超标或不足 | 智能压缩/扩展,精确到秒 |
| 字幕对齐 | 需手动调整时间轴 | 自动重算,精准同步 |
| 多主题处理 | 需重复操作多次 | 一次提取多个主题,批量输出 |
| 违禁词检查 | 无此功能 | 内置检测,红色高亮提示 |
四、技术亮点总结
-
毫秒级精度:全链路使用整数毫秒计算,彻底解决字幕不同步问题
-
智能压缩:独创 LLM 多轮压缩算法,时长超限自动优化而非简单截断
-
关键帧裁剪:基于关键帧的精准裁剪,确保视频画面完整性
-
异步架构:所有耗时操作均异步执行,界面实时响应
-
模块化设计:主题识别、高光提取、视频裁剪完全解耦,便于扩展
五、如何用SOLO实现
5.1、任务拆解
总体思路:字幕 → AI 读字幕找主题 → AI 找每个主题相关的片段 → 按片段裁剪视频 → 重新配字幕
拆成具体步骤:
-
读字幕:SRT 文件是个有格式的文本,用正则解析成一条条的,每条有开始时间、结束时间、文字内容
-
找主题:把全部字幕扔给 AI,问它「这个视频讲了几个产品/话题」,让它列出来
-
找高光:把字幕每条都标上序号,再问 AI「第 1 个主题相关的字幕是哪几条」,AI 返回序号,我就能找到对应的时间和文字
-
裁剪:拿到了时间点,用 ffmpeg 切视频
-
拼起来:切出来的几段按顺序拼成一个完整视频
-
重配字幕:将新视频的字幕整理出来。
5.2、SOLO的帮助
1、帮我理清思路
2、输出代码
3、查找Bug
4、还有很多,没有SOLO就没有这个项目。
5.3、关键 Prompt
这是保证裁剪时间提速的关键提示词
5.4、踩过的坑
1、在裁切视频时,切的位置不对会花屏,所以要先找关键帧
2、在重配字幕时,字幕总是时间对不上,后来想办法解决了。
6、成果展示
我直接放成果
说明:原视频很大,如下图所示:
生成视频的视频封面,视频背景图,贴纸、特效、背景音乐,字幕。全部可以定制。一键生成,效率飞起。




