关于「Kimi 原生视频理解能力」如何理解和使用的技巧分享

TRAE 中国版内置的 Kimi-K2.6/2.5 模型

现已支持原生视频理解能力

看到有挺多人困惑怎么使用原生视频理解能力,刚好周末录了个视频,解答一下初学者们的疑惑。

原生视频理解能力指的是 Kimi-K2.6/2.5 模型不再只是逐帧看图片,而是能直接"看懂"视频的连续内容——包括画面中的动效变化、操作流程、交互行为等。它能理解视频里"发生了什么",而不是仅仅识别每一帧的静态画面。

大家应该比较多用到的场景是网站或者视频动效录屏直出前端代码。

首先要说一下原文中的视频路径指的是本地路径,这是 TRAE 这个 IDE 工具内的功能,需要你本机上有视频文件,传入该文件的路径即可让模型分析。

不是 B 站链接或在线视频 URL。

所以本地路径应该是:

<mac 端视频路径示例>
/Users/你的用户名/Desktop/fps_gameplay.mp4

或者你就像我一样直接把视频拖进工作区,再右键添加到对话也可以

你可以像我一样对产出的结果做一些约束,比如我上面截图写的:

请逐帧分析这段视频中展示的内容,目标是100%还原:
1. 精确识别所有UI元素:每个按钮的位置、尺寸、颜色、圆角、阴影
2. 逐帧记录所有动效:每个元素的动画曲线、时长、延迟、缓动函数
3. 完整还原交互逻辑:点击/悬停/滚动触发的所有状态变化
4. 精确匹配所有颜色:提取每个元素的HEX/RGB值
5. 还原所有布局细节:间距、对齐方式、响应式断点

输出完整的前端代码(HTML+CSS+JS),
确保代码运行效果与视频中展示的完全一致。

我录屏的是一个比较经典的 H5 页面:in pieces

原网站

Kimi 复刻

我要圆一句,这个网站其实非常的复杂,有非常夸张的动画效果,所以仅凭一段文字约束和十几秒的视频就可以做到这样程度的复刻,我觉得未来可期!

视频同时也发在了 B 站,时长很短想要看复刻效果对比的可以去看下

【Kimi 2 天没用已经到这种程度了吗-哔哩哔哩】 https://b23.tv/lrCGOKU

3 个赞

看了你的分享,我的知识又增加了

3 个赞

为了论坛的活跃的,这是真拼

1 个赞

你给论坛当小红书刷了是

2 个赞

这次的kimi2.6视频推理是真的有点东西

3 个赞

这个好,最近总有问这个的,我收藏一下,再看到,发他们,

1 个赞

不是像图片那样直接拖进来,而是要在工作区中,拖进来,或者给定一个目录。

2 个赞