字节跳动 Seed 论文

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

这篇论文关注的是一个很现实的问题:虽然大模型已经很会写通用代码,但一碰到 CUDA Kernel 优化,仍然很难稳定超过 torch.compile 这类编译器工具,因为高性能 GPU 代码不仅要写对,还要懂算子融合、内存访问、硬件特性和反复 profiling。为了解决这个问题,作者提出了 CUDA Agent:它不是让模型一次性生成答案,而是把模型放进一个真实的 CUDA 开发循环里,让它能分析 PyTorch 实现、编写自定义 kernel、编译验证、查看性能反馈并持续迭代。同时,论文还构建了大规模合成训练任务,设计了防作弊的验证与奖励机制,并通过多阶段强化学习稳定训练模型。最终,CUDA Agent 学到的不只是“会写 CUDA 语法”,而是更接近工程专家的优化流程:看懂瓶颈、选择合适的 kernel 或库实现、融合不必要的中间步骤,并在正确性和速度之间反复打磨。

论文地址:https://arxiv.org/html/2602.24286v1

5 个赞

太牛了,哥哥

让 AI 做 AI infra

1 个赞