【More-than-Coding】用CODE+MTC双式,4小时搭建一个评估大模型迭代的可视化平台

摘要:

用 TRAE CODE SOLO 解决了课题需求确认,搭建框架,框架优化和串联工作流以及ui可视化平台搭建,实现生命周期全流程,从需求结构,框架搭建到代码落地和ui优化,实现搭建了大模型可视化平台

背景:

我是反无人机领域的一名测试开发,此次我的课题是做一个大模型数据测试集,将对模型版本进行测试,给出可靠的模型训练指标并评估成果,决定下个版本使用哪个模型版本,但上手整理时间紧张,需要solo帮我梳理并且开发

实践过程:

使用 TRAE SOLO 完成任务的完整流程:

  • 自己先写了详细的文档和测试集的表格模板,然后使用mtc模式进行文档的拆分prd和prompt优化整理,并给出技术架构,我自己写的部分如下,其中第四第五步由mtc模式协助生成

  • 检查无误后然后让codesolo帮我基于项目架构和prd文件实现代码

  • 代码比较顺利,可能是prompt比较完善,多次调试即可,部分文档展示如下

  • 上下文当中记录了一些ui优化的操作如下:

    • 1. 这是已经获得数据的结果,现在需要的是可视化的页面展示,结合表格合输出的test_result.md 和prd.md文档给我一个视觉方案

      2. 投喂了设计方案让某image2.0生成的设计图

      3. 最上层的 召回率 │ 检出率 │ 检全率 │ 精确率 │ IoU │ 误检率 │ ← 环形仪表盘增加体现上次测试变化的对比指标

      4. 最终输出产物在windows上的光电无人机算法测试集.xlsx和指标计算结果和图片在linux服务器上,目前计算的py代码也在服务器,我需要将表格放到服务器上,然后你觉得可以怎么实现这个可视化方案呢,给我一个技术路径包括存储和实现架构,用中文

      5. 这里还有+ .jpg 原图片;Windows Excel编辑 → scp上传到服务器excel/目录这步骤一定需要吗, 我的预期是windows手动维护测试集的等级,测试结果自动返回到linux里的excel编辑记录,每次执行前上传到linux里,执行后更新excel然后再覆盖windows的excel;

      7. 可视化平台架构PRD.md和prd.md用哪个,可视化平台架构PRD.md如果是旧的旧删除吧,你的prd.md和prompt.md对比我手写的PRD.md可否对我写的内容有删减,告诉我删了的差异部分

      8. 缺失和不一致、及表述差异的内容都需要补充完整,不能删减;需要;我的prd没问题

      9. 检查现有代码重点检查生成路径;检查run_pipeline.sh的串联步骤需要满足prd.md的数据流转

      10. run_pipeline.sh应该只交互一次,为什么还需要输入路径后再手动执行,预期应该执行完毕每一个步骤后进行检查,检查步骤执行完毕后在输出路径存在了预期的文件则视为通过,再进行下一步

      11. http://ip:8080/dashboard/index.html 但是为什么置信度分布,实验历史对比,误检漏检样本展示和AUC指标面板没有图形,右上角的下拉框也是空的,是路径不对还是没有数据

      12. 现在都修复了,但是现在的新问题是误检/漏检样本展示中的图片没有展示出来,显示的是图片名而非图片

      13. 增加一个新要求,放到相关prd.md等相关文档中并进行代码优化,随着右上角的实验记录切换,响应切换正例集检测还是负例集误检还是正负混合,切换自动刷新所有页面内容;漏检误检样本的路径也相应变化展示对应的图片

      14. 新要求还不完善,交互输入的命令中只有0和1应该新增2代表正负混合,补充到prd等相关文档;负样本和正负混合样本还应该增加指标AUC的计算和输出以及呈现,也补充道prd等相关文档;页面切换实验样本后并没有自动高亮是正例集检测还是负例集误检,还是正负混合,切换后联动响应整个页面,再整体检查下代码逻辑

      15. 切换正例集检测还是负例集误检还是正负混合因为指标的不同页面也要发生响应刷新,现在由正例集检测点击负例集误检后没有出现对应的指标和页面变化,预期应该响应切换到负例集误检页面,展示对应的指标和样本图片。对应的指标见光电无人机算法测试集.xlsx的可见光负例检测实验记录sheet

      16. 根据 误检漏检样本展示点击…后的设计图补充prd等相关文档和代码开发

  • 中间code层面由于有小龙虾的经验,前置的prd和prompt准备操作比较足,没有出现太大的问题,不断调试修正即可,期间也是使用了小样本进行demo测试;后期由于没有接触过前端所以ui调整费了些功夫,有些和ai的对话交互和反馈还不够清晰准确