CC3
1
总感觉在都发展到Harness的时代还说这个很古老了。
但是codex这些的agent设计里也会包含这些ai缺点规避的提示词。我之前也从从很多agent设计中看见过,agent设计也包含这类常见错误+具体实践过程的错误。
无处不在的注释-旧问题
很多模型会生成过量注释,甚至出现解释代码表面动作、没有信息增量的“废话注释”。
教条式沉迷-这个初次意识到
模型很容易机械复用训练中高频出现的“标准解法”:标准分层、标准模式、标准抽象,看起来很工整,但不一定适合当前系统。问题不在于它不会写规范代码,而在于它往往缺少对具体上下文的真实判断
回避重构
这是很典型的一类:模型非常擅长在现有结构上继续堆补丁,却天然抗拒真正意义上的重写、收口和结构调整。它更偏向“把当前任务先做完”,而不是像成熟工程师那样,在复杂度明显失控时主动停下来重构
错误似曾相识-在同一个对话错了经常遇见
模型常会直接手写一个“看起来能用”的实现,而不是优先收敛到成熟依赖、已有组件或已验证方案。于是很多历史上反复出现过的坑
然后是我积累的几个:
模型 gpt5.4 会盲目自信。
比如给我的方案:让模型本体在 search_off 条件下稳定变强。
其实默认了 search_on 很强。但其实那个也很垃圾。你必须指出来这种项。
比如:风险错判,它会跟你说新方案风险高,旧方案风险低。但实际上旧方案和新方案风险一致的。且旧方案显然跑不通了。这种情况指出来,可能有不一样的答案。纠正幻觉,不要放任幻觉,太难了,和模型斗智斗勇。
1 个赞
太真实了!我上次让它写个对接脚本,给我编了个完全不存在的API,调了半小时才发现是瞎编的,人都麻了
现在我一般都会让它写完内容自己先校验一遍有没有捏造的信息,涉及到API或者官方文档的我都自己再去搜一遍确认,踩坑踩多了都有经验了哈哈!
2 个赞
CC3
4
不过我刚刚正准备补充第三点,不断追问,结果被我的模型骂了,
我:你考虑怎么做这个了吗
他:我考虑了,有,而且我选搜索不是因为它“高级”,这是现在唯一真正证明过有用的东西
1 个赞
你整理的这些点都很准,尤其是“回避重构”和“教条式沉迷”这两条——它们本质上都是同一个问题:模型在优化“看起来对”,而不是在优化“真的适合”。
我补一个我感觉最关键的:
幻觉大多数时候不是靠“追问”来解决的,而是靠“验证结构”来预防的。
因为等幻觉已经说出来了,再去追问,模型往往会进入“自证模式”——越解释越把它自己的说法合理化,而不是真的回头校验。
所以真正有效的方式是在 prompt 里埋两层东西:
-
不确定性触发
在要求里明确说:“遇到不确定的信息,不要编,要直接说不知道,并列出你能查证的路径。”
-
输出自检点
要求模型在给出方案之前,先列出:这个方案依赖了哪些未经核实的假设?有哪些点是你自己无法确认的?
这样它就不是在“回答之后被追问”,而是在“回答之前先过一遍风险”。
你说的“和模型斗智斗勇”,我理解背后的痛点其实就在这里:
不是模型不愿意认错,而是你没有给它一个结构化的方式去认错。
所以prompt里加一层“自我怀疑清单”,往往比追问更有效。
2 个赞