对抗ai幻觉感悟

总感觉在都发展到Harness的时代还说这个很古老了。

但是codex这些的agent设计里也会包含这些ai缺点规避的提示词。我之前也从从很多agent设计中看见过,agent设计也包含这类常见错误+具体实践过程的错误。

无处不在的注释-旧问题
很多模型会生成过量注释,甚至出现解释代码表面动作、没有信息增量的“废话注释”。

教条式沉迷-这个初次意识到
模型很容易机械复用训练中高频出现的“标准解法”:标准分层、标准模式、标准抽象,看起来很工整,但不一定适合当前系统。问题不在于它不会写规范代码,而在于它往往缺少对具体上下文的真实判断

回避重构
这是很典型的一类:模型非常擅长在现有结构上继续堆补丁,却天然抗拒真正意义上的重写、收口和结构调整。它更偏向“把当前任务先做完”,而不是像成熟工程师那样,在复杂度明显失控时主动停下来重构

错误似曾相识-在同一个对话错了经常遇见
模型常会直接手写一个“看起来能用”的实现,而不是优先收敛到成熟依赖、已有组件或已验证方案。于是很多历史上反复出现过的坑

然后是我积累的几个:

模型 gpt5.4 会盲目自信。

比如给我的方案:让模型本体在 search_off 条件下稳定变强

其实默认了 search_on 很强。但其实那个也很垃圾。你必须指出来这种项。

比如:风险错判它会跟你说新方案风险高,旧方案风险低。但实际上旧方案和新方案风险一致的。且旧方案显然跑不通了。这种情况指出来,可能有不一样的答案。纠正幻觉,不要放任幻觉,太难了,和模型斗智斗勇。

1 个赞

太真实了!我上次让它写个对接脚本,给我编了个完全不存在的API,调了半小时才发现是瞎编的,人都麻了:rofl: 现在我一般都会让它写完内容自己先校验一遍有没有捏造的信息,涉及到API或者官方文档的我都自己再去搜一遍确认,踩坑踩多了都有经验了哈哈!

2 个赞

你是懂得梦龙,泪目了

1 个赞

不过我刚刚正准备补充第三点,不断追问,结果被我的模型骂了,
我:你考虑怎么做这个了吗
他:我考虑了,有,而且我选搜索不是因为它“高级”,这是现在唯一真正证明过有用的东西

1 个赞

你整理的这些点都很准,尤其是“回避重构”和“教条式沉迷”这两条——它们本质上都是同一个问题:模型在优化“看起来对”,而不是在优化“真的适合”。

我补一个我感觉最关键的:
幻觉大多数时候不是靠“追问”来解决的,而是靠“验证结构”来预防的。

因为等幻觉已经说出来了,再去追问,模型往往会进入“自证模式”——越解释越把它自己的说法合理化,而不是真的回头校验。

所以真正有效的方式是在 prompt 里埋两层东西:

  1. 不确定性触发
    在要求里明确说:“遇到不确定的信息,不要编,要直接说不知道,并列出你能查证的路径。”

  2. 输出自检点
    要求模型在给出方案之前,先列出:这个方案依赖了哪些未经核实的假设?有哪些点是你自己无法确认的?

这样它就不是在“回答之后被追问”,而是在“回答之前先过一遍风险”。

你说的“和模型斗智斗勇”,我理解背后的痛点其实就在这里:
不是模型不愿意认错,而是你没有给它一个结构化的方式去认错。

所以prompt里加一层“自我怀疑清单”,往往比追问更有效。

2 个赞