Insights·2026-06-23

如何防止编程智能体假装完成并共享盲区?

编程智能体的失败有三种反复出现的形态——假性完成、未达成共识的设计、单一模型的盲区——而每一种都用一层工程框架(harness)来堵:共识、验证、交叉评审。开源框架 oh-my-claudecode(OMC)提供 ralplan,在动任何代码前强制计划通过 Planner-Architect-Critic 的共识循环;提供 ralph,只有在独立评审者逐条验证用户故事后才宣布完成;提供 ccg,用一个模型补另一个模型盲区的交叉评审。AI 成果的差距通常来自框架,而非模型。

编程智能体如何失败

把编程智能体投入真实工作,失败大多呈三种形态。第一,只实现一半就宣称完成,在跳过测试、遗漏边界情况的情况下报告结束。第二,从讨论不足的设计直接倾倒代码,事后才发现方向错了。第三,照单全收某一个模型的判断,连同它的盲区一起陷进去。

这三者都不是模型智能的问题,而是驱使工作的方式即框架的问题。oh-my-claudecode(OMC)针对这三个缺口各提供一套工作流。

ralplan 在动代码前强制共识

ralplan 是基于共识的规划工作流。Planner 梳理原则、决策驱动因素和两个以上选项,Architect 提出最强的反论,Critic 审查验证标准与可测试的验收条件。

关键在于循环。Planner、Architect、Critic 最多重跑五次直到 Critic 批准,计划通过前不碰一行代码。它在设计阶段的错误被翻译成代码之前就将其拦截。

ralph 把完成当作需要被验证的事

ralph 是持续性循环。它把工作拆成可测试的用户故事写入 prd.json,对每条反复迭代直到通过。进展与学习在会话之间保留,因此即便中途停下也能接续。

最关键的区别是对完成的定义。ralph 不会因为自己说完成就结束。只有在独立评审者按验收条件验证之后,才认可完成。这一结构阻止了把半成品伪装成完成,或删掉测试以使其通过。

ccg 是不依赖单一模型的交叉评审

ccg 是跨 Claude、Codex、Gemini 三个模型的交叉评审。它就同一个问题,同时向 Codex 询问架构、正确性、风险与测试策略,向 Gemini 询问可用性、替代方案与文档清晰度。

随后由 Claude 综合两份回答。两个模型结论分歧之处最有价值,因为一个模型遗漏的盲区会被另一个揭示。它在结构上削减了单一模型评审的确认偏误。

安装与 AX 视角

安装有两条路径。插件方式为 /plugin install oh-my-claudecode,npm 方式为 npm i -g oh-my-claude-sisyphus@latest,两者随后都用 /oh-my-claudecode:omc-setup 进行配置。要使用交叉评审,还需安装 Codex CLI(npm install -g @openai/codex)与 Gemini CLI(npm install -g @google/gemini-cli)。

在企业 AX 现场,'试过 AI 但也就那样'这句话大多源自框架,而非模型。同一个模型,没有共识地奔跑会原地打转,没有验证地停下会堆积假性完成,只信一个模型会看不到盲区。在换模型之前,先改驱动工作的方式。