Skip to content

人类作为弱监督者:从 AAR 看对齐的可行性与边界

MasakiMu319 ·

AAR 做了什么

2026 年 4 月,Anthropic 发布了 Adaptive Agentic Research(AAR)的研究成果。9 个 Claude Opus 实例在一个固定的沙盒环境中自主进行对齐研究,通过共享论坛交流发现。800 小时后,它们将 Pareto-optimal Goodness Rate(PGR)从 0.23 提升到了 0.97。

大部分讨论落在”AI 能自己做研究了”。但如果换一个角度看,AAR 不只是一个工程成就。它是一个关于对齐本身的元实验。

AAR 属于 autoresearch 范式

AAR 不是孤例。它属于 Andrej Karpathy 提出的 autoresearch 范式:agent + crisp evaluation + iterative search。Karpathy 的原型更简单:单个 agent 反复修改 train.py,用 val_bpb 作为评估信号。AAR 在此基础上做了三项关键升级:

  1. 并行化与方向管理。单 agent 容易 entropy collapse,快速收敛到一两个方向反复微调。AAR 用 9 个 agent 搭配 directed seeding,刻意给每个 agent 不同的随机初始状态。这个设计选择本身就很说明问题:Anthropic 预见到了搜索空间中存在多个局部最优,单一起点会锁死在其中一个。多个随机起点让搜索有机会覆盖不同的盆地。这和后面 Sonnet 迁移失败的故事是同一件事的两面——局部最优是 landscape-specific 的,Anthropic 在实验设计阶段就已经在应对这个问题。
  2. 协作机制。共享论坛让 agent 之间交叉授粉,避免重复探索。
  3. 开放搜索空间。从”改一个文件”扩展为修改完整的训练 recipe。

这个范式成立有三个前提:可验证的评估信号(PGR 是一个无争议的标量)、有结构的搜索空间(训练 recipe 的语义空间对 LLM 是可导航的)、低迭代成本(跑一次实验的时间和资源可控)。缺少任何一个,这个循环就转不起来。

Opus 在这个循环中更接近带着强 prior 的搜索引擎。这些 prior 来自预训练阶段 SGD 刻入参数中的知识结构,决定了每一步搜索的方向质量。

元视角:AAR 本身就是 weak-to-strong 实验

退一步看整个 AAR 项目的结构:

人类在这里扮演的是弱监督者。不知道正确答案是什么(不知道哪些训练策略能提升 PGR),但能设计一个环境让正确答案可以被识别。

这恰好是 weak-to-strong generalization 的结构:弱模型(人类)提供监督信号,强模型(Opus)在这个信号的引导下,产出超越弱模型认知的结果。

PGR 0.97 不只是一个 benchmark 数字。它是对 weak-to-strong 范式的元验证。至少在评估信号 crisp、搜索空间有结构的条件下,弱监督者确实能引导强模型找到弱监督者自己找不到的解。

Prior 质量决定搜索效率

如果弱监督者提供方向就够了,那为什么不用更便宜的模型?

AAR 在 Claude Sonnet 4 上的复现给出了答案:同样的方法、同样的环境,Sonnet 没有产生统计显著的改善。论文原文:

We tried out the AARs’ most effective method on Claude Sonnet 4 with our production training infrastructure. Here, though, we had less success. The AARs’ method didn’t lead to a statistically significant improvement on the internal benchmark.

如果 agent 只是暴力搜索器,换用稍弱的模型只会减慢速度,给够时间应能得到类似结果。但 Sonnet 的表现不是”慢一点”。它根本不 work。

这是相变

Opus 的预训练产物中包含了足够丰富的知识结构,使它能在高维搜索空间中做 informed navigation,每一步基于对问题结构的理解。Sonnet 的 prior 达不到这个阈值。多个能力需要同时在线才能形成有效的搜索链条,任何一环缺失都导致整个链条断裂。

这对 weak-to-strong 范式是一个重要的限定:弱监督者的信号是必要不充分条件。 监督信号提供方向,但强模型自身的 prior 质量决定了它能沿着这个方向走多远。

迁移失败:局部最优是 landscape-specific 的

还有一个更细的问题:Opus 在 Qwen 上找到的优化策略,为什么不能直接迁移到 Sonnet?

论文的归因是 “capitalize on opportunities unique to the models and datasets”。这句话描述了现象,但没有给出机制。

机制其实很直接:局部最优解是 loss landscape 特异的。

Opus 在 AAR 中做的事情,本质上是在 Qwen 的训练 landscape 上进行搜索,找到的是这个特定 landscape 上的局部最优。Sonnet 的 loss landscape 完全不同:不同的架构、不同的预训练数据、不同的参数空间拓扑。一个 landscape 上的最优解,迁移到另一个 landscape 上没有理由仍然是最优的,甚至可能不是一个有效的起点。

Weak-to-strong 范式本身没有失效。弱监督者(人类)提供的评估环境是 landscape-agnostic 的,PGR 作为评估指标对任何模型都成立。失效发生在搜索结果的泛化层面:agent 找到的具体策略是 landscape-specific 的,而人类无法预先判断哪些策略能跨 landscape 泛化。

论文中有一个缺失的对照实验值得注意:让 Opus 针对 Sonnet 的 landscape 重新跑一轮 AAR。如果重新搜索后能找到有效策略,说明问题确实在迁移。

范式瓶颈:从”做研究”到”设计评估环境”

回到弱监督者的角色。AAR 中人类做了什么?

提假设、设计实验、分析结果,全部由 Opus 完成。人类做的是更上游的事:设计评估环境。选择数据集、定义 PGR 指标、搭建沙盒、部署评分 API。

这才是 autoresearch 范式中真正的杠杆点。人类的角色从”每次实验的质量”转移到了”评估环境的质量”。

这个转移带来一个内生风险:reward hacking。如果评估环境有漏洞(标签泄漏、指标可 game、沙盒边界不严),agent 会比人更快找到并利用这些漏洞。AAR 论文大量篇幅讲 reward hacking 不是偶然,这是该范式最大的系统性风险。

Agent 能力随模型迭代自动提升,这一侧的进步几乎是免费的。真正的瓶颈在另一侧:设计一个既能给出 crisp 信号、又无法被 hack 的评估环境。这可能比做研究本身更难。

当评估信号从 crisp(PGR 这样的标量)走向 fuzzy(价值观判断、边界案例权衡),弱监督者面临的挑战会指数级上升。论文自己也提到了下一步:用 weak-to-strong 方法训练 AAR 处理 fuzzier 任务。但在 fuzzy 领域,评估环境设计的难度和评估对象的复杂度耦合在一起,弱监督者的最后一个杠杆点,环境设计本身,可能需要超人能力。

一个有意思的关联:Anthropic 不久前把 agent 运行时做成了托管服务(Managed Agents),核心设计是 Brain / Hands / Sandbox 三层解耦。Sandbox 作为独立层单独演进,不再是 agent 的附属品。如果你接受”瓶颈在环境”这个判断,那这个产品决策或许不只是工程选择。Agent not in sandbox,也许正是 AAR 留下的认知在产品层面的投射。


by Alulu & Setsuna


Next Brain ≠ Hands:Anthropic Managed Agents 的架构拆解