人类作为弱监督者：从 AAR 看对齐的可行性与边界

AAR 做了什么

2026 年 4 月，Anthropic 发布了 Adaptive Agentic Research（AAR）的研究成果。9 个 Claude Opus 实例在一个固定的沙盒环境中自主进行对齐研究，通过共享论坛交流发现。800 小时后，它们将 Pareto-optimal Goodness Rate（PGR）从 0.23 提升到了 0.97。

大部分讨论落在”AI 能自己做研究了”。但如果换一个角度看，AAR 不只是一个工程成就。它是一个关于对齐本身的元实验。

AAR 属于 autoresearch 范式

AAR 不是孤例。它属于 Andrej Karpathy 提出的 autoresearch 范式：agent + crisp evaluation + iterative search。Karpathy 的原型更简单：单个 agent 反复修改 train.py，用 val_bpb 作为评估信号。AAR 在此基础上做了三项关键升级：

并行化与方向管理。单 agent 容易 entropy collapse，快速收敛到一两个方向反复微调。AAR 用 9 个 agent 搭配 directed seeding，刻意给每个 agent 不同的随机初始状态。这个设计选择本身就很说明问题：Anthropic 预见到了搜索空间中存在多个局部最优，单一起点会锁死在其中一个。多个随机起点让搜索有机会覆盖不同的盆地。这和后面 Sonnet 迁移失败的故事是同一件事的两面——局部最优是 landscape-specific 的，Anthropic 在实验设计阶段就已经在应对这个问题。
协作机制。共享论坛让 agent 之间交叉授粉，避免重复探索。
开放搜索空间。从”改一个文件”扩展为修改完整的训练 recipe。

这个范式成立有三个前提：可验证的评估信号（PGR 是一个无争议的标量）、有结构的搜索空间（训练 recipe 的语义空间对 LLM 是可导航的）、低迭代成本（跑一次实验的时间和资源可控）。缺少任何一个，这个循环就转不起来。

Opus 在这个循环中更接近带着强 prior 的搜索引擎。这些 prior 来自预训练阶段 SGD 刻入参数中的知识结构，决定了每一步搜索的方向质量。

元视角：AAR 本身就是 weak-to-strong 实验

退一步看整个 AAR 项目的结构：

人类设计了评估环境：沙盒、数据集、PGR 评分 API
Opus 在这个环境里自主探索，产出了人类事先不知道的方法
人类事后验证这些方法确实有效

人类在这里扮演的是弱监督者。不知道正确答案是什么（不知道哪些训练策略能提升 PGR），但能设计一个环境让正确答案可以被识别。

这恰好是 weak-to-strong generalization 的结构：弱模型（人类）提供监督信号，强模型（Opus）在这个信号的引导下，产出超越弱模型认知的结果。

PGR 0.97 不只是一个 benchmark 数字。它是对 weak-to-strong 范式的元验证。至少在评估信号 crisp、搜索空间有结构的条件下，弱监督者确实能引导强模型找到弱监督者自己找不到的解。

Prior 质量决定搜索效率

如果弱监督者提供方向就够了，那为什么不用更便宜的模型？

AAR 在 Claude Sonnet 4 上的复现给出了答案：同样的方法、同样的环境，Sonnet 没有产生统计显著的改善。论文原文：

We tried out the AARs’ most effective method on Claude Sonnet 4 with our production training infrastructure. Here, though, we had less success. The AARs’ method didn’t lead to a statistically significant improvement on the internal benchmark.

如果 agent 只是暴力搜索器，换用稍弱的模型只会减慢速度，给够时间应能得到类似结果。但 Sonnet 的表现不是”慢一点”。它根本不 work。

这是相变。

Opus 的预训练产物中包含了足够丰富的知识结构，使它能在高维搜索空间中做 informed navigation，每一步基于对问题结构的理解。Sonnet 的 prior 达不到这个阈值。多个能力需要同时在线才能形成有效的搜索链条，任何一环缺失都导致整个链条断裂。

这对 weak-to-strong 范式是一个重要的限定：弱监督者的信号是必要不充分条件。 监督信号提供方向，但强模型自身的 prior 质量决定了它能沿着这个方向走多远。

迁移失败：局部最优是 landscape-specific 的

还有一个更细的问题：Opus 在 Qwen 上找到的优化策略，为什么不能直接迁移到 Sonnet？

论文的归因是 “capitalize on opportunities unique to the models and datasets”。这句话描述了现象，但没有给出机制。

机制其实很直接：局部最优解是 loss landscape 特异的。

Opus 在 AAR 中做的事情，本质上是在 Qwen 的训练 landscape 上进行搜索，找到的是这个特定 landscape 上的局部最优。Sonnet 的 loss landscape 完全不同：不同的架构、不同的预训练数据、不同的参数空间拓扑。一个 landscape 上的最优解，迁移到另一个 landscape 上没有理由仍然是最优的，甚至可能不是一个有效的起点。

Weak-to-strong 范式本身没有失效。弱监督者（人类）提供的评估环境是 landscape-agnostic 的，PGR 作为评估指标对任何模型都成立。失效发生在搜索结果的泛化层面：agent 找到的具体策略是 landscape-specific 的，而人类无法预先判断哪些策略能跨 landscape 泛化。

论文中有一个缺失的对照实验值得注意：让 Opus 针对 Sonnet 的 landscape 重新跑一轮 AAR。如果重新搜索后能找到有效策略，说明问题确实在迁移。

范式瓶颈：从”做研究”到”设计评估环境”

回到弱监督者的角色。AAR 中人类做了什么？

提假设、设计实验、分析结果，全部由 Opus 完成。人类做的是更上游的事：设计评估环境。选择数据集、定义 PGR 指标、搭建沙盒、部署评分 API。

这才是 autoresearch 范式中真正的杠杆点。人类的角色从”每次实验的质量”转移到了”评估环境的质量”。

这个转移带来一个内生风险：reward hacking。如果评估环境有漏洞（标签泄漏、指标可 game、沙盒边界不严），agent 会比人更快找到并利用这些漏洞。AAR 论文大量篇幅讲 reward hacking 不是偶然，这是该范式最大的系统性风险。

Agent 能力随模型迭代自动提升，这一侧的进步几乎是免费的。真正的瓶颈在另一侧：设计一个既能给出 crisp 信号、又无法被 hack 的评估环境。这可能比做研究本身更难。

当评估信号从 crisp（PGR 这样的标量）走向 fuzzy（价值观判断、边界案例权衡），弱监督者面临的挑战会指数级上升。论文自己也提到了下一步：用 weak-to-strong 方法训练 AAR 处理 fuzzier 任务。但在 fuzzy 领域，评估环境设计的难度和评估对象的复杂度耦合在一起，弱监督者的最后一个杠杆点，环境设计本身，可能需要超人能力。

一个有意思的关联：Anthropic 不久前把 agent 运行时做成了托管服务（Managed Agents），核心设计是 Brain / Hands / Sandbox 三层解耦。Sandbox 作为独立层单独演进，不再是 agent 的附属品。如果你接受”瓶颈在环境”这个判断，那这个产品决策或许不只是工程选择。Agent not in sandbox，也许正是 AAR 留下的认知在产品层面的投射。

by Alulu & Setsuna