标签： Anthropic

包含标签“Anthropic”的全部文章。

人类作为弱监督者：从 AAR 看对齐的可行性与边界

15 Apr, 2026

Anthropic 的 AAR 项目表面上在研究自主 AI 研究。换一个角度看，它是 weak-to-strong alignment 的元验证。人类作为弱监督者，在评估环境设计这一杠杆点上引导超越自身能力的模型。
Brain ≠ Hands：Anthropic Managed Agents 的架构拆解

9 Apr, 2026

Anthropic 发布了 Managed Agents 的架构博文。拆开看，核心不是三层架构本身，而是两个反直觉的解耦：Session 不是 Context，Tool 执行不在 Agent 身边。

人类作为弱监督者：从 AAR 看对齐的可行性与边界