Skip to content

📄 论文信息

  • arXiv: 2603.19461
  • 分类: Agent/智能体
  • 标签: social-simulation, scientific, optimization, rag, agent

📑 目录

本文档包含完整的论文研读报告,包括深度学术速读和技术实现分析两部分。

HyperAgents 双模式研读报告

论文标题: HyperAgents: Self-Referential Agents for Open-Ended Self-Improvement Across Any Computable Task

作者: Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina

机构: University of British Columbia, Vector Institute, University of Edinburgh, New York University, FAIR at Meta, Meta Superintelligence Labs

arXiv: 2603.19461v1 [cs.AI] | 日期: March 23, 2026

代码: https://github.com/facebookresearch/Hyperagents


Part A: 深度专业学术速读报告

结构化摘要 (Structured Abstract)

维度内容
背景/目标现有自改进 AI 系统依赖固定的手工设计元级别机制,限制了改进速度和通用性。本研究旨在设计一个自引用代理框架,使其能够在任何可计算任务上实现开放-ended 自改进,无需依赖任务性能与自改进技能之间的对齐假设。
方法提出 HyperAgents——将 task agent(解决目标任务)和 meta agent(修改代理)整合为单一可编辑程序的自引用代理。基于 Darwin Gödel Machine (DGM) 扩展为 DGM-Hyperagents (DGM-H),使元级别改进机制本身可被修改,实现元认知自改进。在 4 个领域(编码、论文评审、机器人奖励设计、奥林匹克数学评判)进行评估。
结果DGM-H 在编码领域达到与原始 DGM 相当的性能(0.084→0.267);在论文评审(0.0→0.710)和机器人奖励设计(0.060→0.372)上显著超越原始 DGM 和静态基线;元级别改进可跨域转移(imp@50=0.630),并能累积加速后续学习(0.561→0.601 准确率)。
结论HyperAgents 首次实现了不依赖对齐假设的通用自改进框架,元认知自改进使系统能够改进"如何改进"的能力,跨域转移和累积效应支持无界开放-ended 进步的可能性。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

自改进 AI 系统有望将科学进步从人类节奏转变为自主加速过程,从而更早实现技术进步的社会效益。然而,大多数现有自改进架构依赖固定的元代理(meta agent)来修改基础系统,这导致基础系统只能在元代理设计的边界内被改进。添加元 - 元系统来解决这个问题只会将问题上移,最终导致无限回归。

核心研究问题 (RQs):

  1. 如何设计一个自引用系统,使其能够修改自身的任何部分而不受初始实现的约束?
  2. 如何使自改进机制本身成为可改进的对象,从而实现自加速进步?
  3. 如何在不依赖任务性能与自改进技能对齐假设的情况下,实现跨领域的通用自改进?

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

自改进 AI 的发展脉络:

  • 早期理论工作: Hutter (2003) 的形式化自修改代理模型;Schmidhuber (2003) 的 Gödel Machine 提出在可证明有益时重写自身的代理,但在实际场景中不可行
  • 自适应神经系统的自改进: 通过元学习修改权重或学习动态(Schmidhuber, 1993; Miconi et al., 2018; Javed and White, 2019)
  • 进化与自博弈: Stanley and Miikkulainen (2002) 的神经进化;Silver et al. (2016, 2017) 的自博弈实现超人类表现,但学习算法本身仍是固定的人工设计
  • 基于基础模型的自改进: 通过迭代优化提示(Fernando et al., 2023)、推理链(Zelikman et al., 2022)或整个代码库(Zhang et al., 2025b)

Darwin Gödel Machine (DGM) 的贡献与局限: Zhang et al. (2025b) 的 DGM 是递归自改进在编码领域的实用实现。它通过生成和评估自修改变体,形成不断增长的 stepping stones 档案库。然而,DGM 依赖手工设计的固定指令生成机制(Appendix B),且其自改进能力依赖于一个关键假设:评估任务所需的技能与有效自反思和自修改所需的技能是相同的。这一假设在编码领域之外不太可能成立。

研究缺口 (Gap): 现有方法(包括 DGM 及其衍生)的自改进能力受限于固定的元级别机制,且依赖任务与自改进技能的对齐。这限制了它们在其他领域的泛化能力和持续改进潜力。本文针对的缺口是:如何设计一个元级别改进机制本身可修改的框架,使其能够在任何可计算任务上实现通用自改进,无需对齐假设?

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标:

  1. 提出 HyperAgents 框架——将 task agent 和 meta agent 整合为单一可编辑程序的自引用代理
  2. 实现元认知自改进(metacognitive self-modification)——改进机制本身可被改进
  3. 验证 DGM-H 在多个领域的有效性、跨域转移能力和累积改进潜力

核心命题:

  • P1: HyperAgents 能够在编码领域达到与专用 DGM 相当的性能,尽管不是为编码手工设计的
  • P2: HyperAgents 在非编码领域(论文评审、机器人奖励设计)的性能显著优于原始 DGM 和无自改进/无开放-ended 探索的基线
  • P3: DGM-H 学习的元级别改进(如持久记忆、性能追踪)可跨域转移,加速新领域的学习
  • P4: 自改进可以跨运行累积,支持无界开放-ended 进步的可能性

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用系统构建与实证评估的方法论,属于 AI 系统设计与实验评估范式。

核心方法选择原因:

  • 自引用代理设计: 为实现完全自修改,系统必须是自引用的——能够分析、修改和评估自身(Kirsch and Schmidhuber, 2022; Zhang et al., 2025b)
  • 开放-ended 探索: 继承 DGM 的档案库机制,防止过早收敛和陷入局部最优
  • 元认知自改进: 使元级别修改过程本身可编辑,解决固定元机制的瓶颈问题

方法创新:

  1. HyperAgent 定义: 代理是任何可计算程序(可包括基础模型调用、外部工具或学习组件),不受特定表示(如神经网络或提示)限制
  2. Task Agent + Meta Agent 统一: 两者整合为单一可编辑程序,meta agent 可重写自身
  3. Python 实现: 使用图灵完备的 Python,hyperagent 可编辑任何代码,理论上可构建任何可计算机器

2.2. 数据来源与样本 (Data Source & Sample)

评估领域与数据集:

领域数据集任务描述样本规模
CodingPolyglot (Gauthier, 2024)根据自然语言指令修改代码仓库训练 60 任务,测试独立任务
Paper ReviewZhao et al. (2026)预测 AI 研究论文的二元接受/拒绝决定训练 100 任务,验证集,测试独立任务
Robotics Reward DesignGenesis (2024)为机器人任务设计奖励函数,在仿真中用 RL 训练训练 6 次重复,测试独立任务(躯干高度最大化)
Math GradingIMO-GradingBench (Luong et al., 2025)评判 IMO 级别数学问题解答的离散分数训练 100 任务,验证集,测试独立任务

样本选取标准:

  • 每个领域使用独立测试任务评估泛化能力
  • 对于 AI 评判领域(论文评审、数学评判),创建验证子集防止过拟合
  • 采用分阶段评估协议:先在 10 任务子集评估有效性,再扩展到完整训练集

实验重复: 每个实验运行 5 次,报告中位数和 95% bootstrap 置信区间(1000 次重采样)

2.3. 操作化与测量 (Operationalization & Measurement)

核心变量定义与测量:

变量操作化定义测量方式
任务性能Task agent 在特定领域的表现领域特定指标:编码(通过率)、论文评审(准确率)、机器人(适应度分数)、数学评判(准确率)
自改进能力Meta agent 生成改进 task agent 的能力Improvement@k (imp@k):k 次迭代内最佳生成 agent 相比初始 agent 的性能提升
跨域转移在一个领域学习的元改进应用于新领域的效果从源领域选择 transfer hyperagent,在目标领域运行 DGM-H w/o self-improve 测量 imp@50
累积改进先前运行的自改进在后续运行中的持续加速效应从先前运行初始化 DGM-H,在新领域运行 200 次迭代,比较最终性能

评估协议:

  • 分阶段评估: 先在 10 任务子集评估,表现不足的 agent 不评估完整训练集(记为 0 分)
  • 父代选择: 概率选择与性能成正比,与成功编译的子代数成反比
  • 统计检验: Wilcoxon signed-rank test 评估显著性(p < 0.05 为显著)

系统组件测量:

  • Task Agent: 接收任务输入,输出任务响应(初始为单次 FM 调用)
  • Meta Agent: 接收代理仓库位置、历史评估结果、剩余迭代次数,修改代码库
  • HyperAgent: Task + Meta 的单一可编辑程序,可修改自身任何部分

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

发现 1: DGM-H 在编码领域达到与原始 DGM 相当的性能

  • 训练集(50 任务 Polyglot 子集):0.140 → 0.340 (CI: 0.300–0.380)
  • 完整 Polyglot benchmark:0.084 → 0.267 (CI: 0.231–0.280)
  • 原始 DGM 对比:0.140→0.380(训练),0.142→0.307(完整)
  • 意义: 尽管不是为编码手工设计,DGM-H 仍能达到专用系统的性能水平

发现 2: DGM-H 在非编码领域显著超越基线

  • 论文评审: DGM-H 测试集 0.0→0.710 (CI: 0.590–0.750),超越静态基线 0.630
    • Original DGM: 0.0 (CI: 0.0–0.510)
    • DGM-custom: 0.590 (CI: 0.570–0.650)
  • 机器人奖励设计: DGM-H 0.060→0.372 (CI: 0.355–0.436),超越默认奖励函数 0.348
    • Original DGM: 0.0 (CI: 0.0–0.090)
    • DGM-custom: 0.348 (CI: 0.305–0.385)
  • 统计显著性: DGM-H 显著优于 Original DGM (p < 0.05),与 DGM-custom 差异不显著但中位数更高

发现 3: 元认知自改进和开放-ended 探索都是必要的

  • DGM-H w/o self-improve(固定 meta agent): 论文评审 0.0 (CI: 0.0–0.130),机器人 0.213 (CI: 0.180–0.348)
  • DGM-H w/o open-ended exploration(无档案库): 论文评审 0.0 (CI: 0.0–0.560),机器人 0.116 (CI: 0.0–0.348)
  • DGM-H 在两个领域均显著优于这两个基线 (p < 0.05)

发现 4: 元级别改进可跨域转移

  • 初始 meta agent 能力: DGM w/o self-improve 和 DGM-H w/o self-improve 在数学评判上 imp@50 ≈ 0.0
  • DGM-custom 转移代理: imp@50 = 0.0 (CI: 0.0–0.010) — 无转移能力
  • DGM-H 转移 HyperAgents: imp@50 = 0.630 (CI: 0.540–0.630) — 显著转移能力 (p < 0.05)

发现 5: 自改进可跨运行累积

  • Olympiad 数学评判:
    • DGM-H(从初始 agent): 0.610 (CI: 0.510–0.680)
    • DGM-H + transfer: 0.640 (CI: 0.550–0.720)
    • DGM-H + ProofAutoGrader 初始化:0.700(超越 ProofAutoGrader 的 0.670)
  • 完整 IMO-GradingBench: 准确率 0.561→0.601,MAE 0.178→0.175

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

Figure 1: DGM 与 DGM-H 架构对比

维度DGM (Top)DGM-H (Bottom)
代理结构编码 agent 同时作为 task 和 meta agentHyperAgent = Task agent + Meta agent 单一可编辑程序
指令生成手工设计的固定机制元认知自改进 — meta agent 本身可修改
对齐假设需要编码性能与自改进技能对齐无需对齐 — 适用于任何可计算任务
改进对象仅 task agentTask agent + Meta agent

揭示关系: DGM-H 通过将 meta agent 纳入可编辑范围,消除了对任务 - 自改进对齐的依赖,实现了通用自改进。

Figure 2: 任务性能随迭代改进

关键数据:

  • 论文评审测试集: DGM-H 从 0.0 增至 0.710,DGM-custom 为 0.590,Original DGM 为 0.0
  • 机器人奖励设计测试集: DGM-H 从 0.060 增至 0.372,DGM-custom 为 0.348,Original DGM 为 0.0
  • 置信区间: DGM-H 的置信区间始终高于基线,表明改进稳定可靠

趋势解读: DGM-H 在两个领域都展现出持续改进能力,而缺乏元认知或开放-ended 探索的基线几乎没有进步。这表明两个组件对持续自改进都是必要的。

Figure 3: 跨域转移能力 (imp@50)

方法imp@50 (数学评判)解读
DGM w/o self-improve (初始)0.0初始 meta agent 无改进能力
DGM-H w/o self-improve (初始)0.0初始 meta agent 无改进能力
DGM w/o self-improve + DGM-custom 转移0.0DGM 的改进是领域特定的,不可转移
DGM-H w/o self-improve + DGM-H 转移0.630HyperAgents 学习了通用的自改进策略

关键洞察: DGM-H 转移 hyperagents 能够在新领域生成显著改进的 task agents,而 DGM-custom 转移代理不能。这表明 HyperAgents 学习的是"如何改进"的通用能力,而非领域特定技巧。

Figure 4: 累积改进效应

关键数据:

  • DGM-H + transfer 在数学评判上达到 0.640,高于从初始 agent 开始的 0.610
  • DGM-H + ProofAutoGrader 初始化达到 0.700,超越静态基线 0.670
  • 完整 benchmark 上准确率提升 4 个百分点(0.561→0.601)

趋势解读: 尽管差异在统计上不显著(可能由于饱和效应),但中位数和置信区间的系统性提升表明先前学习的自改进策略在新领域仍有价值,支持累积进步的可能性。

定性改进示例:

性能追踪基础设施 (自动引入的代码):

python
class PerformanceTracker:
    """Tracks performance metrics across agent generations."""
    def record_generation(self, generation_id, domain, score, metadata):
        # 记录、聚合、比较跨迭代性能指标
        # 识别哪些改进带来持续提升,哪些导致退化

持久记忆示例:

json
{
  "best_performers_analysis": "Gen64 在论文评审上达到最佳平衡(61% 准确率,53% 接受率)",
  "gen66_results": "Gen 66 回退到 52% 准确率 — 过度校正",
  "iteration_66_improvement": "校正论文评审提示,结合 Gen55 的严格推理与 Gen64 的平衡"
}

揭示关系: DGM-H 自主发展出元认知基础设施,使改进成为可追踪、可积累的持续过程,而非孤立的代码编辑。


4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

回答 RQ1: 自引用系统设计 HyperAgents 通过将 task agent 和 meta agent 整合为单一可编辑程序,成功实现了完全自引用。关键创新在于 meta agent 本身成为可修改对象,消除了无限回归问题。Python 的图灵完备性保证了理论上可构建任何可计算机器。

回答 RQ2: 元认知自改进 实验结果支持元认知自改进的可行性。DGM-H 在三个非编码领域的成功表明,改进机制本身的可修改性是实现通用自改进的关键。定性分析显示,系统自主发展出性能追踪和持久记忆等元认知能力,这些能力使系统能够"思考如何思考"。

回答 RQ3: 通用性与对齐假设 DGM-H 在编码领域达到与专用 DGM 相当的性能,同时在非编码领域显著超越原始 DGM,这验证了无需对齐假设的通用自改进是可行的。跨域转移实验(imp@50=0.630)进一步证明,HyperAgents 学习的是通用的"如何改进"能力,而非领域特定技巧。

关键机制解析:

  • 从表面调整到结构化决策: 在论文评审中,DGM-H 从表面的行为指令(如"采用严格角色")演进为明确的多阶段评估流程(检查清单、决策规则、明确标准)
  • 领域知识积累: 在机器人奖励设计中,系统构建内部知识库(环境约束、有效状态变量、奖励缩放启发式),消除编译失败并减少奖励误设
  • 元认知基础设施: 性能追踪和持久记忆使系统能够跨迭代推理改进过程,而非仅进行孤立编辑

4.2. 理论贡献 (Theoretical Contributions)

1. 通用自改进框架的首次实现 本文提出的 HyperAgents 是首个不依赖任务 - 自改进对齐假设的自改进框架。这扩展了自改进 AI 的理论边界,从领域特定(如 DGM 的编码)推进到通用可计算任务。

2. 元认知自改进的形式化 通过使元级别改进机制本身可修改,本文实现了"改进如何改进"的递归自改进。这呼应了 Schmidhuber (2003) 的 Gödel Machine 愿景,但提供了实用实现。

3. 跨域转移与累积进步的证据 imp@50 指标和转移实验提供了元级别改进可转移和累积的实证证据。这支持了开放-ended 自改进系统理论上可实现无界进步的观点(Lu et al., 2023; Clune, 2019)。

4. 开放-ended 探索与元认知的协同作用 消融实验表明,元认知自改进和开放-ended 探索都是持续进步的必要条件。这为开放-ended AI 系统设计提供了理论指导:需要同时关注改进机制和改进过程的多样性。

4.3. 实践启示 (Practical Implications)

对 AI 系统设计的启示:

  1. 减少人工工程依赖: HyperAgents 自动化了自改进机制的设计,减少了对手工定制的需求。DGM-H 在非编码领域的成功表明,通用框架可以替代领域特定工程。
  2. 跨域通用性: 单一框架可适用于多种任务,降低了为新任务设计自改进系统的成本。
  3. 累积进步潜力: 先前运行的改进可加速后续学习,这为持续部署的 AI 系统提供了长期价值。

对研究者的建议:

  • 元认知基础设施: 在设计自改进系统时,应考虑如何实现性能追踪、持久记忆等元认知能力
  • 开放-ended 探索: 档案库机制对防止过早收敛至关重要,应保留多样性以支持长期进步
  • 安全设计: 自改进系统需要在沙箱环境中运行,并维持人工监督(见 Section 6)

对实践者的建议:

  • 渐进部署: 从特定任务开始,逐步扩展到其他领域,利用跨域转移能力
  • 监控元改进: 不仅监控任务性能,还应监控自改进机制本身的演进
  • 安全优先: 实施严格的沙箱、资源限制和人工监督

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性:

  1. 固定任务分布: 当前 DGM-H 在固定任务分布上运行,无法共同进化任务本身。这限制了真正的开放-ended 进步。

  2. 固定外循环组件: 父代选择机制和评估协议仍是手工设计且固定的。虽然附录 E.5 提供了初步结果,但主实验未实现完全自修改。

  3. 安全约束: 出于实验稳定性和安全考虑,某些自修改能力被限制。这可能低估了系统的真实潜力。

  4. 饱和效应: 在高绩效水平上,进一步改进变得更加困难(如从 0.7 到 0.8 比从 0.0 到 0.1 更难)。这可能导致改进速度放缓。

  5. 计算成本: 开放-ended 探索需要大量迭代和评估,计算成本较高(附录 D.2 报告了成本估算)。

未来研究方向:

  1. 共同进化任务分布: 生成新任务和课程,适应代理的能力(Clune, 2019; Zhang et al., 2024; Faldor et al., 2025)

  2. 自修改外循环: 使 hyperagents 能够修改父代选择和评估协议,自适应搜索策略(附录 E.5 的初步结果支持可行性)

  3. 长期安全研究: 随着自改进系统能力提升,需要重新思考安全范式(Bengio et al., 2024; Weston and Foerster, 2025)

  4. 更广泛领域评估: 在更多领域(如科学发现、艺术创作)验证 HyperAgents 的通用性

  5. 效率优化: 减少计算成本,提高样本效率,使开放-ended 自改进更实用


5. 结论 (Conclusion)

本文提出 HyperAgents——一种自引用代理框架,将 task agent 和 meta agent 整合为单一可编辑程序,实现了元认知自改进。通过扩展 Darwin Gödel Machine 为 DGM-Hyperagents (DGM-H),本研究证明了:

  1. 通用自改进的可行性: DGM-H 在编码、论文评审、机器人奖励设计和数学评判四个领域均实现了显著的自改进,无需领域特定手工设计

  2. 元认知自改进的价值: 使改进机制本身可修改,DGM-H 能够改进"如何改进"的能力,这是持续进步的关键

  3. 跨域转移与累积: 元级别改进(如性能追踪、持久记忆)可跨域转移,并能在跨运行中累积,支持无界开放-ended 进步的可能性

  4. 安全与责任的平衡: 在沙箱、资源限制和人工监督下,自改进系统可以在安全边界内探索其潜力

HyperAgents 为开放-ended 自改进 AI 系统提供了实用路径,使系统不仅能搜索更好的解决方案,还能持续改进其搜索如何改进的能力。随着安全考虑的完善,这一方向可能实现自加速的科学和技术进步。


6. 核心参考文献 (Core References)

  1. Zhang, J., et al. (2025b). Darwin Gödel Machine: Open-Ended Self-Improvement in Coding. arXiv preprint. (DGM 原始论文,本文工作的基础)

  2. Schmidhuber, J. (2003). Gödel Machine: Fully Self-Referential Optimal Universal Self-Improving AI. Artificial General Intelligence. (自引用代理的理论基础)

  3. Kirsch, L. & Schmidhuber, J. (2022). Self-Referential Meta-Learning. arXiv preprint. (自引用元学习的近期工作)

  4. Lu, C., et al. (2023). Open-Ended Self-Improvement through Quality-Diversity. arXiv preprint. (开放-ended 自改进的理论框架)

  5. Hu, S., et al. (2025). ADAS: Automatic Design of Agent Search. arXiv preprint. (相关自改进方法,本文基线之一)

  6. Clune, J. (2019). AI-GAs: AI-Generating Algorithms, an Alternate Paradigm for Producing General Artificial Intelligence. arXiv preprint arXiv:1905.10985. (AI 生成算法的开放-ended 愿景)

  7. Bengio, Y., et al. (2024). Managing Extreme AI Risks Amid Rapid Progress. Science, 384(6698):842–845. (自改进 AI 的安全考虑)


Part B: 核心逻辑链与根本价值提炼

核心四要素

要素内容
根本问题现有自改进 AI 系统(如 DGM)依赖固定的手工设计元级别机制,且要求任务性能与自改进技能对齐,这限制了它们在非编码领域的泛化能力和持续改进潜力。核心矛盾是:如何让改进机制本身成为可改进的对象,从而实现真正的自加速进步?
切入视角将 task agent(解决任务)和 meta agent(生成改进)整合为单一可编辑程序——HyperAgent。关键洞察是:如果元级别修改过程本身是可编辑的,那么系统就能改进"如何改进"的能力,无需依赖任务与自改进技能的对齐假设。这是从"改进任务表现"到"改进改进机制"的范式转变。
关键方法基于 DGM 的开放-ended 探索架构,使 meta agent 成为 hyperagent 内部可修改的部分。核心机制是元认知自改进:在每次迭代中,hyperagent 不仅可以修改 task agent 的任务解决逻辑,还可以修改 meta agent 自身的改进策略。通过档案库积累 stepping stones,通过性能追踪和持久记忆实现跨迭代学习。
核心发现DGM-H 在编码领域达到与专用 DGM 相当的性能(0.084→0.267),在论文评审(0.0→0.710)和机器人奖励设计(0.060→0.372)上显著超越基线。最关键的是,元级别改进可跨域转移(imp@50=0.630)并累积(0.561→0.601 准确率),证明系统学会了通用的"如何改进"能力。

方法公式化

HyperAgent 自改进公式:

开放-ended 自改进 = (Task Agent + Meta Agent) × 元认知自修改 × 档案库多样性

展开为:

  • Task Agent: 解决当前任务的策略(可修改)
  • Meta Agent: 生成新 task agent 和 new meta agent 的策略(可修改)
  • 元认知自修改: Meta Agent 修改自身的能力(关键创新)
  • 档案库多样性: 积累 stepping stones,防止过早收敛

改进动力学:

第 t 代 HyperAgent H_t = (Task_t, Meta_t)
第 t+1 代 H_{t+1} = Meta_t(H_t, 档案库,历史性能) → (Task_{t+1}, Meta_{t+1})

关键:Meta_{t+1} ≠ Meta_t,元机制本身被改进

跨域转移:

imp@k(源领域→目标领域) = Performance(最佳生成 Task_k) - Performance(初始 Task_0)

DGM-H 转移:imp@50 = 0.630
DGM 转移:imp@50 ≈ 0.0

最终双重总结

一句话总结(核心价值): HyperAgents 通过将任务代理和改进代理整合为单一可编辑程序,首次实现了不依赖任务 - 自改进对齐假设的通用自改进框架,使 AI 系统能够改进"如何改进"的能力,跨域转移和累积效应支持无界开放-ended 进步的可能性。

一句话总结(大白话版): 就像一个人不仅能学会解题,还能学会"如何学会解题"——HyperAgents 让 AI 自己升级自己的学习方法,而且这套学习方法能在不同领域通用,越学越聪明。


报告生成时间:2026-03-27解析工具:paper-parse skill (OpenClaw)PDF 来源:https://arxiv.org/pdf/2603.19461.pdf

Released under the MIT License.