Skip to content

📄 论文信息

  • arXiv: 2603.18743
  • 分类: 记忆系统
  • 标签: optimization, memory, scientific, llm

📑 目录

本文档包含完整的论文研读报告,包括深度学术速读和技术实现分析两部分。

Memento-Skills: Let Agents Design Agents 双模式研读报告

论文信息:arXiv:2603.18743v1 [cs.AI] | 2026 年 3 月 19 日 | Memento-Team

代码仓库https://github.com/Memento-Teams/Memento-Skills


Part A: 深度专业学术速读报告

结构化摘要 (Structured Abstract)

维度内容
背景/目标在大语言模型 (LLM) 通常以冻结参数部署的背景下,本研究旨在解决"冻结的 LLM 如何从部署经验中持续学习"这一核心问题。现有方法依赖参数微调,成本高昂且无法实现部署时学习。
方法提出 Memento-Skills 系统,基于状态化反思决策过程 (SRDP) 框架,将可执行技能文件夹(代码、提示词、声明式规范)作为外部记忆单元。采用读写反思学习循环:行为对齐的技能路由器选择相关技能(Read),基于执行反馈反思性地更新技能库(Write)。路由器通过单步离线 RL 训练,使用 InfoNCE 损失优化行为相似性而非语义相似度。
结果在 GAIA 基准上,测试集准确率达 66.0%,相比 Read-Write 基线 (52.3%) 提升 13.7 个百分点;在 HLE 基准上,测试集准确率达 38.7%,相比基线 (17.9%) 实现 116.2% 相对提升。技能库从 5 个原子技能增长至 235 个(HLE),形成语义连贯的技能聚类。路由器 Recall@1 达 0.60,相比语义基线提升 10%。
结论技能即记忆的范式使冻结 LLM 能够实现持续学习,无需参数更新。跨任务迁移在领域对齐的结构化基准(如 HLE)上效果最强。系统揭示了三个独立优化维度:更强 LLM、更多训练轮次、更好嵌入模型。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

现代机器学习强调从经验中学习,大语言模型 (LLM) 通过少样本学习、监督微调和后训练展现了卓越性能。然而,实现实际效用通常需要反向传播进行参数优化,这需要大量数据和计算资源。在实践中,持续参数更新的成本和复杂性意味着大多数 LLM 智能体以冻结模型部署——参数θ在预训练后保持不变。

当这样的智能体遇到新任务时,它只能依赖编码在θ中的知识和上下文窗口中能容纳的内容。这造成了一个根本性限制:智能体是无状态的,无法从自己的部署经验中学习。

核心研究问题:如何在保持 LLM 参数冻结的前提下,使智能体能够从部署经验中持续学习和适应?

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有 LLM 适应范式可分为三类(如图 2 所示):

  1. 预训练:在大规模语料上学习模型权重θ,需要万亿级 token
  2. 微调:在任务特定数据上更新θ,需要数千级样本(SFT/RLHF/DPO)
  3. 部署时学习(本文):保持θ冻结,在外部记忆 M 中积累经验

Memento 2 (Wang, 2025) 提出了状态化反思决策过程 (SRDP) 框架,通过增强智能体随时间增长的 episodic memory Mt 来解决状态lessness 问题。然而,Memento 2 的记忆单元是原始轨迹日志(状态、动作、奖励的序列),缺乏结构化和可复用性。

现有自动技能学习方法存在两类局限:

  • 仅生成文本指南,实质上是提示优化 (Agrawal et al., 2025; Tan et al., 2026)
  • 对单任务轨迹过拟合,迁移能力有限 (Letta, 2025)

研究缺口:缺乏一个系统,能够将结构化的、可执行的技能作为记忆单元,通过反思性学习循环实现持续适应,同时保持理论收敛保证。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标

  1. 将 SRDP 框架实例化为具体系统 Memento-Skills,以可复用技能文件夹作为记忆单元
  2. 实现无需 LLM 参数更新的持续学习
  3. 训练行为对齐的技能路由器,优化执行成功率而非语义相似度
  4. 在 GAIA 和 HLE 基准上验证系统有效性

核心命题

  • P1:将记忆单元从原始轨迹升级为可执行技能,能够实现更有效的知识迁移
  • P2:行为对齐的路由器相比语义路由器能更准确地选择相关技能
  • P3:技能库随训练轮次增长并收敛,符合 Memento 2 的理论预测
  • P4:跨任务迁移效果在领域对齐的结构化基准上最强

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用系统构建与实证验证相结合的方法论:

理论层面:基于 Memento 2 的 SRDP 框架,将 Read-Write Reflective Learning 形式化为策略迭代过程。Read 对应策略改进(检索最相关技能),Write 对应策略评估与改进(基于反馈更新技能)。

系统层面:构建 Memento-Skills 系统,包含以下核心组件(如图 6、7 所示):

  • Memento-Skills 智能体核心
  • LLM 客户端
  • 上下文管理器
  • 内置工具集
  • 技能系统(管理内置和生成的技能)
  • 进化引擎(从任务反馈中优化技能库)

评估层面:在两个代表性基准上进行实证验证,比较完整系统与消融基线的性能差异。

2.2. 数据来源与样本 (Data Source & Sample)

技能数据库

  • 从公开 GitHub 仓库爬取约 8000 个技能
  • 筛选标准:stars > 500,保留成熟且广泛采用的技能
  • 去重:基于 SHA-256 哈希值(标准化描述后),保留代表性样本
  • 最终用于路由器训练的种子数据:约 3000 个技能

合成查询生成

  • 仅使用技能名称和描述生成查询(不访问完整技能文件)
  • 使用 LLM-based judge 过滤和验证合成查询质量
  • 生成正样本(应选择目标技能)和难负样本(同领域但目标技能不适用)

评估基准

基准训练集测试集特点
GAIA100 题65 题真实世界问题,需要多步推理、多模态处理、网页浏览和工具使用
HLE788 题342 题8 个学科学术问题(数学、人文、自然科学等),结构化分类

实验设置

  • 底层 LLM:Gemini-3.1-Flash
  • 嵌入模型:Qwen3-Embedding-0.6B
  • 最大反思重试次数:3 次/题

2.3. 操作化与测量 (Operationalization & Measurement)

核心变量定义

  1. 技能记忆 Mt:有限增长的可复用技能工件集合,每个技能包含声明式规范 (SKILL.md)、辅助脚本和提示词

  2. SRDP 形式化:DSRDP = ⟨S, A, P, R, γ, M, pLLM⟩,扩展标准 MDP 包含 episodic memory M 和 LLM 决策核 pLLM(a | s, c)

  3. 路由策略:KL-正则化的 Boltzmann 策略 $$\pi_\theta(d | q) = \frac{\exp(Q_\theta(q, d)/\tau)}{\sum_{d'} \exp(Q_\theta(q, d')/\tau)}$$

  4. InfoNCE 损失(温度τ): $$L_i = -\log \frac{\sum_{q \in Q_i^+} \exp(s(d_i, q)/\tau)}{\sum_{q \in Q} \exp(s(d_i, q)/\tau)}$$

测量指标

指标定义用途
Recall@K真实技能出现在前 K 个候选中的比例离线检索质量
route_hit_rate路由器 top-1 选择是否为任务的合适技能端到端路由准确性
judge_success_rate完整轨迹是否实际解决任务端到端执行成功率
准确率测试集正确答案比例整体性能

技能演化机制

  • 效用更新:Ut+1(ct) = n_success(ct) / (n_success(ct) + n_fail(ct))
  • 效用阈值δ:低于阈值时触发技能发现而非原地优化
  • 单元测试门:所有变异需通过自动生成的测试用例验证

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

GAIA 基准结果(图 10):

训练集准确率随反思轮次提升:

  • 第 1 轮:65.1%
  • 第 2 轮:84.3%
  • 第 3 轮:91.6%

测试集性能对比:

  • Memento-Skills:66.0%
  • Read-Write 基线:52.3%
  • 绝对提升:13.7 个百分点

按难度级别分析:

  • Level 1:96.6%(+38.0)
  • Level 2:93.0%(+18.6)
  • Level 3:72.7%(+27.2)

关键洞察:GAIA 问题高度多样化,推理模式重叠较少。案例研究证实,训练期间优化的大多数技能在测试时从未被触发,因为不存在足够相似的测试问题。这表明技能迁移依赖领域对齐。

HLE 基准结果(图 11):

训练集准确率随轮次提升(R0→R3):

  • 整体:30.8% → 54.5%
  • Humanities:36.9% → 66.7%(+29.8)
  • Chemistry:38.8% → 62.4%(+23.6)
  • Biology:30.3% → 60.7%(+30.4)
  • Mathematics:30.0% → 51.2%(+21.2)
  • Physics:21.1% → 47.4%(+26.3)
  • CS:19.8% → 46.5%(+26.7)
  • Engineering:27.6% → 42.1%(+14.5)

测试集性能对比:

  • Memento-Skills:38.7%
  • Read-Write 基线:17.9%
  • 相对提升:116.2%

关键洞察:HLE 的结构化学科分类使技能能够跨任务迁移。在一个 Biology 训练问题上优化的技能可频繁复用于测试集中未见过的 Biology 问题。这证实了领域对齐的技能库是跨任务泛化的关键使能因素。

路由器性能(图 9):

离线检索质量(Recall@K):

KBM25Qwen3-EmbMemento-Qwen
@10.320.540.60
@50.470.600.79
@100.530.820.90

端到端执行指标:

  • route_hit_rate:BM25 0.29 → Qwen3 0.53 → Memento-Qwen 0.58
  • judge_success_rate:BM25 0.50 → Qwen3 0.79 → Memento-Qwen 0.80

关键洞察:词汇匹配是行为效用的糟糕代理——许多技能共享领域术语但需要根本不同的执行策略。即使密集语义嵌入也低估了执行相关特征,单步 RL 微调有效将行为信号注入嵌入空间。

技能库增长(图 12):

从 5 个原子技能(搜索、终端操作等)开始:

  • GAIA 学习后:41 个技能(紧凑库,反映基准的多样化但相对较小的问题集)
  • HLE 学习后:235 个技能(跨越更宽嵌入空间,反映 8 个学术领域的广度)

技能聚类(HLE):

  • Search / Web:48 个
  • Quantum / Physics:47 个
  • Math / Chemistry:44 个
  • Code / Text:38 个
  • Download / Verify:28 个
  • Clinical / Excel:27 个
  • Chess / Game:20 个
  • Python / Script:19 个

t-SNE 投影显示学习到的技能形成语义连贯的邻域,每个聚类对应智能体通过反思性自进化获得的领域特定能力。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图 1:自进化结果概览

该图综合展示了 Memento-Skills 在两个基准上的性能提升和技能库增长。左侧 (a)(b) 显示性能随反思学习轮次的渐进提升,右侧 (c)(d) 显示技能记忆的增长并 organize 成语义有意义的聚类。关键数据点:HLE 上 Humanities 从 36.9% 提升至 66.7%,GAIA 上 Level 1 从 58.6% 提升至 96.6%。

图 2:LLM 适应的三种范式

该图对比了预训练、微调和部署时学习的核心差异。关键洞察:部署时学习(本文)保持θ冻结,在外部技能记忆 M 中积累经验,实现零重训练成本的持续适应。学习单位从模型权重转向每次部署交互。

图 3:读写反思学习循环

展示了核心算法流程:给定新任务,智能体从技能记忆中检索相关技能(Read),通过冻结 LLM 执行(Act),使用反馈反思性地优化和更新技能库(Write)。LLM 参数全程保持不变,所有适应发生在记忆中。

图 9:路由器性能评估

左图显示三种路由模型在合成查询 - 技能对上的离线召回率,右图显示端到端执行成功率。关键发现:Memento-Qwen 在所有 K 值上一致优于 BM25 和 Qwen3 基线,且离线检索增益转化为实际执行改进。这验证了行为对齐训练的有效性。

图 11:HLE 结果

左图显示 4 个训练轮次 (R0-R3) 的每类别准确率,右图显示与 Read-Write 基线的测试集对比。关键模式:所有学科类别均显示一致提升,Humanities 和 Biology 受益最大。测试集上 Memento-Skills 超过基线两倍多,证实结构化分类使能技能迁移。


4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

这些研究发现意味着什么?它们如何回答了引言中提出的研究问题?

核心答案:Memento-Skills 成功证明了冻结 LLM 可以通过外部技能记忆实现持续学习,无需参数更新。这一答案通过三个层面的证据支撑:

  1. 性能提升:在两个基准上均显著超越 Read-Write 基线,证明技能优化管道的贡献
  2. 收敛行为:训练准确率随轮次提升但增速递减,符合 Memento 2 理论预测的收敛模式
  3. 技能库演化:技能数量增长并形成语义聚类,证实系统能够自主获取、优化和复用技能

GAIA 与 HLE 的对比洞察

GAIA 上有限的跨任务迁移揭示了技能学习的一个重要边界条件:当问题高度多样化、推理模式重叠较少时,技能复用机会有限。这并非系统缺陷,而是反映了技能迁移的本质——它依赖领域结构。

HLE 上的强劲表现(116.2% 相对提升)证实了这一假设:结构化的学科分类为技能复用提供了天然的对齐框架。在一个 Biology 问题上优化的技能可直接应用于其他 Biology 问题,因为底层推理模式和知识需求相似。

路由器行为的深层含义

行为对齐路由器相比语义路由器的优势(Recall@1 从 0.54 提升至 0.60)揭示了一个关键洞察:语义相似性不等于行为效用。两个技能可能共享领域术语但需要完全不同的执行策略。通过单步离线 RL 训练,路由器学会了预测执行成功率而非文本相似度,这更符合任务目标。

4.2. 理论贡献 (Theoretical Contributions)

本研究对现有理论的贡献体现在三个层面:

1. SRDP 框架的具体实例化

Memento 2 提出了状态化反思决策过程的理论框架,但未提供具体系统实现。Memento-Skills 填补了这一空白,将抽象的记忆单元具体化为可执行技能文件夹,将理论保证转化为可部署工件。关键创新在于:Write 操作不再是简单追加,而是封装技能级反思更新——执行失败归因和文件级重写,直接修改技能内的提示词或代码。

2. 收敛性的实证验证

Memento 2 定理 8 证明了 KL-正则化软策略迭代的收敛性。Memento-Skills 的实验结果(训练准确率随轮次提升并趋于平稳)为这一理论预测提供了实证支持。图 11 中的 diminishing returns 曲线正是理论边界收紧的实时体现:随着技能库增长,记忆覆盖半径 rM 缩小,同时降低εLLM(rM) 和δM,系统收敛。

3. 三旋钮优化框架

理论边界分析揭示了三个独立的优化维度:

  • 更强 LLM:降低εLLM(LLM 质量项)
  • 更多轮次:降低 rM(记忆覆盖半径)
  • 更好嵌入:降低δM(检索误差)

这一框架的重要性在于其模块化:可以独立升级任一维度而不影响其他。这为系统演进提供了清晰的路线图。

4. 技能即记忆的新范式

传统 episodic memory 存储原始轨迹,而 Memento-Skills 将技能作为记忆单元。这一转变的理论意义在于:技能封装了声明式规范、提示词和可执行代码,是比原始轨迹更高层次的抽象。这使得知识能够跨任务迁移,而非局限于相似情境的回忆。

4.3. 实践启示 (Practical Implications)

本研究对相关领域的实践者具有以下指导意义:

对于 LLM 应用开发者

  • 无需微调即可实现持续学习:通过外部技能记忆,可以避免昂贵的参数更新
  • 模块化升级路径:可根据需求独立升级嵌入模型、LLM 或增加训练轮次
  • 快速部署:5 分钟安装即可运行自进化智能体(见论文 1.2 节)

对于企业决策者

  • 成本效益:零重训练成本意味着更低的运营支出
  • 可解释性:技能以文件形式存储,可审计、可版本控制
  • 安全性:单元测试门确保技能变异不会引入回归

对于研究人员

  • 新的研究方向:技能表示学习、技能组合、跨域迁移
  • 评估框架:需同时评估离线检索质量和端到端执行成功率
  • 理论 - 实践桥梁:展示了如何将理论保证转化为工程系统

具体建议

  1. 优先在结构化领域(如 HLE 的学科分类)应用技能学习,以获得最大迁移效益
  2. 投资行为对齐的路由器训练,而非依赖语义相似度
  3. 建立技能库的持续维护机制,包括效用监控和低效技能的淘汰

4.4. 局限性与未来研究 (Limitations & Future Research)

本研究存在的局限性

  1. 基准依赖性:技能迁移效果高度依赖领域结构。在 GAIA 这类高度多样化的基准上,跨任务迁移有限。这限制了系统在开放域场景中的适用性。

  2. 规模限制:实验使用的技能库规模为 8000 个,测试集问题数量有限(GAIA 65 题,HLE 342 题)。当技能库扩展至百万级时,检索效率和收敛速度如何变化尚不清楚。

  3. 安全性评估不足:论文明确指出"沙盒安全性——是否在不破坏其他事物的情况下解决任务——是第三维度,但需要适当的隔离 harness。未来工作。"这意味着系统在生产环境中的安全性尚未充分验证。

  4. 合成数据偏差:路由器训练依赖合成查询,尽管使用 LLM judge 过滤,但合成数据与真实用户查询之间可能存在分布偏移。真实用户可能输入"pls fix the thing from last time thx"这类模糊、非标准化的请求。

  5. 单一 LLM 评估:所有实验使用 Gemini-3.1-Flash,未评估不同 LLM 对系统性能的影响。理论上更强 LLM 应降低εLLM,但实证验证缺失。

未来研究方向

  1. 规模化研究:探索百万级技能库的检索效率和收敛行为,验证理论预测的 O(n^(-1/d)) 收敛率

  2. 安全性框架:开发适当的隔离 harness,评估技能执行的安全性,防止"删除用户配置并重新开始"这类危险操作

  3. 跨域迁移:研究如何将技能从一个领域迁移到相关但不同的领域,提升开放域适应性

  4. 多 LLM 评估:系统评估不同 LLM(规模、架构、训练数据)对系统性能的影响,验证三旋钮框架

  5. 真实场景部署:在生产环境中部署系统,收集真实用户交互数据,评估长期性能和技能演化模式

  6. 技能组合与层次化:探索技能的组合机制和层次化组织,提升复杂任务的解决能力


5. 结论 (Conclusion)

Memento-Skills 成功桥接了基于记忆的学习和基于技能的学习之间的鸿沟。核心洞察是将可执行技能作为外部记忆单元,从而将状态化反思决策过程的理论保证转化为具体可部署的工件。

通过读写反思学习循环,智能体仅从部署经验中自主获取、优化和复用技能,无需更新底层 LLM 参数。行为对齐的对比路由器通过单步离线 RL 训练,确保检索优化执行成功率而非表面相似性。

GAIA 和 HLE 上的实验证实,技能即记忆的公式显著优于静态库消融,且当技能与结构化领域类别对齐时,跨任务迁移效果最强。更广泛地,Memento-Skills 证明了持续学习不必驻留在模型权重中:一个不断增长、自改进的技能库可以作为持久的非参数智能层,供任何冻结 LLM 使用。


6. 核心参考文献 (Core References)

  1. Wang, J. (2025). Memento 2: Learning by stateful reflective memory. arXiv preprint arXiv:2512.22716.

    • 理论基础:SRDP 框架和收敛性证明
  2. Mialon, G., Fourrier, C., Wolf, T., LeCun, Y., & Scialom, T. (2023). GAIA: a benchmark for general AI assistants. The Twelfth International Conference on Learning Representations.

    • 评估基准之一:真实世界问题测试集
  3. Center for AI Safety, Scale AI, and HLE Contributors Consortium. (2026). A benchmark of expert-level academic questions to assess AI capabilities. Nature, 649, 1139–1146.

    • 评估基准之二:跨学科学术问题测试集
  4. Zhang, Y., et al. (2025). Qwen3 embedding: Advancing text embedding and reranking through foundation models. arXiv preprint arXiv:2506.05176.

    • 基线嵌入模型:Qwen3-Embedding-0.6B
  5. Zheng, L., et al. (2023). Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in neural information processing systems, 36, 46595–46623.

    • LLM judge 方法:用于评估执行质量和过滤合成数据

Part B: 核心逻辑链与根本价值提炼

核心四要素

要素内容
根本问题冻结的 LLM 无法从部署经验中学习——参数固定后,智能体每次遇到新任务只能依赖预训练知识和有限上下文,无法像人类一样"吃一堑长一智"。现有解决方案要么成本高昂(微调),要么缺乏结构化(原始轨迹记忆),无法实现高效的知识迁移。
切入视角将"记忆"的定义从原始轨迹日志升级为可执行技能文件夹——每个技能包含代码、提示词和声明式规范,是结构化的、可复用的知识单元。关键洞察:技能即记忆,技能的演化即学习,无需触动 LLM 参数。这就像给一个固定智商的脑子配一个不断升级的外挂知识库。
关键方法读写反思学习循环:Read(行为对齐路由器选择最相关技能)→ Act(冻结 LLM 执行技能)→ Feedback(judge 评估结果)→ Write(基于反馈反思性更新技能库)。路由器通过单步离线 RL 训练,优化行为相似性而非语义相似度;技能更新通过失败归因和文件级重写实现,单元测试门确保质量。
核心发现GAIA 测试集 66.0%(+13.7 个百分点),HLE 测试集 38.7%(相对提升 116.2%)。技能库从 5 个原子技能增长至 235 个,形成语义聚类。关键洞察:跨任务迁移在领域对齐的结构化基准上最强——HLE 的学科分类使技能复用成为可能,而 GAIA 的高度多样化问题限制了迁移效果。

方法公式化

Memento-Skills = (冻结 LLM + 技能记忆 M) × 读写反思循环

展开为:

持续学习能力 = (行为对齐路由器 × 可执行技能库) × (Read → Act → Feedback → Write)^t

其中:

  • 行为对齐路由器 = InfoNCE 损失训练的单步离线 RL 模型(优化执行成功率而非语义相似度)
  • 可执行技能库 = {声明式规范 + 提示词 + 代码} 的集合,每个技能可独立演化
  • Read = 给定任务 q,从 M 中检索最相关技能 c*
  • Act = 冻结 LLM 执行 c* 产生答案 a
  • Feedback = Judge 评估 (q, a) 得到奖励 r
  • Write = 基于 r 更新 c* 的效用分数,若失败则归因并重写技能文件
  • t = 训练轮次,随 t 增长技能库收敛

收敛边界(来自 Memento 2 理论):

性能差距 ≤ εLLM(rM) + 2Rmax·δM / (1-γ)

其中 rM 随训练轮次缩小(技能库更密集),εLLM 和δM 随之降低,系统收敛。

三旋钮优化框架

更强 LLM → 降低εLLM
更多轮次 → 降低 rM
更好嵌入 → 降低δM

三个维度独立,可模块化升级。


最终双重总结

一句话总结(核心价值):Memento-Skills 通过将可执行技能作为外部记忆单元,结合行为对齐的读写反思学习循环,使冻结的 LLM 能够在无需参数更新的情况下从部署经验中持续学习,在结构化领域基准上实现超过 100% 的相对性能提升,揭示了持续学习不必驻留在模型权重中的新范式。

一句话总结(大白话版):就像一个不升级大脑但不断记笔记的学生——Memento-Skills 给固定的 LLM 配了一个智能笔记本,每次做题后把经验写成技能卡片,下次遇到类似问题直接翻卡片,越用越聪明,还不用重新培训大脑。


报告生成时间:2026 年 3 月 27 日解析工具:paper-parse 技能(双模式深度研读)

Released under the MIT License.