📄 论文信息
- arXiv: 2603.18743
- 分类: 记忆系统
- 标签: optimization, memory, scientific, llm
📑 目录
本文档包含完整的论文研读报告,包括深度学术速读和技术实现分析两部分。
Memento-Skills: Let Agents Design Agents 双模式研读报告
论文信息:arXiv:2603.18743v1 [cs.AI] | 2026 年 3 月 19 日 | Memento-Team
代码仓库:https://github.com/Memento-Teams/Memento-Skills
Part A: 深度专业学术速读报告
结构化摘要 (Structured Abstract)
| 维度 | 内容 |
|---|---|
| 背景/目标 | 在大语言模型 (LLM) 通常以冻结参数部署的背景下,本研究旨在解决"冻结的 LLM 如何从部署经验中持续学习"这一核心问题。现有方法依赖参数微调,成本高昂且无法实现部署时学习。 |
| 方法 | 提出 Memento-Skills 系统,基于状态化反思决策过程 (SRDP) 框架,将可执行技能文件夹(代码、提示词、声明式规范)作为外部记忆单元。采用读写反思学习循环:行为对齐的技能路由器选择相关技能(Read),基于执行反馈反思性地更新技能库(Write)。路由器通过单步离线 RL 训练,使用 InfoNCE 损失优化行为相似性而非语义相似度。 |
| 结果 | 在 GAIA 基准上,测试集准确率达 66.0%,相比 Read-Write 基线 (52.3%) 提升 13.7 个百分点;在 HLE 基准上,测试集准确率达 38.7%,相比基线 (17.9%) 实现 116.2% 相对提升。技能库从 5 个原子技能增长至 235 个(HLE),形成语义连贯的技能聚类。路由器 Recall@1 达 0.60,相比语义基线提升 10%。 |
| 结论 | 技能即记忆的范式使冻结 LLM 能够实现持续学习,无需参数更新。跨任务迁移在领域对齐的结构化基准(如 HLE)上效果最强。系统揭示了三个独立优化维度:更强 LLM、更多训练轮次、更好嵌入模型。 |
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
现代机器学习强调从经验中学习,大语言模型 (LLM) 通过少样本学习、监督微调和后训练展现了卓越性能。然而,实现实际效用通常需要反向传播进行参数优化,这需要大量数据和计算资源。在实践中,持续参数更新的成本和复杂性意味着大多数 LLM 智能体以冻结模型部署——参数θ在预训练后保持不变。
当这样的智能体遇到新任务时,它只能依赖编码在θ中的知识和上下文窗口中能容纳的内容。这造成了一个根本性限制:智能体是无状态的,无法从自己的部署经验中学习。
核心研究问题:如何在保持 LLM 参数冻结的前提下,使智能体能够从部署经验中持续学习和适应?
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有 LLM 适应范式可分为三类(如图 2 所示):
- 预训练:在大规模语料上学习模型权重θ,需要万亿级 token
- 微调:在任务特定数据上更新θ,需要数千级样本(SFT/RLHF/DPO)
- 部署时学习(本文):保持θ冻结,在外部记忆 M 中积累经验
Memento 2 (Wang, 2025) 提出了状态化反思决策过程 (SRDP) 框架,通过增强智能体随时间增长的 episodic memory Mt 来解决状态lessness 问题。然而,Memento 2 的记忆单元是原始轨迹日志(状态、动作、奖励的序列),缺乏结构化和可复用性。
现有自动技能学习方法存在两类局限:
- 仅生成文本指南,实质上是提示优化 (Agrawal et al., 2025; Tan et al., 2026)
- 对单任务轨迹过拟合,迁移能力有限 (Letta, 2025)
研究缺口:缺乏一个系统,能够将结构化的、可执行的技能作为记忆单元,通过反思性学习循环实现持续适应,同时保持理论收敛保证。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:
- 将 SRDP 框架实例化为具体系统 Memento-Skills,以可复用技能文件夹作为记忆单元
- 实现无需 LLM 参数更新的持续学习
- 训练行为对齐的技能路由器,优化执行成功率而非语义相似度
- 在 GAIA 和 HLE 基准上验证系统有效性
核心命题:
- P1:将记忆单元从原始轨迹升级为可执行技能,能够实现更有效的知识迁移
- P2:行为对齐的路由器相比语义路由器能更准确地选择相关技能
- P3:技能库随训练轮次增长并收敛,符合 Memento 2 的理论预测
- P4:跨任务迁移效果在领域对齐的结构化基准上最强
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
本研究采用系统构建与实证验证相结合的方法论:
理论层面:基于 Memento 2 的 SRDP 框架,将 Read-Write Reflective Learning 形式化为策略迭代过程。Read 对应策略改进(检索最相关技能),Write 对应策略评估与改进(基于反馈更新技能)。
系统层面:构建 Memento-Skills 系统,包含以下核心组件(如图 6、7 所示):
- Memento-Skills 智能体核心
- LLM 客户端
- 上下文管理器
- 内置工具集
- 技能系统(管理内置和生成的技能)
- 进化引擎(从任务反馈中优化技能库)
评估层面:在两个代表性基准上进行实证验证,比较完整系统与消融基线的性能差异。
2.2. 数据来源与样本 (Data Source & Sample)
技能数据库:
- 从公开 GitHub 仓库爬取约 8000 个技能
- 筛选标准:stars > 500,保留成熟且广泛采用的技能
- 去重:基于 SHA-256 哈希值(标准化描述后),保留代表性样本
- 最终用于路由器训练的种子数据:约 3000 个技能
合成查询生成:
- 仅使用技能名称和描述生成查询(不访问完整技能文件)
- 使用 LLM-based judge 过滤和验证合成查询质量
- 生成正样本(应选择目标技能)和难负样本(同领域但目标技能不适用)
评估基准:
| 基准 | 训练集 | 测试集 | 特点 |
|---|---|---|---|
| GAIA | 100 题 | 65 题 | 真实世界问题,需要多步推理、多模态处理、网页浏览和工具使用 |
| HLE | 788 题 | 342 题 | 8 个学科学术问题(数学、人文、自然科学等),结构化分类 |
实验设置:
- 底层 LLM:Gemini-3.1-Flash
- 嵌入模型:Qwen3-Embedding-0.6B
- 最大反思重试次数:3 次/题
2.3. 操作化与测量 (Operationalization & Measurement)
核心变量定义:
技能记忆 Mt:有限增长的可复用技能工件集合,每个技能包含声明式规范 (SKILL.md)、辅助脚本和提示词
SRDP 形式化:DSRDP = ⟨S, A, P, R, γ, M, pLLM⟩,扩展标准 MDP 包含 episodic memory M 和 LLM 决策核 pLLM(a | s, c)
路由策略:KL-正则化的 Boltzmann 策略 $$\pi_\theta(d | q) = \frac{\exp(Q_\theta(q, d)/\tau)}{\sum_{d'} \exp(Q_\theta(q, d')/\tau)}$$
InfoNCE 损失(温度τ): $$L_i = -\log \frac{\sum_{q \in Q_i^+} \exp(s(d_i, q)/\tau)}{\sum_{q \in Q} \exp(s(d_i, q)/\tau)}$$
测量指标:
| 指标 | 定义 | 用途 |
|---|---|---|
| Recall@K | 真实技能出现在前 K 个候选中的比例 | 离线检索质量 |
| route_hit_rate | 路由器 top-1 选择是否为任务的合适技能 | 端到端路由准确性 |
| judge_success_rate | 完整轨迹是否实际解决任务 | 端到端执行成功率 |
| 准确率 | 测试集正确答案比例 | 整体性能 |
技能演化机制:
- 效用更新:Ut+1(ct) = n_success(ct) / (n_success(ct) + n_fail(ct))
- 效用阈值δ:低于阈值时触发技能发现而非原地优化
- 单元测试门:所有变异需通过自动生成的测试用例验证
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
GAIA 基准结果(图 10):
训练集准确率随反思轮次提升:
- 第 1 轮:65.1%
- 第 2 轮:84.3%
- 第 3 轮:91.6%
测试集性能对比:
- Memento-Skills:66.0%
- Read-Write 基线:52.3%
- 绝对提升:13.7 个百分点
按难度级别分析:
- Level 1:96.6%(+38.0)
- Level 2:93.0%(+18.6)
- Level 3:72.7%(+27.2)
关键洞察:GAIA 问题高度多样化,推理模式重叠较少。案例研究证实,训练期间优化的大多数技能在测试时从未被触发,因为不存在足够相似的测试问题。这表明技能迁移依赖领域对齐。
HLE 基准结果(图 11):
训练集准确率随轮次提升(R0→R3):
- 整体:30.8% → 54.5%
- Humanities:36.9% → 66.7%(+29.8)
- Chemistry:38.8% → 62.4%(+23.6)
- Biology:30.3% → 60.7%(+30.4)
- Mathematics:30.0% → 51.2%(+21.2)
- Physics:21.1% → 47.4%(+26.3)
- CS:19.8% → 46.5%(+26.7)
- Engineering:27.6% → 42.1%(+14.5)
测试集性能对比:
- Memento-Skills:38.7%
- Read-Write 基线:17.9%
- 相对提升:116.2%
关键洞察:HLE 的结构化学科分类使技能能够跨任务迁移。在一个 Biology 训练问题上优化的技能可频繁复用于测试集中未见过的 Biology 问题。这证实了领域对齐的技能库是跨任务泛化的关键使能因素。
路由器性能(图 9):
离线检索质量(Recall@K):
| K | BM25 | Qwen3-Emb | Memento-Qwen |
|---|---|---|---|
| @1 | 0.32 | 0.54 | 0.60 |
| @5 | 0.47 | 0.60 | 0.79 |
| @10 | 0.53 | 0.82 | 0.90 |
端到端执行指标:
- route_hit_rate:BM25 0.29 → Qwen3 0.53 → Memento-Qwen 0.58
- judge_success_rate:BM25 0.50 → Qwen3 0.79 → Memento-Qwen 0.80
关键洞察:词汇匹配是行为效用的糟糕代理——许多技能共享领域术语但需要根本不同的执行策略。即使密集语义嵌入也低估了执行相关特征,单步 RL 微调有效将行为信号注入嵌入空间。
技能库增长(图 12):
从 5 个原子技能(搜索、终端操作等)开始:
- GAIA 学习后:41 个技能(紧凑库,反映基准的多样化但相对较小的问题集)
- HLE 学习后:235 个技能(跨越更宽嵌入空间,反映 8 个学术领域的广度)
技能聚类(HLE):
- Search / Web:48 个
- Quantum / Physics:47 个
- Math / Chemistry:44 个
- Code / Text:38 个
- Download / Verify:28 个
- Clinical / Excel:27 个
- Chess / Game:20 个
- Python / Script:19 个
t-SNE 投影显示学习到的技能形成语义连贯的邻域,每个聚类对应智能体通过反思性自进化获得的领域特定能力。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图 1:自进化结果概览
该图综合展示了 Memento-Skills 在两个基准上的性能提升和技能库增长。左侧 (a)(b) 显示性能随反思学习轮次的渐进提升,右侧 (c)(d) 显示技能记忆的增长并 organize 成语义有意义的聚类。关键数据点:HLE 上 Humanities 从 36.9% 提升至 66.7%,GAIA 上 Level 1 从 58.6% 提升至 96.6%。
图 2:LLM 适应的三种范式
该图对比了预训练、微调和部署时学习的核心差异。关键洞察:部署时学习(本文)保持θ冻结,在外部技能记忆 M 中积累经验,实现零重训练成本的持续适应。学习单位从模型权重转向每次部署交互。
图 3:读写反思学习循环
展示了核心算法流程:给定新任务,智能体从技能记忆中检索相关技能(Read),通过冻结 LLM 执行(Act),使用反馈反思性地优化和更新技能库(Write)。LLM 参数全程保持不变,所有适应发生在记忆中。
图 9:路由器性能评估
左图显示三种路由模型在合成查询 - 技能对上的离线召回率,右图显示端到端执行成功率。关键发现:Memento-Qwen 在所有 K 值上一致优于 BM25 和 Qwen3 基线,且离线检索增益转化为实际执行改进。这验证了行为对齐训练的有效性。
图 11:HLE 结果
左图显示 4 个训练轮次 (R0-R3) 的每类别准确率,右图显示与 Read-Write 基线的测试集对比。关键模式:所有学科类别均显示一致提升,Humanities 和 Biology 受益最大。测试集上 Memento-Skills 超过基线两倍多,证实结构化分类使能技能迁移。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
这些研究发现意味着什么?它们如何回答了引言中提出的研究问题?
核心答案:Memento-Skills 成功证明了冻结 LLM 可以通过外部技能记忆实现持续学习,无需参数更新。这一答案通过三个层面的证据支撑:
- 性能提升:在两个基准上均显著超越 Read-Write 基线,证明技能优化管道的贡献
- 收敛行为:训练准确率随轮次提升但增速递减,符合 Memento 2 理论预测的收敛模式
- 技能库演化:技能数量增长并形成语义聚类,证实系统能够自主获取、优化和复用技能
GAIA 与 HLE 的对比洞察:
GAIA 上有限的跨任务迁移揭示了技能学习的一个重要边界条件:当问题高度多样化、推理模式重叠较少时,技能复用机会有限。这并非系统缺陷,而是反映了技能迁移的本质——它依赖领域结构。
HLE 上的强劲表现(116.2% 相对提升)证实了这一假设:结构化的学科分类为技能复用提供了天然的对齐框架。在一个 Biology 问题上优化的技能可直接应用于其他 Biology 问题,因为底层推理模式和知识需求相似。
路由器行为的深层含义:
行为对齐路由器相比语义路由器的优势(Recall@1 从 0.54 提升至 0.60)揭示了一个关键洞察:语义相似性不等于行为效用。两个技能可能共享领域术语但需要完全不同的执行策略。通过单步离线 RL 训练,路由器学会了预测执行成功率而非文本相似度,这更符合任务目标。
4.2. 理论贡献 (Theoretical Contributions)
本研究对现有理论的贡献体现在三个层面:
1. SRDP 框架的具体实例化
Memento 2 提出了状态化反思决策过程的理论框架,但未提供具体系统实现。Memento-Skills 填补了这一空白,将抽象的记忆单元具体化为可执行技能文件夹,将理论保证转化为可部署工件。关键创新在于:Write 操作不再是简单追加,而是封装技能级反思更新——执行失败归因和文件级重写,直接修改技能内的提示词或代码。
2. 收敛性的实证验证
Memento 2 定理 8 证明了 KL-正则化软策略迭代的收敛性。Memento-Skills 的实验结果(训练准确率随轮次提升并趋于平稳)为这一理论预测提供了实证支持。图 11 中的 diminishing returns 曲线正是理论边界收紧的实时体现:随着技能库增长,记忆覆盖半径 rM 缩小,同时降低εLLM(rM) 和δM,系统收敛。
3. 三旋钮优化框架
理论边界分析揭示了三个独立的优化维度:
- 更强 LLM:降低εLLM(LLM 质量项)
- 更多轮次:降低 rM(记忆覆盖半径)
- 更好嵌入:降低δM(检索误差)
这一框架的重要性在于其模块化:可以独立升级任一维度而不影响其他。这为系统演进提供了清晰的路线图。
4. 技能即记忆的新范式
传统 episodic memory 存储原始轨迹,而 Memento-Skills 将技能作为记忆单元。这一转变的理论意义在于:技能封装了声明式规范、提示词和可执行代码,是比原始轨迹更高层次的抽象。这使得知识能够跨任务迁移,而非局限于相似情境的回忆。
4.3. 实践启示 (Practical Implications)
本研究对相关领域的实践者具有以下指导意义:
对于 LLM 应用开发者:
- 无需微调即可实现持续学习:通过外部技能记忆,可以避免昂贵的参数更新
- 模块化升级路径:可根据需求独立升级嵌入模型、LLM 或增加训练轮次
- 快速部署:5 分钟安装即可运行自进化智能体(见论文 1.2 节)
对于企业决策者:
- 成本效益:零重训练成本意味着更低的运营支出
- 可解释性:技能以文件形式存储,可审计、可版本控制
- 安全性:单元测试门确保技能变异不会引入回归
对于研究人员:
- 新的研究方向:技能表示学习、技能组合、跨域迁移
- 评估框架:需同时评估离线检索质量和端到端执行成功率
- 理论 - 实践桥梁:展示了如何将理论保证转化为工程系统
具体建议:
- 优先在结构化领域(如 HLE 的学科分类)应用技能学习,以获得最大迁移效益
- 投资行为对齐的路由器训练,而非依赖语义相似度
- 建立技能库的持续维护机制,包括效用监控和低效技能的淘汰
4.4. 局限性与未来研究 (Limitations & Future Research)
本研究存在的局限性:
基准依赖性:技能迁移效果高度依赖领域结构。在 GAIA 这类高度多样化的基准上,跨任务迁移有限。这限制了系统在开放域场景中的适用性。
规模限制:实验使用的技能库规模为 8000 个,测试集问题数量有限(GAIA 65 题,HLE 342 题)。当技能库扩展至百万级时,检索效率和收敛速度如何变化尚不清楚。
安全性评估不足:论文明确指出"沙盒安全性——是否在不破坏其他事物的情况下解决任务——是第三维度,但需要适当的隔离 harness。未来工作。"这意味着系统在生产环境中的安全性尚未充分验证。
合成数据偏差:路由器训练依赖合成查询,尽管使用 LLM judge 过滤,但合成数据与真实用户查询之间可能存在分布偏移。真实用户可能输入"pls fix the thing from last time thx"这类模糊、非标准化的请求。
单一 LLM 评估:所有实验使用 Gemini-3.1-Flash,未评估不同 LLM 对系统性能的影响。理论上更强 LLM 应降低εLLM,但实证验证缺失。
未来研究方向:
规模化研究:探索百万级技能库的检索效率和收敛行为,验证理论预测的 O(n^(-1/d)) 收敛率
安全性框架:开发适当的隔离 harness,评估技能执行的安全性,防止"删除用户配置并重新开始"这类危险操作
跨域迁移:研究如何将技能从一个领域迁移到相关但不同的领域,提升开放域适应性
多 LLM 评估:系统评估不同 LLM(规模、架构、训练数据)对系统性能的影响,验证三旋钮框架
真实场景部署:在生产环境中部署系统,收集真实用户交互数据,评估长期性能和技能演化模式
技能组合与层次化:探索技能的组合机制和层次化组织,提升复杂任务的解决能力
5. 结论 (Conclusion)
Memento-Skills 成功桥接了基于记忆的学习和基于技能的学习之间的鸿沟。核心洞察是将可执行技能作为外部记忆单元,从而将状态化反思决策过程的理论保证转化为具体可部署的工件。
通过读写反思学习循环,智能体仅从部署经验中自主获取、优化和复用技能,无需更新底层 LLM 参数。行为对齐的对比路由器通过单步离线 RL 训练,确保检索优化执行成功率而非表面相似性。
GAIA 和 HLE 上的实验证实,技能即记忆的公式显著优于静态库消融,且当技能与结构化领域类别对齐时,跨任务迁移效果最强。更广泛地,Memento-Skills 证明了持续学习不必驻留在模型权重中:一个不断增长、自改进的技能库可以作为持久的非参数智能层,供任何冻结 LLM 使用。
6. 核心参考文献 (Core References)
Wang, J. (2025). Memento 2: Learning by stateful reflective memory. arXiv preprint arXiv:2512.22716.
- 理论基础:SRDP 框架和收敛性证明
Mialon, G., Fourrier, C., Wolf, T., LeCun, Y., & Scialom, T. (2023). GAIA: a benchmark for general AI assistants. The Twelfth International Conference on Learning Representations.
- 评估基准之一:真实世界问题测试集
Center for AI Safety, Scale AI, and HLE Contributors Consortium. (2026). A benchmark of expert-level academic questions to assess AI capabilities. Nature, 649, 1139–1146.
- 评估基准之二:跨学科学术问题测试集
Zhang, Y., et al. (2025). Qwen3 embedding: Advancing text embedding and reranking through foundation models. arXiv preprint arXiv:2506.05176.
- 基线嵌入模型:Qwen3-Embedding-0.6B
Zheng, L., et al. (2023). Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in neural information processing systems, 36, 46595–46623.
- LLM judge 方法:用于评估执行质量和过滤合成数据
Part B: 核心逻辑链与根本价值提炼
核心四要素
| 要素 | 内容 |
|---|---|
| 根本问题 | 冻结的 LLM 无法从部署经验中学习——参数固定后,智能体每次遇到新任务只能依赖预训练知识和有限上下文,无法像人类一样"吃一堑长一智"。现有解决方案要么成本高昂(微调),要么缺乏结构化(原始轨迹记忆),无法实现高效的知识迁移。 |
| 切入视角 | 将"记忆"的定义从原始轨迹日志升级为可执行技能文件夹——每个技能包含代码、提示词和声明式规范,是结构化的、可复用的知识单元。关键洞察:技能即记忆,技能的演化即学习,无需触动 LLM 参数。这就像给一个固定智商的脑子配一个不断升级的外挂知识库。 |
| 关键方法 | 读写反思学习循环:Read(行为对齐路由器选择最相关技能)→ Act(冻结 LLM 执行技能)→ Feedback(judge 评估结果)→ Write(基于反馈反思性更新技能库)。路由器通过单步离线 RL 训练,优化行为相似性而非语义相似度;技能更新通过失败归因和文件级重写实现,单元测试门确保质量。 |
| 核心发现 | GAIA 测试集 66.0%(+13.7 个百分点),HLE 测试集 38.7%(相对提升 116.2%)。技能库从 5 个原子技能增长至 235 个,形成语义聚类。关键洞察:跨任务迁移在领域对齐的结构化基准上最强——HLE 的学科分类使技能复用成为可能,而 GAIA 的高度多样化问题限制了迁移效果。 |
方法公式化
Memento-Skills = (冻结 LLM + 技能记忆 M) × 读写反思循环
展开为:
持续学习能力 = (行为对齐路由器 × 可执行技能库) × (Read → Act → Feedback → Write)^t其中:
- 行为对齐路由器 = InfoNCE 损失训练的单步离线 RL 模型(优化执行成功率而非语义相似度)
- 可执行技能库 = {声明式规范 + 提示词 + 代码} 的集合,每个技能可独立演化
- Read = 给定任务 q,从 M 中检索最相关技能 c*
- Act = 冻结 LLM 执行 c* 产生答案 a
- Feedback = Judge 评估 (q, a) 得到奖励 r
- Write = 基于 r 更新 c* 的效用分数,若失败则归因并重写技能文件
- t = 训练轮次,随 t 增长技能库收敛
收敛边界(来自 Memento 2 理论):
性能差距 ≤ εLLM(rM) + 2Rmax·δM / (1-γ)其中 rM 随训练轮次缩小(技能库更密集),εLLM 和δM 随之降低,系统收敛。
三旋钮优化框架:
更强 LLM → 降低εLLM
更多轮次 → 降低 rM
更好嵌入 → 降低δM三个维度独立,可模块化升级。
最终双重总结
一句话总结(核心价值):Memento-Skills 通过将可执行技能作为外部记忆单元,结合行为对齐的读写反思学习循环,使冻结的 LLM 能够在无需参数更新的情况下从部署经验中持续学习,在结构化领域基准上实现超过 100% 的相对性能提升,揭示了持续学习不必驻留在模型权重中的新范式。
一句话总结(大白话版):就像一个不升级大脑但不断记笔记的学生——Memento-Skills 给固定的 LLM 配了一个智能笔记本,每次做题后把经验写成技能卡片,下次遇到类似问题直接翻卡片,越用越聪明,还不用重新培训大脑。
报告生成时间:2026 年 3 月 27 日解析工具:paper-parse 技能(双模式深度研读)