📄 论文信息

arXiv: 2603.18743
分类: 记忆系统
标签: optimization, memory, scientific, llm

📑 目录

本文档包含完整的论文研读报告，包括深度学术速读和技术实现分析两部分。

Memento-Skills: Let Agents Design Agents 双模式研读报告

论文信息：arXiv:2603.18743v1 [cs.AI] | 2026 年 3 月 19 日 | Memento-Team

代码仓库：https://github.com/Memento-Teams/Memento-Skills

Part A: 深度专业学术速读报告

结构化摘要 (Structured Abstract)

维度	内容
背景/目标	在大语言模型 (LLM) 通常以冻结参数部署的背景下，本研究旨在解决"冻结的 LLM 如何从部署经验中持续学习"这一核心问题。现有方法依赖参数微调，成本高昂且无法实现部署时学习。
方法	提出 Memento-Skills 系统，基于状态化反思决策过程 (SRDP) 框架，将可执行技能文件夹（代码、提示词、声明式规范）作为外部记忆单元。采用读写反思学习循环：行为对齐的技能路由器选择相关技能（Read），基于执行反馈反思性地更新技能库（Write）。路由器通过单步离线 RL 训练，使用 InfoNCE 损失优化行为相似性而非语义相似度。
结果	在 GAIA 基准上，测试集准确率达 66.0%，相比 Read-Write 基线 (52.3%) 提升 13.7 个百分点；在 HLE 基准上，测试集准确率达 38.7%，相比基线 (17.9%) 实现 116.2% 相对提升。技能库从 5 个原子技能增长至 235 个（HLE），形成语义连贯的技能聚类。路由器 Recall@1 达 0.60，相比语义基线提升 10%。
结论	技能即记忆的范式使冻结 LLM 能够实现持续学习，无需参数更新。跨任务迁移在领域对齐的结构化基准（如 HLE）上效果最强。系统揭示了三个独立优化维度：更强 LLM、更多训练轮次、更好嵌入模型。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

现代机器学习强调从经验中学习，大语言模型 (LLM) 通过少样本学习、监督微调和后训练展现了卓越性能。然而，实现实际效用通常需要反向传播进行参数优化，这需要大量数据和计算资源。在实践中，持续参数更新的成本和复杂性意味着大多数 LLM 智能体以冻结模型部署——参数θ在预训练后保持不变。

当这样的智能体遇到新任务时，它只能依赖编码在θ中的知识和上下文窗口中能容纳的内容。这造成了一个根本性限制：智能体是无状态的，无法从自己的部署经验中学习。

核心研究问题：如何在保持 LLM 参数冻结的前提下，使智能体能够从部署经验中持续学习和适应？

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有 LLM 适应范式可分为三类（如图 2 所示）：

预训练：在大规模语料上学习模型权重θ，需要万亿级 token
微调：在任务特定数据上更新θ，需要数千级样本（SFT/RLHF/DPO）
部署时学习（本文）：保持θ冻结，在外部记忆 M 中积累经验

Memento 2 (Wang, 2025) 提出了状态化反思决策过程 (SRDP) 框架，通过增强智能体随时间增长的 episodic memory Mt 来解决状态lessness 问题。然而，Memento 2 的记忆单元是原始轨迹日志（状态、动作、奖励的序列），缺乏结构化和可复用性。

现有自动技能学习方法存在两类局限：

仅生成文本指南，实质上是提示优化 (Agrawal et al., 2025; Tan et al., 2026)
对单任务轨迹过拟合，迁移能力有限 (Letta, 2025)

研究缺口：缺乏一个系统，能够将结构化的、可执行的技能作为记忆单元，通过反思性学习循环实现持续适应，同时保持理论收敛保证。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：

将 SRDP 框架实例化为具体系统 Memento-Skills，以可复用技能文件夹作为记忆单元
实现无需 LLM 参数更新的持续学习
训练行为对齐的技能路由器，优化执行成功率而非语义相似度
在 GAIA 和 HLE 基准上验证系统有效性

核心命题：

P1：将记忆单元从原始轨迹升级为可执行技能，能够实现更有效的知识迁移
P2：行为对齐的路由器相比语义路由器能更准确地选择相关技能
P3：技能库随训练轮次增长并收敛，符合 Memento 2 的理论预测
P4：跨任务迁移效果在领域对齐的结构化基准上最强

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用系统构建与实证验证相结合的方法论：

理论层面：基于 Memento 2 的 SRDP 框架，将 Read-Write Reflective Learning 形式化为策略迭代过程。Read 对应策略改进（检索最相关技能），Write 对应策略评估与改进（基于反馈更新技能）。

系统层面：构建 Memento-Skills 系统，包含以下核心组件（如图 6、7 所示）：

Memento-Skills 智能体核心
LLM 客户端
上下文管理器
内置工具集
技能系统（管理内置和生成的技能）
进化引擎（从任务反馈中优化技能库）

评估层面：在两个代表性基准上进行实证验证，比较完整系统与消融基线的性能差异。

2.2. 数据来源与样本 (Data Source & Sample)

技能数据库：

从公开 GitHub 仓库爬取约 8000 个技能
筛选标准：stars > 500，保留成熟且广泛采用的技能
去重：基于 SHA-256 哈希值（标准化描述后），保留代表性样本
最终用于路由器训练的种子数据：约 3000 个技能

合成查询生成：

仅使用技能名称和描述生成查询（不访问完整技能文件）
使用 LLM-based judge 过滤和验证合成查询质量
生成正样本（应选择目标技能）和难负样本（同领域但目标技能不适用）

评估基准：

基准	训练集	测试集	特点
GAIA	100 题	65 题	真实世界问题，需要多步推理、多模态处理、网页浏览和工具使用
HLE	788 题	342 题	8 个学科学术问题（数学、人文、自然科学等），结构化分类

实验设置：

底层 LLM：Gemini-3.1-Flash
嵌入模型：Qwen3-Embedding-0.6B
最大反思重试次数：3 次/题

2.3. 操作化与测量 (Operationalization & Measurement)

核心变量定义：

技能记忆 Mt：有限增长的可复用技能工件集合，每个技能包含声明式规范 (SKILL.md)、辅助脚本和提示词
SRDP 形式化：DSRDP = ⟨S, A, P, R, γ, M, pLLM⟩，扩展标准 MDP 包含 episodic memory M 和 LLM 决策核 pLLM(a | s, c)
路由策略：KL-正则化的 Boltzmann 策略 $$\pi_\theta(d | q) = \frac{\exp(Q_\theta(q, d)/\tau)}{\sum_{d'} \exp(Q_\theta(q, d')/\tau)}$$
InfoNCE 损失（温度τ）： $$L_i = -\log \frac{\sum_{q \in Q_i^+} \exp(s(d_i, q)/\tau)}{\sum_{q \in Q} \exp(s(d_i, q)/\tau)}$$

测量指标：

指标	定义	用途
Recall@K	真实技能出现在前 K 个候选中的比例	离线检索质量
route_hit_rate	路由器 top-1 选择是否为任务的合适技能	端到端路由准确性
judge_success_rate	完整轨迹是否实际解决任务	端到端执行成功率
准确率	测试集正确答案比例	整体性能

技能演化机制：

效用更新：Ut+1(ct) = n_success(ct) / (n_success(ct) + n_fail(ct))
效用阈值δ：低于阈值时触发技能发现而非原地优化
单元测试门：所有变异需通过自动生成的测试用例验证

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

GAIA 基准结果（图 10）：

训练集准确率随反思轮次提升：

第 1 轮：65.1%
第 2 轮：84.3%
第 3 轮：91.6%

测试集性能对比：

Memento-Skills：66.0%
Read-Write 基线：52.3%
绝对提升：13.7 个百分点

按难度级别分析：

Level 1：96.6%（+38.0）
Level 2：93.0%（+18.6）
Level 3：72.7%（+27.2）

关键洞察：GAIA 问题高度多样化，推理模式重叠较少。案例研究证实，训练期间优化的大多数技能在测试时从未被触发，因为不存在足够相似的测试问题。这表明技能迁移依赖领域对齐。

HLE 基准结果（图 11）：

训练集准确率随轮次提升（R0→R3）：

整体：30.8% → 54.5%
Humanities：36.9% → 66.7%（+29.8）
Chemistry：38.8% → 62.4%（+23.6）
Biology：30.3% → 60.7%（+30.4）
Mathematics：30.0% → 51.2%（+21.2）
Physics：21.1% → 47.4%（+26.3）
CS：19.8% → 46.5%（+26.7）
Engineering：27.6% → 42.1%（+14.5）

测试集性能对比：

Memento-Skills：38.7%
Read-Write 基线：17.9%
相对提升：116.2%

关键洞察：HLE 的结构化学科分类使技能能够跨任务迁移。在一个 Biology 训练问题上优化的技能可频繁复用于测试集中未见过的 Biology 问题。这证实了领域对齐的技能库是跨任务泛化的关键使能因素。

路由器性能（图 9）：

离线检索质量（Recall@K）：

K	BM25	Qwen3-Emb	Memento-Qwen
@1	0.32	0.54	0.60
@5	0.47	0.60	0.79
@10	0.53	0.82	0.90

端到端执行指标：

route_hit_rate：BM25 0.29 → Qwen3 0.53 → Memento-Qwen 0.58
judge_success_rate：BM25 0.50 → Qwen3 0.79 → Memento-Qwen 0.80

关键洞察：词汇匹配是行为效用的糟糕代理——许多技能共享领域术语但需要根本不同的执行策略。即使密集语义嵌入也低估了执行相关特征，单步 RL 微调有效将行为信号注入嵌入空间。

技能库增长（图 12）：

从 5 个原子技能（搜索、终端操作等）开始：

GAIA 学习后：41 个技能（紧凑库，反映基准的多样化但相对较小的问题集）
HLE 学习后：235 个技能（跨越更宽嵌入空间，反映 8 个学术领域的广度）

技能聚类（HLE）：

Search / Web：48 个
Quantum / Physics：47 个
Math / Chemistry：44 个
Code / Text：38 个
Download / Verify：28 个
Clinical / Excel：27 个
Chess / Game：20 个
Python / Script：19 个

t-SNE 投影显示学习到的技能形成语义连贯的邻域，每个聚类对应智能体通过反思性自进化获得的领域特定能力。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图 1：自进化结果概览

该图综合展示了 Memento-Skills 在两个基准上的性能提升和技能库增长。左侧 (a)(b) 显示性能随反思学习轮次的渐进提升，右侧 (c)(d) 显示技能记忆的增长并 organize 成语义有意义的聚类。关键数据点：HLE 上 Humanities 从 36.9% 提升至 66.7%，GAIA 上 Level 1 从 58.6% 提升至 96.6%。

图 2：LLM 适应的三种范式

该图对比了预训练、微调和部署时学习的核心差异。关键洞察：部署时学习（本文）保持θ冻结，在外部技能记忆 M 中积累经验，实现零重训练成本的持续适应。学习单位从模型权重转向每次部署交互。

图 3：读写反思学习循环

展示了核心算法流程：给定新任务，智能体从技能记忆中检索相关技能（Read），通过冻结 LLM 执行（Act），使用反馈反思性地优化和更新技能库（Write）。LLM 参数全程保持不变，所有适应发生在记忆中。

图 9：路由器性能评估

左图显示三种路由模型在合成查询 - 技能对上的离线召回率，右图显示端到端执行成功率。关键发现：Memento-Qwen 在所有 K 值上一致优于 BM25 和 Qwen3 基线，且离线检索增益转化为实际执行改进。这验证了行为对齐训练的有效性。

图 11：HLE 结果

左图显示 4 个训练轮次 (R0-R3) 的每类别准确率，右图显示与 Read-Write 基线的测试集对比。关键模式：所有学科类别均显示一致提升，Humanities 和 Biology 受益最大。测试集上 Memento-Skills 超过基线两倍多，证实结构化分类使能技能迁移。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

这些研究发现意味着什么？它们如何回答了引言中提出的研究问题？

核心答案：Memento-Skills 成功证明了冻结 LLM 可以通过外部技能记忆实现持续学习，无需参数更新。这一答案通过三个层面的证据支撑：

性能提升：在两个基准上均显著超越 Read-Write 基线，证明技能优化管道的贡献
收敛行为：训练准确率随轮次提升但增速递减，符合 Memento 2 理论预测的收敛模式
技能库演化：技能数量增长并形成语义聚类，证实系统能够自主获取、优化和复用技能

GAIA 与 HLE 的对比洞察：

GAIA 上有限的跨任务迁移揭示了技能学习的一个重要边界条件：当问题高度多样化、推理模式重叠较少时，技能复用机会有限。这并非系统缺陷，而是反映了技能迁移的本质——它依赖领域结构。

HLE 上的强劲表现（116.2% 相对提升）证实了这一假设：结构化的学科分类为技能复用提供了天然的对齐框架。在一个 Biology 问题上优化的技能可直接应用于其他 Biology 问题，因为底层推理模式和知识需求相似。

路由器行为的深层含义：

行为对齐路由器相比语义路由器的优势（Recall@1 从 0.54 提升至 0.60）揭示了一个关键洞察：语义相似性不等于行为效用。两个技能可能共享领域术语但需要完全不同的执行策略。通过单步离线 RL 训练，路由器学会了预测执行成功率而非文本相似度，这更符合任务目标。

4.2. 理论贡献 (Theoretical Contributions)

本研究对现有理论的贡献体现在三个层面：

1. SRDP 框架的具体实例化

Memento 2 提出了状态化反思决策过程的理论框架，但未提供具体系统实现。Memento-Skills 填补了这一空白，将抽象的记忆单元具体化为可执行技能文件夹，将理论保证转化为可部署工件。关键创新在于：Write 操作不再是简单追加，而是封装技能级反思更新——执行失败归因和文件级重写，直接修改技能内的提示词或代码。

2. 收敛性的实证验证

Memento 2 定理 8 证明了 KL-正则化软策略迭代的收敛性。Memento-Skills 的实验结果（训练准确率随轮次提升并趋于平稳）为这一理论预测提供了实证支持。图 11 中的 diminishing returns 曲线正是理论边界收紧的实时体现：随着技能库增长，记忆覆盖半径 rM 缩小，同时降低εLLM(rM) 和δM，系统收敛。

3. 三旋钮优化框架

理论边界分析揭示了三个独立的优化维度：

更强 LLM：降低εLLM（LLM 质量项）
更多轮次：降低 rM（记忆覆盖半径）
更好嵌入：降低δM（检索误差）

这一框架的重要性在于其模块化：可以独立升级任一维度而不影响其他。这为系统演进提供了清晰的路线图。

4. 技能即记忆的新范式

传统 episodic memory 存储原始轨迹，而 Memento-Skills 将技能作为记忆单元。这一转变的理论意义在于：技能封装了声明式规范、提示词和可执行代码，是比原始轨迹更高层次的抽象。这使得知识能够跨任务迁移，而非局限于相似情境的回忆。

4.3. 实践启示 (Practical Implications)

本研究对相关领域的实践者具有以下指导意义：

对于 LLM 应用开发者：

无需微调即可实现持续学习：通过外部技能记忆，可以避免昂贵的参数更新
模块化升级路径：可根据需求独立升级嵌入模型、LLM 或增加训练轮次
快速部署：5 分钟安装即可运行自进化智能体（见论文 1.2 节）

对于企业决策者：

成本效益：零重训练成本意味着更低的运营支出
可解释性：技能以文件形式存储，可审计、可版本控制
安全性：单元测试门确保技能变异不会引入回归

对于研究人员：

新的研究方向：技能表示学习、技能组合、跨域迁移
评估框架：需同时评估离线检索质量和端到端执行成功率
理论 - 实践桥梁：展示了如何将理论保证转化为工程系统

具体建议：

优先在结构化领域（如 HLE 的学科分类）应用技能学习，以获得最大迁移效益
投资行为对齐的路由器训练，而非依赖语义相似度
建立技能库的持续维护机制，包括效用监控和低效技能的淘汰

4.4. 局限性与未来研究 (Limitations & Future Research)

本研究存在的局限性：

基准依赖性：技能迁移效果高度依赖领域结构。在 GAIA 这类高度多样化的基准上，跨任务迁移有限。这限制了系统在开放域场景中的适用性。
规模限制：实验使用的技能库规模为 8000 个，测试集问题数量有限（GAIA 65 题，HLE 342 题）。当技能库扩展至百万级时，检索效率和收敛速度如何变化尚不清楚。
安全性评估不足：论文明确指出"沙盒安全性——是否在不破坏其他事物的情况下解决任务——是第三维度，但需要适当的隔离 harness。未来工作。"这意味着系统在生产环境中的安全性尚未充分验证。
合成数据偏差：路由器训练依赖合成查询，尽管使用 LLM judge 过滤，但合成数据与真实用户查询之间可能存在分布偏移。真实用户可能输入"pls fix the thing from last time thx"这类模糊、非标准化的请求。
单一 LLM 评估：所有实验使用 Gemini-3.1-Flash，未评估不同 LLM 对系统性能的影响。理论上更强 LLM 应降低εLLM，但实证验证缺失。

未来研究方向：

规模化研究：探索百万级技能库的检索效率和收敛行为，验证理论预测的 O(n^(-1/d)) 收敛率
安全性框架：开发适当的隔离 harness，评估技能执行的安全性，防止"删除用户配置并重新开始"这类危险操作
跨域迁移：研究如何将技能从一个领域迁移到相关但不同的领域，提升开放域适应性
多 LLM 评估：系统评估不同 LLM（规模、架构、训练数据）对系统性能的影响，验证三旋钮框架
真实场景部署：在生产环境中部署系统，收集真实用户交互数据，评估长期性能和技能演化模式
技能组合与层次化：探索技能的组合机制和层次化组织，提升复杂任务的解决能力

5. 结论 (Conclusion)

Memento-Skills 成功桥接了基于记忆的学习和基于技能的学习之间的鸿沟。核心洞察是将可执行技能作为外部记忆单元，从而将状态化反思决策过程的理论保证转化为具体可部署的工件。

通过读写反思学习循环，智能体仅从部署经验中自主获取、优化和复用技能，无需更新底层 LLM 参数。行为对齐的对比路由器通过单步离线 RL 训练，确保检索优化执行成功率而非表面相似性。

GAIA 和 HLE 上的实验证实，技能即记忆的公式显著优于静态库消融，且当技能与结构化领域类别对齐时，跨任务迁移效果最强。更广泛地，Memento-Skills 证明了持续学习不必驻留在模型权重中：一个不断增长、自改进的技能库可以作为持久的非参数智能层，供任何冻结 LLM 使用。

6. 核心参考文献 (Core References)

Wang, J. (2025). Memento 2: Learning by stateful reflective memory. arXiv preprint arXiv:2512.22716.
- 理论基础：SRDP 框架和收敛性证明
Mialon, G., Fourrier, C., Wolf, T., LeCun, Y., & Scialom, T. (2023). GAIA: a benchmark for general AI assistants. The Twelfth International Conference on Learning Representations.
- 评估基准之一：真实世界问题测试集
Center for AI Safety, Scale AI, and HLE Contributors Consortium. (2026). A benchmark of expert-level academic questions to assess AI capabilities. Nature, 649, 1139–1146.
- 评估基准之二：跨学科学术问题测试集
Zhang, Y., et al. (2025). Qwen3 embedding: Advancing text embedding and reranking through foundation models. arXiv preprint arXiv:2506.05176.
- 基线嵌入模型：Qwen3-Embedding-0.6B
Zheng, L., et al. (2023). Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in neural information processing systems, 36, 46595–46623.
- LLM judge 方法：用于评估执行质量和过滤合成数据

Part B: 核心逻辑链与根本价值提炼

核心四要素

要素	内容
根本问题	冻结的 LLM 无法从部署经验中学习——参数固定后，智能体每次遇到新任务只能依赖预训练知识和有限上下文，无法像人类一样"吃一堑长一智"。现有解决方案要么成本高昂（微调），要么缺乏结构化（原始轨迹记忆），无法实现高效的知识迁移。
切入视角	将"记忆"的定义从原始轨迹日志升级为可执行技能文件夹——每个技能包含代码、提示词和声明式规范，是结构化的、可复用的知识单元。关键洞察：技能即记忆，技能的演化即学习，无需触动 LLM 参数。这就像给一个固定智商的脑子配一个不断升级的外挂知识库。
关键方法	读写反思学习循环：Read（行为对齐路由器选择最相关技能）→ Act（冻结 LLM 执行技能）→ Feedback（judge 评估结果）→ Write（基于反馈反思性更新技能库）。路由器通过单步离线 RL 训练，优化行为相似性而非语义相似度；技能更新通过失败归因和文件级重写实现，单元测试门确保质量。
核心发现	GAIA 测试集 66.0%（+13.7 个百分点），HLE 测试集 38.7%（相对提升 116.2%）。技能库从 5 个原子技能增长至 235 个，形成语义聚类。关键洞察：跨任务迁移在领域对齐的结构化基准上最强——HLE 的学科分类使技能复用成为可能，而 GAIA 的高度多样化问题限制了迁移效果。

方法公式化

Memento-Skills = (冻结 LLM + 技能记忆 M) × 读写反思循环

展开为：

持续学习能力 = (行为对齐路由器 × 可执行技能库) × (Read → Act → Feedback → Write)^t

其中：

行为对齐路由器 = InfoNCE 损失训练的单步离线 RL 模型（优化执行成功率而非语义相似度）
可执行技能库 = {声明式规范 + 提示词 + 代码} 的集合，每个技能可独立演化
Read = 给定任务 q，从 M 中检索最相关技能 c*
Act = 冻结 LLM 执行 c* 产生答案 a
Feedback = Judge 评估 (q, a) 得到奖励 r
Write = 基于 r 更新 c* 的效用分数，若失败则归因并重写技能文件
t = 训练轮次，随 t 增长技能库收敛

收敛边界（来自 Memento 2 理论）：

性能差距 ≤ εLLM(rM) + 2Rmax·δM / (1-γ)

其中 rM 随训练轮次缩小（技能库更密集），εLLM 和δM 随之降低，系统收敛。

三旋钮优化框架：

更强 LLM → 降低εLLM
更多轮次 → 降低 rM
更好嵌入 → 降低δM

三个维度独立，可模块化升级。

最终双重总结

一句话总结（核心价值）：Memento-Skills 通过将可执行技能作为外部记忆单元，结合行为对齐的读写反思学习循环，使冻结的 LLM 能够在无需参数更新的情况下从部署经验中持续学习，在结构化领域基准上实现超过 100% 的相对性能提升，揭示了持续学习不必驻留在模型权重中的新范式。

一句话总结（大白话版）：就像一个不升级大脑但不断记笔记的学生——Memento-Skills 给固定的 LLM 配了一个智能笔记本，每次做题后把经验写成技能卡片，下次遇到类似问题直接翻卡片，越用越聪明，还不用重新培训大脑。

报告生成时间：2026 年 3 月 27 日解析工具：paper-parse 技能（双模式深度研读）

Memento-Skills: Let Agents Design Agents 双模式研读报告 ​

Part A: 深度专业学术速读报告 ​

结构化摘要 (Structured Abstract) ​

1. 引言 (Introduction) ​

1.1. 研究背景与核心问题 (Research Background & Problem Statement) ​

1.2. 文献综述与研究缺口 (Literature Review & Research Gap) ​

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions) ​

2. 研究设计与方法 (Methodology) ​

2.1. 研究范式与方法论 (Research Paradigm & Methodology) ​

2.2. 数据来源与样本 (Data Source & Sample) ​

2.3. 操作化与测量 (Operationalization & Measurement) ​

3. 结果与发现 (Results & Findings) ​

3.1. 主要发现概述 (Overview of Key Findings) ​

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures) ​

4. 讨论 (Discussion) ​

4.1. 结果的深度解读 (In-depth Interpretation of Results) ​

4.2. 理论贡献 (Theoretical Contributions) ​

4.3. 实践启示 (Practical Implications) ​

4.4. 局限性与未来研究 (Limitations & Future Research) ​

5. 结论 (Conclusion) ​

6. 核心参考文献 (Core References) ​

Part B: 核心逻辑链与根本价值提炼 ​

核心四要素 ​

方法公式化 ​

最终双重总结 ​