📚 论文研读 <a class="header-anchor" href="#📚-论文研读" aria-label="Permalink to &quot;📚 论文研读&quot;" data-v-34bda087>​

multi-agentsocial-simulationscientificllmagent

OpenDevin: An Open Platform for AI Software Developers as Generalist Agents

OpenHands 是一个功能完整、立即可用的 AI 智能体平台，支持学术和工业界的多样化研究和应用。

optimizationllmagentscientific

MiroThinker: Learning to Think with a Whiteboard

交互深度展现出与模型规模和上下文长度类似的扩展行为，是构建下一代开源研究智能体的第三个关键维度。

social-simulationscientificoptimizationragagent

HyperAgents: A Unified Framework for Agentic Self-Improvement

HyperAgents 首次实现了不依赖对齐假设的通用自改进框架，元认知自改进使系统能够改进"如何改进"的能力。

multi-agentsocial-simulationscientificllmagent

EvoScientist: Evolving Multi-Agent Systems for Scientific Discovery

持久记忆和多智能体演化机制能有效提升科学想法质量和代码执行可靠性。

AutoDev: Automated Software Development with LLM Agents

AutoDev 显著提升了 LLM 在软件工程任务中的性能，同时保持了安全和用户可控的开发环境。

llmagentscientific

multi-agentsocial-simulationefficiencyscientificdistributed +2

AgentScope: A Flexible and Efficient Multi-Agent Framework

AgentScope 的增强功能有效解决了大规模多智能体模拟的可扩展性、效率和效率问题。

multi-agentefficiencyscientificoptimizationllm +1

AgentScope 1.0: A Practical Platform for Building Scalable Multi-Agent Applications

AgentScope 1.0 为构建可扩展、自适应、高效的智能体应用提供了实用基础。

multi-agentsocial-simulationscientificfinancellm

The AI Scientist-v2: Workshop-Level Automated Scientific Discovery

The AI Scientist-v2 成功实现了 workshop 级别的自动科学发现，标志着 AI 生成研究通过同行评审的重要里程碑。

scientificvisionagentllm

Finance

Finance2026/03/27

TradingAgents: Multi-Agent LLM Framework for Financial Trading

多 agent LLM 框架通过模拟真实交易公司的协作动态和采用结构化通信协议，能显著提升交易性能。

Framework

ocrframeworkefficiencyscientificoptimization +2

SmolDocling: Small Models for Document Understanding

证明小模型通过统一优化的输出格式可与大模型竞争，为资源高效的多任务文档理解开辟新路径。

ocrframeworkefficiencyscientificvision

MinerUDiffusion: Diffusion-Based Document OCR

扩散解码是文档 OCR 的有前景的替代方案，在保持高识别准确率的同时显著提升长序列推理效率。

ocrframeworkefficiencyscientificoptimization +3

MinerU 2.5: A Comprehensive Document Parsing Tool

MinerU2.5 通过解耦架构成功解决了文档解析中性能与效率的权衡问题。

frameworkefficiencyscientificdistributedllm

LlamaFactory: Unified Efficient Fine-Tuning of LLMs

LlamaFactory 通过模块化设计最小化了模型、数据集和训练方法之间的依赖，显著降低了 LLM 微调的门槛。

speechframeworkefficiencyscientificoptimization +1

LTX-2: A Unified Framework for Text-to-Audio-Video Generation

LTX-2 建立了新的开源 T2AV 生成基础，以前所未有的速度生成连贯、富有表现力且细节丰富的音视频内容。

Memory

optimizationmemoryscientificllm

MementoSkills: Skills as Memory for Continuous Learning

技能即记忆的范式使冻结 LLM 能够实现持续学习，无需参数更新。

knowledge-graphscientificragmemoryllm

MemOS: A Memory-Centric System Framework for LLMs

MemOS 成功建立了以记忆为中心的系统框架，为 LLM 带来了可控性、可塑性和可演化性。

Mem0: A Structured Memory Layer for LLMs

Mem0 在保持高级推理能力的同时显著降低计算开销，p95 延迟降低 91%，token 成本节省超 90%。

memoryscientificllmrag

EverMemOS: Dynamic Memory Lifecycle Management

通过将记忆建模为动态生命周期而非被动记录存储，EverMemOS 实现了从碎片化事件体验到连贯稳定知识结构的转化。

memoryscientificllm

Multimodal

speechmultimodalefficiencyscientificoptimization +1

daVinciMagiHuman: Unified Audio-Video Generation

单流架构在音视频生成任务中可达到甚至超越复杂多流架构的性能，同时大幅简化模型设计。

knowledge-graphmultimodalscientificoptimizationrag +2

VideoDetective: A Video Reasoning Framework with Knowledge Priors

VideoDetective 通过整合外在查询引导先验和内在流形传播，有效补偿了模型规模限制。

ocrmultimodalefficiencyscientificoptimization +1

PaddleOCR-VL: A Comprehensive OCR Toolkit

PaddleOCR-VL 在页面级和元素级文档解析任务上均达到 SOTA 性能，同时保持最小资源消耗。

speechmultimodalscientificoptimizationvision +1

Fish Audio S2: Advanced Text-to-Speech System

通过 Dual-AR 架构、双用途数据流水线和多奖励 RL 对齐，Fish Audio S2 实现了细粒度自然语言控制。

Optimization

ocrefficiencyscientificoptimizationvision +1

SpecEyes: Speculative Agentic MLLM Inference

SpecEyes 成功将推测范式从 token 级提升至 agentic 级，通过跳过不必要的工具链实现延迟降低。

efficiencyscientificoptimizationllmquantization

PowerInfer: Efficient LLM Inference on Consumer GPUs

PowerInfer 通过利用 LLM 推理的 locality 特性，成功在消费级 GPU 上实现高效 LLM 推理。

speechefficiencyscientificoptimizationrag +2

OmniFlatten: Full-Duplex Speech Conversation System

该方法无需修改 LLM 架构或依赖计算密集型预训练，为开发高效自然的全双工语音对话系统提供了简单的建模技术。

efficiencyscientificoptimizationllmquantization

Bitnet.cpp: Ternary LLM Inference on Edge Devices

Bitnet.cpp 为 sub-2-bits-per-weight 条件下的三元 LLMs 边缘推理设立了新基准。