📚 论文研读
本页面收录了 AI 领域的论文研读报告,涵盖 Agent、RAG、多模态、模型优化等方向。
📊 统计信息
- 总计: 34 篇论文
- 分类: 10 个类别
🔍 筛选与搜索
📁 分类目录
Agent
OpenDevin: An Open Platform for AI Software Developers as Generalist Agents
OpenHands 是一个功能完整、立即可用的 AI 智能体平台,支持学术和工业界的多样化研究和应用。
MiroThinker: Learning to Think with a Whiteboard
交互深度展现出与模型规模和上下文长度类似的扩展行为,是构建下一代开源研究智能体的第三个关键维度。
HyperAgents: A Unified Framework for Agentic Self-Improvement
HyperAgents 首次实现了不依赖对齐假设的通用自改进框架,元认知自改进使系统能够改进"如何改进"的能力。
EvoScientist: Evolving Multi-Agent Systems for Scientific Discovery
持久记忆和多智能体演化机制能有效提升科学想法质量和代码执行可靠性。
AutoDev: Automated Software Development with LLM Agents
AutoDev 显著提升了 LLM 在软件工程任务中的性能,同时保持了安全和用户可控的开发环境。
AgentScope: A Flexible and Efficient Multi-Agent Framework
AgentScope 的增强功能有效解决了大规模多智能体模拟的可扩展性、效率和效率问题。
AgentScope 1.0: A Practical Platform for Building Scalable Multi-Agent Applications
AgentScope 1.0 为构建可扩展、自适应、高效的智能体应用提供了实用基础。
The AI Scientist-v2: Workshop-Level Automated Scientific Discovery
The AI Scientist-v2 成功实现了 workshop 级别的自动科学发现,标志着 AI 生成研究通过同行评审的重要里程碑。
Framework
SmolDocling: Small Models for Document Understanding
证明小模型通过统一优化的输出格式可与大模型竞争,为资源高效的多任务文档理解开辟新路径。
MinerUDiffusion: Diffusion-Based Document OCR
扩散解码是文档 OCR 的有前景的替代方案,在保持高识别准确率的同时显著提升长序列推理效率。
MinerU 2.5: A Comprehensive Document Parsing Tool
MinerU2.5 通过解耦架构成功解决了文档解析中性能与效率的权衡问题。
LlamaFactory: Unified Efficient Fine-Tuning of LLMs
LlamaFactory 通过模块化设计最小化了模型、数据集和训练方法之间的依赖,显著降低了 LLM 微调的门槛。
LTX-2: A Unified Framework for Text-to-Audio-Video Generation
LTX-2 建立了新的开源 T2AV 生成基础,以前所未有的速度生成连贯、富有表现力且细节丰富的音视频内容。
Memory
MementoSkills: Skills as Memory for Continuous Learning
技能即记忆的范式使冻结 LLM 能够实现持续学习,无需参数更新。
MemOS: A Memory-Centric System Framework for LLMs
MemOS 成功建立了以记忆为中心的系统框架,为 LLM 带来了可控性、可塑性和可演化性。
Mem0: A Structured Memory Layer for LLMs
Mem0 在保持高级推理能力的同时显著降低计算开销,p95 延迟降低 91%,token 成本节省超 90%。
EverMemOS: Dynamic Memory Lifecycle Management
通过将记忆建模为动态生命周期而非被动记录存储,EverMemOS 实现了从碎片化事件体验到连贯稳定知识结构的转化。
Multimodal
daVinciMagiHuman: Unified Audio-Video Generation
单流架构在音视频生成任务中可达到甚至超越复杂多流架构的性能,同时大幅简化模型设计。
VideoDetective: A Video Reasoning Framework with Knowledge Priors
VideoDetective 通过整合外在查询引导先验和内在流形传播,有效补偿了模型规模限制。
PaddleOCR-VL: A Comprehensive OCR Toolkit
PaddleOCR-VL 在页面级和元素级文档解析任务上均达到 SOTA 性能,同时保持最小资源消耗。
Fish Audio S2: Advanced Text-to-Speech System
通过 Dual-AR 架构、双用途数据流水线和多奖励 RL 对齐,Fish Audio S2 实现了细粒度自然语言控制。
Optimization
SpecEyes: Speculative Agentic MLLM Inference
SpecEyes 成功将推测范式从 token 级提升至 agentic 级,通过跳过不必要的工具链实现延迟降低。
PowerInfer: Efficient LLM Inference on Consumer GPUs
PowerInfer 通过利用 LLM 推理的 locality 特性,成功在消费级 GPU 上实现高效 LLM 推理。
OmniFlatten: Full-Duplex Speech Conversation System
该方法无需修改 LLM 架构或依赖计算密集型预训练,为开发高效自然的全双工语音对话系统提供了简单的建模技术。
Bitnet.cpp: Ternary LLM Inference on Edge Devices
Bitnet.cpp 为 sub-2-bits-per-weight 条件下的三元 LLMs 边缘推理设立了新基准。
AttentionResiduals: Content-Dependent Information Aggregation
AttnRes 通过将深度方向的信息聚合从固定权重升级为内容依赖的 softmax 注意力,完成了范式转变。