每日信息简报 — 2026-05-17

HAHA Daily Brief · 2026-05-17 15:26

共 34 条精选内容

📋 今日速览

🔥 通过简单统一的缩放实现金牌级奥赛推理（📅 4天前 · Hugging Face Daily Papers）

本文提出一种系统化方法，将后训练推理模型转化为严格的奥赛级求解器。该方法通过反向困惑度课程、两阶段强化学习和测试时缩放，在数学和物理竞赛中达到金牌水平。训练出的SU-01模型（30B-A3B骨干）在IMO 2025/USAMO 2026和I…

📎 [[llm-wiki-bootstrap/wiki/concepts/hf-achieving-gold-medal-level-olympiad-reasoning-via-simple-and-unified-scaling]] · 打开

🔥 超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自我进化综述（📅 3天前 · Hugging Face Daily Papers）

本文综述了基于LLM的多智能体系统在协作、故障归因与自我进化方面的挑战与进展。提出LIFE框架，将系统生命周期分为四个因果关联阶段：能力基础构建、智能体协作集成、故障归因诊断、自主自我进化。系统梳理了各阶段的分类体系与阶段间依赖关系，并指出…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-beyond-individual-intelligence-surveying-collaboration-failure-attribution-and-s]] · 打开

🔥 通过简单统一的缩放实现金牌级别的奥赛推理能力（📅 4天前 · Hugging Face Daily Papers）

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-achieving-gold-medal-level-olympiad-reasoning-via-simple-and-unified-scaling]] · 打开

🔥 MemLens：大型视觉语言模型多模态长期记忆基准测试（📅 3天前 · Hugging Face Daily Papers）

MemLens是一个针对大型视觉语言模型（LVLMs）在多模态多轮对话中记忆能力的综合基准。它包含789个问题，覆盖五种记忆能力（信息提取、多轮推理、时间推理、知识更新和拒绝回答），在四种标准上下文长度（32K-256K tokens）下采…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-memlens-benchmarking-multimodal-long-term-memory-in-large-vision-language-models]] · 打开

🔥 RouteProfile：阐明用于路由的LLM配置文件设计空间（📅 04-30 · Hugging Face Daily Papers）

随着大语言模型（LLM）生态系统的扩展，单个模型在查询、基准测试和领域上表现出不同的能力，这推动了LLM路由的发展。虽然先前的工作主要关注路由器机制设计，但捕获模型能力的LLM配置文件仍未被充分探索。本研究探讨LLM配置文件设计如何影响不同…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-routeprofile-elucidating-the-design-space-of-llm-profiles-for-routing]] · 打开

🤖 AI·模型

🔥 达尔文家族：基于MRI信任加权进化合并的无训练扩展语言模型推理能力（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

Darwin家族框架通过无梯度权重空间重组，实现大语言模型的免训练进化式合并，无需额外训练即可提升推理性能。其旗舰模型Darwin-27B-Opus在GPQA Diamond上达到86.9%，在1252个评估模型中排名第6，超越了其完全训练的基础模型。该框架引入14维自适应合并基因组、MRI-Tru…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-darwin-family-mri-trust-weighted-evolutionary-merging-for-training-free-scaling-]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-darwin-family-mri-trust-weighted-evolutionary-merging-for-training-free-scaling-|达尔文家族：基于MRI信任加权进化合并的]] · 📄

🔥 WildClawBench：真实世界长时任务智能体评估基准（📅 6天前 · Hugging Face Daily Papers · ★★★★☆）

WildClawBench是一个原生运行时基准测试，包含60个由人类编写的双语多模态任务，涵盖六个主题类别。每个任务平均耗时约8分钟，需要超过20次工具调用，并在可复现的Docker容器中运行，使用真实工具而非模拟服务。评估采用混合方式，结合确定性规则检查、环境状态审计和LLM/VLM语义验证。在1…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-wildclawbench-a-benchmark-for-real-world-long-horizon-agent-evaluation]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-wildclawbench-a-benchmark-for-real-world-long-horizon-agent-evaluation|WildClawBench：面向真实世界]] · 📄

🔥 超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自我进化综述（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

本文综述了基于大语言模型的多智能体系统在协作、故障传播与自我进化方面的挑战与进展。提出了LIFE框架，涵盖能力基础、智能体协作、故障归因与自主进化四个因果关联阶段，并系统分析了各阶段间的依赖关系。文章揭示了错误在智能体间传播导致诊断困难、难以转化为结构性自我改进的问题，并提出了跨阶段研究议程，旨在构…

📎 [[llm-wiki-bootstrap/wiki/concepts/hf-beyond-individual-intelligence-surveying-collaboration-failure-attribution-and-s]] · 打开

🔥 灯塔注意力：长上下文预训练（📅 05-07 · Hugging Face Daily Papers · ★★★★☆）

本文提出灯塔注意力（Lighthouse Attention），一种仅用于训练的分层选择注意力算法，通过对称压缩和梯度无关的层次选择，将因果Transformer在长序列上的计算复杂度从二次降低到次二次，同时保持模型性能。采用两阶段训练：大部分时间使用灯塔注意力预训练，最后短时间恢复为全注意力模型。…

📎 [[llm-wiki-bootstrap/wiki/concepts/hf-long-context-pre-training-with-lighthouse-attention]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[projects/info-pipeline/data/raw/hf-daily-papers/hf-long-context-pre-training-with-lighthouse-attention|灯塔注意力：长上下文预训练]] · 📄

🔥 STALE：LLM智能体能否知道其记忆何时不再有效？（📅 05-07 · Hugging Face Daily Papers · ★★★★☆）

大型语言模型（LLM）智能体在维护长期个性化记忆时，面临一个关键但未被充分探索的失败模式——隐式冲突：新证据使旧记忆失效，但未明确否定，需要上下文推理和常识判断。本文提出STALE基准（400个专家验证的冲突场景，1200个评估查询），并设计三维探测框架（状态解析、前提抵抗、隐式策略适应）。系统评估…

📎 [[llm-wiki-bootstrap/wiki/concepts/hf-stale-can-llm-agents-know-when-their-memories-are-no-longer-valid]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[projects/info-pipeline/data/raw/hf-daily-papers/hf-stale-can-llm-agents-know-when-their-memories-are-no-longer-valid|STALE：LLM智能体能否知道其记忆何]] · 📄

🔥 SANA-WM：基于混合线性扩散变压器的高效分钟级世界建模（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

SANA-WM是一个高效的26亿参数开源世界模型，原生支持一分钟视频生成，可合成高保真720p、分钟级视频并实现精确相机控制。其视觉质量媲美LingBot-World等大规模工业基线，但效率显著提升。核心设计包括：混合线性注意力（帧级Gated DeltaNet与softmax注意力结合）、双分支相…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-sana-wm-efficient-minute-scale-world-modeling-with-hybrid-linear-diffusion-trans]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-sana-wm-efficient-minute-scale-world-modeling-with-hybrid-linear-diffusion-trans|SANA-WM：基于混合线性扩散变压器的]] · 📄

🔥 VGGT-Edit：基于残差场预测的前馈式原生3D场景编辑（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

VGGT-Edit是一种前馈式框架，用于文本驱动的原生3D场景编辑。它通过深度同步文本注入对齐语义与空间姿态，并利用残差变换头直接预测3D几何位移来变形场景，同时保持背景稳定。该方法采用多目标损失函数确保几何精度和跨视图一致性，并构建了DeltaScene数据集。实验表明，VGGT-Edit在物体细…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-vggt-edit-feed-forward-native-3d-scene-editing-with-residual-field-prediction]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-vggt-edit-feed-forward-native-3d-scene-editing-with-residual-field-prediction|VGGT-Edit：基于残差场预测的前馈]] · 📄

🔥 扭曲即历史：从单个训练视频实现可泛化的相机控制视频生成（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

Warp-as-History 是一种新颖的相机可控视频生成方法，通过将相机引起的扭曲转换为伪历史表示，实现了零样本能力，无需训练或测试时优化。该方法利用目标帧位置对齐和可见令牌选择，从过去观测中构建相机扭曲的伪历史，并通过模型的视觉历史路径处理。实验表明，该方法在无需训练、架构修改或测试时优化的条…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-warp-as-history-generalizable-camera-controlled-video-generation-from-one-traini]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-warp-as-history-generalizable-camera-controlled-video-generation-from-one-traini|扭曲即历史：基于单个训练视频的通用相机可]] · 📄

🔥 MemEye：面向多模态智能体记忆的视觉中心评估框架（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

MemEye 框架从两个维度评估多模态智能体记忆：决定性视觉证据的粒度（从场景级到像素级）以及检索证据的使用方式（从单一证据到演化综合）。基于8个生活场景任务构建基准，通过消融驱动的验证门评估可回答性、捷径抵抗、视觉必要性和推理结构。对4种VLM骨干网络上的13种记忆方法进行评估，发现当前架构在保留…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-memeye-a-visual-centric-evaluation-framework-for-multimodal-agent-memory]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-memeye-a-visual-centric-evaluation-framework-for-multimodal-agent-memory|MemEye：面向多模态智能体记忆的视觉]] · 📄

🔥 因果强制++：用于实时交互式视频生成的可扩展少步自回归扩散蒸馏（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

本文提出因果强制++（Causal Forcing++），一种用于实时交互视频生成的可扩展少步自回归扩散蒸馏方法。该方法通过因果一致性蒸馏（causal CD）实现帧级自回归，仅需1-2步采样，解决了现有方法响应粒度粗、延迟高的问题。在帧级2步设置下，该方法在VBench Total、VBench…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-causal-forcing-scalable-few-step-autoregressive-diffusion-distillation-for-real-]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-causal-forcing-scalable-few-step-autoregressive-diffusion-distillation-for-real-|因果强制++：用于实时交互式视频生成的可]] · 📄

🔥 自蒸馏智能体强化学习（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

SDAR 通过将在线策略自蒸馏（OPSD）作为门控辅助目标，同时保持强化学习（RL）作为主要优化框架，增强了多轮智能体训练的强化学习。它使用 sigmoid 门控机制，选择性地强化教师认可的正向标记级指导，同时弱化负面的教师拒绝信号。在 Qwen2.5 和 Qwen3 系列模型上，SDAR 在 AL…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-self-distilled-agentic-reinforcement-learning]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-self-distilled-agentic-reinforcement-learning|自蒸馏智能体强化学习]] · 📄

🔥 PREPING：无需任务构建智能体记忆（📅 6天前 · Hugging Face Daily Papers · ★★★★☆）

Preping是一个预任务记忆构建框架，通过提议者引导的合成实践，在降低部署成本的同时提升智能体在新环境中的性能。该框架核心是提议者记忆，一种结构化控制状态，用于塑造未来的实践。实验表明，Preping在AppWorld、BFCL v3和MCP-Universe上显著优于无记忆基线，性能与基于剧本的…

📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-preping-building-agent-memory-without-tasks]] · 打开

📰 同主题 +1 — Hugging Face Daily Papers

[[llm-wiki-bootstrap/wiki/concepts/hf-preping-building-agent-memory-without-tasks|PREPING：无需任务构建智能体记忆]] · 📄

🔥 MemLens：大型视觉语言模型多模态长期记忆基准测试（📅 3天前 · Hugging Face Daily Papers · ★★★★☆）

MemLens是一个针对大型视觉语言模型（LVLMs）在多模态多轮对话中记忆能力的综合基准测试。它包含789个问题，覆盖五种记忆能力（信息提取、多轮推理、时间推理、知识更新和拒绝回答），在四种标准上下文长度（32K-256K tokens）下采用跨模态token计数方案进行评估。研究发现，长上下文L…

📎 [[llm-wiki-bootstrap/wiki/concepts/hf-memlens-benchmarking-multimodal-long-term-memory-in-large-vision-language-models]] · 打开

🔥 带安全护栏的智能交易（📅 今天 · Hacker News · ★★★☆☆）

本文介绍了一种结合安全护栏的智能交易系统，旨在通过自动化交易策略提高效率，同时确保风险控制。系统利用AI代理执行交易决策，并内置安全机制防止异常行为，如过度交易或市场操纵。关键点包括实时监控、风险阈值设置和回滚功能。

📎 [[llm-wiki-bootstrap/wiki/concepts/hacker-news-agentic-trading-with-safe-guardrails]] · 打开

⚡ 行业·基础设施

🔥 对于Eclipse来说，25亿美元的Cerebras投资只是实现其物理世界论点的开始（📅 今天 · TechCrunch · ★★★☆☆）

十年前，Lior Susan投资实体世界是孤独的；如今，他的公司Eclipse因2.5亿美元投资Cerebras而处于科技界中心。这笔交易标志着Eclipse从软件转向物理世界投资策略的成功，并预示其将继续推动实体世界创新。

📎 [[llm-wiki-bootstrap/wiki/concepts/techcrunch-for-eclipse-the-25b-cerebras-win-is-just-the-start-of-realizing-its-physical-wor]] · 打开

🛠 工具·资源 📎

🔥 兴登堡号的吸烟室（📅 3天前 · Hacker News · ★★★☆☆）

本文介绍了兴登堡号飞艇上的吸烟室设计，包括其独特的防火安全措施、结构布局以及乘客使用体验。吸烟室是飞艇上唯一允许吸烟的区域，采用特殊材料与通风系统确保安全。

📎 [[llm-wiki-bootstrap/wiki/concepts/hacker-news-hindenburgs-smoking-room]] · 打开

🔥 CUDA书籍（📅 今天 · Hacker News · ★☆☆☆☆）

本文介绍了关于 CUDA 编程的书籍资源，包括评论和推荐。

📎 [[llm-wiki-bootstrap/wiki/concepts/hacker-news-cuda-books]] · 打开

📌 其他

🔥 RouteProfile：阐明用于路由的LLM配置文件设计空间（📅 04-30 · Hugging Face Daily Papers · ★★★★☆）

随着大语言模型（LLM）生态系统的扩展，单个模型在查询、基准测试和领域上表现出不同的能力，这推动了LLM路由的发展。虽然先前的工作主要集中在路由器机制设计上，但捕获模型能力的LLM配置文件仍未得到充分探索。本文通过将LLM配置文件视为一个结构化的信息集成问题，开发了一个名为RouteProfile的…

📎 [[llm-wiki-bootstrap/wiki/concepts/hf-routeprofile-elucidating-the-design-space-of-llm-profiles-for-routing]] · 打开

*简报结束 — 2026-05-17 15:26*