每日信息简报 — 2026-05-17

HAHA Daily Brief · 2026-05-17 15:26



34 条精选内容


📋 今日速览


  • 🔥 通过简单统一的缩放实现金牌级奥赛推理(📅 4天前 · Hugging Face Daily Papers)
  • 本文提出一种系统化方法,将后训练推理模型转化为严格的奥赛级求解器。该方法通过反向困惑度课程、两阶段强化学习和测试时缩放,在数学和物理竞赛中达到金牌水平。训练出的SU-01模型(30B-A3B骨干)在IMO 2025/USAMO 2026和I…

    📎 [[llm-wiki-bootstrap/wiki/concepts/hf-achieving-gold-medal-level-olympiad-reasoning-via-simple-and-unified-scaling]] · 打开


  • 🔥 超越个体智能:基于LLM的多智能体系统中的协作、故障归因与自我进化综述(📅 3天前 · Hugging Face Daily Papers)
  • 本文综述了基于LLM的多智能体系统在协作、故障归因与自我进化方面的挑战与进展。提出LIFE框架,将系统生命周期分为四个因果关联阶段:能力基础构建、智能体协作集成、故障归因诊断、自主自我进化。系统梳理了各阶段的分类体系与阶段间依赖关系,并指出…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-beyond-individual-intelligence-surveying-collaboration-failure-attribution-and-s]] · 打开


  • 🔥 通过简单统一的缩放实现金牌级别的奥赛推理能力(📅 4天前 · Hugging Face Daily Papers)
  • 本文提出一种系统化方法,将后训练推理模型转化为严格的奥赛级求解器。该方法通过反向困惑度课程、两阶段强化学习和测试时缩放,在数学和物理竞赛中达到金牌水平。训练出的SU-01模型(30B-A3B骨干)在IMO 2025/USAMO 2026和I…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-achieving-gold-medal-level-olympiad-reasoning-via-simple-and-unified-scaling]] · 打开


  • 🔥 MemLens:大型视觉语言模型多模态长期记忆基准测试(📅 3天前 · Hugging Face Daily Papers)
  • MemLens是一个针对大型视觉语言模型(LVLMs)在多模态多轮对话中记忆能力的综合基准。它包含789个问题,覆盖五种记忆能力(信息提取、多轮推理、时间推理、知识更新和拒绝回答),在四种标准上下文长度(32K-256K tokens)下采…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-memlens-benchmarking-multimodal-long-term-memory-in-large-vision-language-models]] · 打开


  • 🔥 RouteProfile:阐明用于路由的LLM配置文件设计空间(📅 04-30 · Hugging Face Daily Papers)
  • 随着大语言模型(LLM)生态系统的扩展,单个模型在查询、基准测试和领域上表现出不同的能力,这推动了LLM路由的发展。虽然先前的工作主要关注路由器机制设计,但捕获模型能力的LLM配置文件仍未被充分探索。本研究探讨LLM配置文件设计如何影响不同…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-routeprofile-elucidating-the-design-space-of-llm-profiles-for-routing]] · 打开




    🤖 AI·模型


    🔥 达尔文家族:基于MRI信任加权进化合并的无训练扩展语言模型推理能力(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    Darwin家族框架通过无梯度权重空间重组,实现大语言模型的免训练进化式合并,无需额外训练即可提升推理性能。其旗舰模型Darwin-27B-Opus在GPQA Diamond上达到86.9%,在1252个评估模型中排名第6,超越了其完全训练的基础模型。该框架引入14维自适应合并基因组、MRI-Tru…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-darwin-family-mri-trust-weighted-evolutionary-merging-for-training-free-scaling-]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-darwin-family-mri-trust-weighted-evolutionary-merging-for-training-free-scaling-|达尔文家族:基于MRI信任加权进化合并的]] · 📄

    🔥 WildClawBench:真实世界长时任务智能体评估基准(📅 6天前 · Hugging Face Daily Papers · ★★★★☆)

    WildClawBench是一个原生运行时基准测试,包含60个由人类编写的双语多模态任务,涵盖六个主题类别。每个任务平均耗时约8分钟,需要超过20次工具调用,并在可复现的Docker容器中运行,使用真实工具而非模拟服务。评估采用混合方式,结合确定性规则检查、环境状态审计和LLM/VLM语义验证。在1…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-wildclawbench-a-benchmark-for-real-world-long-horizon-agent-evaluation]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-wildclawbench-a-benchmark-for-real-world-long-horizon-agent-evaluation|WildClawBench:面向真实世界]] · 📄

    🔥 超越个体智能:基于LLM的多智能体系统中的协作、故障归因与自我进化综述(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    本文综述了基于大语言模型的多智能体系统在协作、故障传播与自我进化方面的挑战与进展。提出了LIFE框架,涵盖能力基础、智能体协作、故障归因与自主进化四个因果关联阶段,并系统分析了各阶段间的依赖关系。文章揭示了错误在智能体间传播导致诊断困难、难以转化为结构性自我改进的问题,并提出了跨阶段研究议程,旨在构…

    📎 [[llm-wiki-bootstrap/wiki/concepts/hf-beyond-individual-intelligence-surveying-collaboration-failure-attribution-and-s]] · 打开


    🔥 灯塔注意力:长上下文预训练(📅 05-07 · Hugging Face Daily Papers · ★★★★☆)

    本文提出灯塔注意力(Lighthouse Attention),一种仅用于训练的分层选择注意力算法,通过对称压缩和梯度无关的层次选择,将因果Transformer在长序列上的计算复杂度从二次降低到次二次,同时保持模型性能。采用两阶段训练:大部分时间使用灯塔注意力预训练,最后短时间恢复为全注意力模型。…

    📎 [[llm-wiki-bootstrap/wiki/concepts/hf-long-context-pre-training-with-lighthouse-attention]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[projects/info-pipeline/data/raw/hf-daily-papers/hf-long-context-pre-training-with-lighthouse-attention|灯塔注意力:长上下文预训练]] · 📄

    🔥 STALE:LLM智能体能否知道其记忆何时不再有效?(📅 05-07 · Hugging Face Daily Papers · ★★★★☆)

    大型语言模型(LLM)智能体在维护长期个性化记忆时,面临一个关键但未被充分探索的失败模式——隐式冲突:新证据使旧记忆失效,但未明确否定,需要上下文推理和常识判断。本文提出STALE基准(400个专家验证的冲突场景,1200个评估查询),并设计三维探测框架(状态解析、前提抵抗、隐式策略适应)。系统评估…

    📎 [[llm-wiki-bootstrap/wiki/concepts/hf-stale-can-llm-agents-know-when-their-memories-are-no-longer-valid]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[projects/info-pipeline/data/raw/hf-daily-papers/hf-stale-can-llm-agents-know-when-their-memories-are-no-longer-valid|STALE:LLM智能体能否知道其记忆何]] · 📄

    🔥 SANA-WM:基于混合线性扩散变压器的高效分钟级世界建模(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    SANA-WM是一个高效的26亿参数开源世界模型,原生支持一分钟视频生成,可合成高保真720p、分钟级视频并实现精确相机控制。其视觉质量媲美LingBot-World等大规模工业基线,但效率显著提升。核心设计包括:混合线性注意力(帧级Gated DeltaNet与softmax注意力结合)、双分支相…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-sana-wm-efficient-minute-scale-world-modeling-with-hybrid-linear-diffusion-trans]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-sana-wm-efficient-minute-scale-world-modeling-with-hybrid-linear-diffusion-trans|SANA-WM:基于混合线性扩散变压器的]] · 📄

    🔥 VGGT-Edit:基于残差场预测的前馈式原生3D场景编辑(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    VGGT-Edit是一种前馈式框架,用于文本驱动的原生3D场景编辑。它通过深度同步文本注入对齐语义与空间姿态,并利用残差变换头直接预测3D几何位移来变形场景,同时保持背景稳定。该方法采用多目标损失函数确保几何精度和跨视图一致性,并构建了DeltaScene数据集。实验表明,VGGT-Edit在物体细…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-vggt-edit-feed-forward-native-3d-scene-editing-with-residual-field-prediction]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-vggt-edit-feed-forward-native-3d-scene-editing-with-residual-field-prediction|VGGT-Edit:基于残差场预测的前馈]] · 📄

    🔥 扭曲即历史:从单个训练视频实现可泛化的相机控制视频生成(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    Warp-as-History 是一种新颖的相机可控视频生成方法,通过将相机引起的扭曲转换为伪历史表示,实现了零样本能力,无需训练或测试时优化。该方法利用目标帧位置对齐和可见令牌选择,从过去观测中构建相机扭曲的伪历史,并通过模型的视觉历史路径处理。实验表明,该方法在无需训练、架构修改或测试时优化的条…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-warp-as-history-generalizable-camera-controlled-video-generation-from-one-traini]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-warp-as-history-generalizable-camera-controlled-video-generation-from-one-traini|扭曲即历史:基于单个训练视频的通用相机可]] · 📄

    🔥 MemEye:面向多模态智能体记忆的视觉中心评估框架(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    MemEye 框架从两个维度评估多模态智能体记忆:决定性视觉证据的粒度(从场景级到像素级)以及检索证据的使用方式(从单一证据到演化综合)。基于8个生活场景任务构建基准,通过消融驱动的验证门评估可回答性、捷径抵抗、视觉必要性和推理结构。对4种VLM骨干网络上的13种记忆方法进行评估,发现当前架构在保留…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-memeye-a-visual-centric-evaluation-framework-for-multimodal-agent-memory]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-memeye-a-visual-centric-evaluation-framework-for-multimodal-agent-memory|MemEye:面向多模态智能体记忆的视觉]] · 📄

    🔥 因果强制++:用于实时交互式视频生成的可扩展少步自回归扩散蒸馏(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    本文提出因果强制++(Causal Forcing++),一种用于实时交互视频生成的可扩展少步自回归扩散蒸馏方法。该方法通过因果一致性蒸馏(causal CD)实现帧级自回归,仅需1-2步采样,解决了现有方法响应粒度粗、延迟高的问题。在帧级2步设置下,该方法在VBench Total、VBench…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-causal-forcing-scalable-few-step-autoregressive-diffusion-distillation-for-real-]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-causal-forcing-scalable-few-step-autoregressive-diffusion-distillation-for-real-|因果强制++:用于实时交互式视频生成的可]] · 📄

    🔥 自蒸馏智能体强化学习(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    SDAR 通过将在线策略自蒸馏(OPSD)作为门控辅助目标,同时保持强化学习(RL)作为主要优化框架,增强了多轮智能体训练的强化学习。它使用 sigmoid 门控机制,选择性地强化教师认可的正向标记级指导,同时弱化负面的教师拒绝信号。在 Qwen2.5 和 Qwen3 系列模型上,SDAR 在 AL…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-self-distilled-agentic-reinforcement-learning]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-self-distilled-agentic-reinforcement-learning|自蒸馏智能体强化学习]] · 📄

    🔥 PREPING:无需任务构建智能体记忆(📅 6天前 · Hugging Face Daily Papers · ★★★★☆)

    Preping是一个预任务记忆构建框架,通过提议者引导的合成实践,在降低部署成本的同时提升智能体在新环境中的性能。该框架核心是提议者记忆,一种结构化控制状态,用于塑造未来的实践。实验表明,Preping在AppWorld、BFCL v3和MCP-Universe上显著优于无记忆基线,性能与基于剧本的…

    📎 [[projects/info-pipeline/data/raw/hf-daily-papers/hf-preping-building-agent-memory-without-tasks]] · 打开


    📰 同主题 +1 — Hugging Face Daily Papers

    [[llm-wiki-bootstrap/wiki/concepts/hf-preping-building-agent-memory-without-tasks|PREPING:无需任务构建智能体记忆]] · 📄

    🔥 MemLens:大型视觉语言模型多模态长期记忆基准测试(📅 3天前 · Hugging Face Daily Papers · ★★★★☆)

    MemLens是一个针对大型视觉语言模型(LVLMs)在多模态多轮对话中记忆能力的综合基准测试。它包含789个问题,覆盖五种记忆能力(信息提取、多轮推理、时间推理、知识更新和拒绝回答),在四种标准上下文长度(32K-256K tokens)下采用跨模态token计数方案进行评估。研究发现,长上下文L…

    📎 [[llm-wiki-bootstrap/wiki/concepts/hf-memlens-benchmarking-multimodal-long-term-memory-in-large-vision-language-models]] · 打开


    🔥 带安全护栏的智能交易(📅 今天 · Hacker News · ★★★☆☆)

    本文介绍了一种结合安全护栏的智能交易系统,旨在通过自动化交易策略提高效率,同时确保风险控制。系统利用AI代理执行交易决策,并内置安全机制防止异常行为,如过度交易或市场操纵。关键点包括实时监控、风险阈值设置和回滚功能。

    📎 [[llm-wiki-bootstrap/wiki/concepts/hacker-news-agentic-trading-with-safe-guardrails]] · 打开




    ⚡ 行业·基础设施


    🔥 对于Eclipse来说,25亿美元的Cerebras投资只是实现其物理世界论点的开始(📅 今天 · TechCrunch · ★★★☆☆)

    十年前,Lior Susan投资实体世界是孤独的;如今,他的公司Eclipse因2.5亿美元投资Cerebras而处于科技界中心。这笔交易标志着Eclipse从软件转向物理世界投资策略的成功,并预示其将继续推动实体世界创新。

    📎 [[llm-wiki-bootstrap/wiki/concepts/techcrunch-for-eclipse-the-25b-cerebras-win-is-just-the-start-of-realizing-its-physical-wor]] · 打开




    🛠 工具·资源 📎


    🔥 兴登堡号的吸烟室(📅 3天前 · Hacker News · ★★★☆☆)

    本文介绍了兴登堡号飞艇上的吸烟室设计,包括其独特的防火安全措施、结构布局以及乘客使用体验。吸烟室是飞艇上唯一允许吸烟的区域,采用特殊材料与通风系统确保安全。

    📎 [[llm-wiki-bootstrap/wiki/concepts/hacker-news-hindenburgs-smoking-room]] · 打开


    🔥 CUDA书籍(📅 今天 · Hacker News · ★☆☆☆☆)

    本文介绍了关于 CUDA 编程的书籍资源,包括评论和推荐。

    📎 [[llm-wiki-bootstrap/wiki/concepts/hacker-news-cuda-books]] · 打开




    📌 其他


    🔥 RouteProfile:阐明用于路由的LLM配置文件设计空间(📅 04-30 · Hugging Face Daily Papers · ★★★★☆)

    随着大语言模型(LLM)生态系统的扩展,单个模型在查询、基准测试和领域上表现出不同的能力,这推动了LLM路由的发展。虽然先前的工作主要集中在路由器机制设计上,但捕获模型能力的LLM配置文件仍未得到充分探索。本文通过将LLM配置文件视为一个结构化的信息集成问题,开发了一个名为RouteProfile的…

    📎 [[llm-wiki-bootstrap/wiki/concepts/hf-routeprofile-elucidating-the-design-space-of-llm-profiles-for-routing]] · 打开




    *简报结束 — 2026-05-17 15:26*