AI更新

Mercury 2 发布：扩散式推理模型，速度比 Claude/GPT 快 10 倍

Inception Labs 推出基于扩散架构的推理大模型 Mercury 2，每秒生成超 1000 tokens，端到端延迟仅为主流模型的 1/10，已上线 OpenRouter。

2026年3月7日

2 分钟阅读

来源：The New Stack查看原文

AI更新

什么是扩散式 LLM？

Mercury 2 采用了一种全新的文本生成方式——扩散模型（Diffusion Model）。传统大模型逐个 token 生成文字，而扩散模型可以并行"去噪"生成多个 token，大幅提升速度。

Inception Labs 创始人 Stefano Ermon（斯坦福教授）表示，Mercury 2 特别适合对延迟敏感的场景：