vLLM / GitHub Release / 2026-05-29
摘译:v0.22.0 是一次大版本 serving 更新,重点放在 DeepSeek V4、Qwen3 dense runner、KV offload、Rust frontend 和批量推理稳定性。
https://github.com/vllm-project/vllm/releases/tag/v0.22.02026-W22 · 2026-05-25 -> 2026-05-31
本周主线不是“买什么 GPU”,而是 runtime 服务化、KV/cache/批处理、agent 安全边界。家庭 AI Lab 的竞争点正在从“模型能不能跑”转向“能不能稳定、多用户、可观测、可隔离地跑”。[MED]
先读这四条,再决定是否需要看细节。
本周是 runtime week,不是 hardware week。 vLLM/SGLang/TRT-LLM/llama.cpp 的共同方向是让新模型在复杂 serving 条件下稳定,而不是单次 benchmark 漂亮。[MED]
DeepSeek V4、Qwen3.6、Gemma4 是当前栈适配的焦点。 Qwen 仍强,但不再是无争议默认;Gemma4/Nemotron 的开放模型品牌正在进入开发者心智。[MED]
continuous batching、KV cache、prompt cache、MTP、disaggregation 是本地 Lab 的新杠杆。 如果只买显卡、不建观测与压测,很容易把钱花在错误瓶颈上。[MED]
安全边界从“企业问题”变成“家庭 agent 问题”。 一旦本地 agent 能读文件、跑代码、访问 API,sandbox、egress、secret isolation 就是基础设施,不是附加项。[HIGH]
推文、短帖和关键公开发言保留中文摘译与原始链接。
摘译:v0.22.0 是一次大版本 serving 更新,重点放在 DeepSeek V4、Qwen3 dense runner、KV offload、Rust frontend 和批量推理稳定性。
https://github.com/vllm-project/vllm/releases/tag/v0.22.0摘译:v0.5.12.post1 是 DeepSeek V4 稳定性补丁,集中修 B200/B300 decode、MTP/PD disaggregation、HiSparse/HiCache 等前沿 serving 崩溃面。
https://github.com/sgl-project/sglang/releases/tag/v0.5.12.post1摘译:0.4.15 把桌面工具进一步推向本地 serving:CUDA tensor parallel、physical batch size、Claude Code / Codex API 兼容修复。
https://lmstudio.ai/changelog/lmstudio-v0.4.15摘译:开放模型还没有出现 Claude Code / Codex 级的真实 agent moment;Gemma、Nemotron 等美国开放模型在追 Qwen,但工作流鲁棒性仍是硬差距。
https://www.interconnects.ai/p/some-ideas-for-what-comes-next-may摘译:Anthropic 的 Claude containment 方案把 gVisor、macOS Seatbelt、Linux Bubblewrap、VM 和网络出口控制组合起来,说明 agent 安全边界已经是产品基础设施。
https://simonwillison.net/2026/May/30/how-we-contain-claude/7 条源头更新,按本地软硬件含义重排。
v0.22.0 强化 DeepSeek V4:NVFP4 fused MoE、CUDA graph、MTP speculative decoding、多层 KV offload、Rust frontend;还把 Qwen3 dense 推向 Model Runner V2 默认路径。[HIGH]
服务端主战场变成 DeepSeek/Qwen/Gemma + KV/批处理/图捕获。评估本地机器别只看 tok/s,要测 TTFT、并发、KV 命中和长上下文恢复。
v0.5.12.post1 是稳定性补丁,12 个修复主要围绕 DeepSeek V4:B200/B300 乱码、MTP/PD disaggregation 崩溃、HiSparse 精度、HiCache stale index、cold-bucket stall。[HIGH]
前沿 serving 栈仍然脆,但修复速度很快。DGX Spark / 多 GPU 路线要把“可复现崩溃清单”当成采购前置条件。
v1.3.0rc16 加 Gemma4 多模态、Qwen3.5 MTP、Qwen3.6-27B-FP8、KV cache manager v2、disaggregated serving、OpenTelemetry。[HIGH]
NVIDIA 正把 Qwen/Gemma/DeepSeek 纳入官方生产栈。优点是性能与可观测性变强;bear case 是路线会更 CUDA 中心化。
本周连续小版本:Qwen3.5/3.6 tensor parallel 修复、OpenCL bf16 转 f16、Metal large-kernel 修复、llama-bench -fa auto、默认 iGPU 选择调整。[HIGH]
grassroots baseline 仍在补跨平台边角。它不是最快路线,但仍是判断“模型在非数据中心环境能否活下来”的最低共同层。
LM Studio 0.4.15 加 CUDA tensor parallel、Physical Batch Size、Claude Code / Codex API 兼容修复;Jan 0.8.1 修 TLS、ctx_len、macOS GPU probe;KoboldCPP 1.114.1 加实验性 continuous batching 和 RPC GPU sharing。[HIGH]
桌面工具正在从 chat GUI 变成小型 serving surface。家庭 Lab 可以更快搭 API,但也要按服务端标准处理权限、端口、日志和外网暴露。
ExLlamaV3 0.0.38 支持 LFM 2.5 MoE,修 GDN batch>1、DFlash TP;Unsloth 0.1.42-beta 增 API calling、web search、code execution、prompt caching、非英语支持,并强化 sandbox / CSP / path containment。[HIGH]
本地生态开始把训练、推理、工具调用和云 provider 串起来。中文/非英语质量与工具链安全会成为家庭 Lab 的实用分水岭。
Lambert 判断 open models 还没有 Claude Code / Codex 级“agent moment”,Gemma4/Nemotron 等美国开放模型在追 Qwen;Willison 本周重点写 agent PMF、Opus 4.8 的诚实/低幻觉,以及 Anthropic 的 gVisor、Seatbelt、Bubblewrap、VM、egress 控制。[HIGH]
闭源 frontier agent 仍是真实工作流基准;本地模型当前更像低成本、隐私、可控、批处理/自动化补位。家庭 Lab 的 durable edge 是本地数据与安全边界,不是幻想单机立刻替代 Claude/Codex。
如果下周出现可复现的 open model + harness,在真实 coding/agent 工作流里以成本或成功率明显压过 Claude Code / Codex,本周“闭源 agent 仍是基准”的判断下调。反过来,如果 DeepSeek/Qwen/Gemma 的 serving 修复在本地机器上持续不可复现,本周“runtime 成熟中”的判断也下调。
只列本周用到的公开源。