家庭 AI Lab Weekly source-grounded local AI infrastructure brief
Generated 2026-05-31 18:58 from 信源动态一页纸_2026-W22.md

2026-W22 · 2026-05-25 -> 2026-05-31

Runtime / KV / Sandbox

本周主线不是“买什么 GPU”,而是 runtime 服务化、KV/cache/批处理、agent 安全边界。家庭 AI Lab 的竞争点正在从“模型能不能跑”转向“能不能稳定、多用户、可观测、可隔离地跑”。[MED]

本周判断

先读这四条,再决定是否需要看细节。

01

本周是 runtime week,不是 hardware week。 vLLM/SGLang/TRT-LLM/llama.cpp 的共同方向是让新模型在复杂 serving 条件下稳定,而不是单次 benchmark 漂亮。[MED]

02

DeepSeek V4、Qwen3.6、Gemma4 是当前栈适配的焦点。 Qwen 仍强,但不再是无争议默认;Gemma4/Nemotron 的开放模型品牌正在进入开发者心智。[MED]

03

continuous batching、KV cache、prompt cache、MTP、disaggregation 是本地 Lab 的新杠杆。 如果只买显卡、不建观测与压测,很容易把钱花在错误瓶颈上。[MED]

04

安全边界从“企业问题”变成“家庭 agent 问题”。 一旦本地 agent 能读文件、跑代码、访问 API,sandbox、egress、secret isolation 就是基础设施,不是附加项。[HIGH]

公开来源摘录

推文、短帖和关键公开发言保留中文摘译与原始链接。

LM Studio / Changelog / 2026-05-29

摘译:0.4.15 把桌面工具进一步推向本地 serving:CUDA tensor parallel、physical batch size、Claude Code / Codex API 兼容修复。

https://lmstudio.ai/changelog/lmstudio-v0.4.15

信源信号

7 条源头更新,按本地软硬件含义重排。

SERVING

vLLM

v0.22.0 强化 DeepSeek V4:NVFP4 fused MoE、CUDA graph、MTP speculative decoding、多层 KV offload、Rust frontend;还把 Qwen3 dense 推向 Model Runner V2 默认路径。[HIGH]

服务端主战场变成 DeepSeek/Qwen/Gemma + KV/批处理/图捕获。评估本地机器别只看 tok/s,要测 TTFT、并发、KV 命中和长上下文恢复。

SERVING

SGLang

v0.5.12.post1 是稳定性补丁,12 个修复主要围绕 DeepSeek V4:B200/B300 乱码、MTP/PD disaggregation 崩溃、HiSparse 精度、HiCache stale index、cold-bucket stall。[HIGH]

前沿 serving 栈仍然脆,但修复速度很快。DGX Spark / 多 GPU 路线要把“可复现崩溃清单”当成采购前置条件。

SERVING

TensorRT-LLM / NVIDIA

v1.3.0rc16 加 Gemma4 多模态、Qwen3.5 MTP、Qwen3.6-27B-FP8、KV cache manager v2、disaggregated serving、OpenTelemetry。[HIGH]

NVIDIA 正把 Qwen/Gemma/DeepSeek 纳入官方生产栈。优点是性能与可观测性变强;bear case 是路线会更 CUDA 中心化。

LOCAL

llama.cpp

本周连续小版本:Qwen3.5/3.6 tensor parallel 修复、OpenCL bf16 转 f16、Metal large-kernel 修复、llama-bench -fa auto、默认 iGPU 选择调整。[HIGH]

grassroots baseline 仍在补跨平台边角。它不是最快路线,但仍是判断“模型在非数据中心环境能否活下来”的最低共同层。

DESKTOP

LM Studio / Jan / KoboldCPP

LM Studio 0.4.15 加 CUDA tensor parallel、Physical Batch Size、Claude Code / Codex API 兼容修复;Jan 0.8.1 修 TLS、ctx_len、macOS GPU probe;KoboldCPP 1.114.1 加实验性 continuous batching 和 RPC GPU sharing。[HIGH]

桌面工具正在从 chat GUI 变成小型 serving surface。家庭 Lab 可以更快搭 API,但也要按服务端标准处理权限、端口、日志和外网暴露。

AGENT

ExLlamaV3 / Unsloth

ExLlamaV3 0.0.38 支持 LFM 2.5 MoE,修 GDN batch>1、DFlash TP;Unsloth 0.1.42-beta 增 API calling、web search、code execution、prompt caching、非英语支持,并强化 sandbox / CSP / path containment。[HIGH]

本地生态开始把训练、推理、工具调用和云 provider 串起来。中文/非英语质量与工具链安全会成为家庭 Lab 的实用分水岭。

AGENT

Nathan Lambert / Simon Willison

Lambert 判断 open models 还没有 Claude Code / Codex 级“agent moment”,Gemma4/Nemotron 等美国开放模型在追 Qwen;Willison 本周重点写 agent PMF、Opus 4.8 的诚实/低幻觉,以及 Anthropic 的 gVisor、Seatbelt、Bubblewrap、VM、egress 控制。[HIGH]

闭源 frontier agent 仍是真实工作流基准;本地模型当前更像低成本、隐私、可控、批处理/自动化补位。家庭 Lab 的 durable edge 是本地数据与安全边界,不是幻想单机立刻替代 Claude/Codex。

下周优先看

  • vLLM / SGLang 的 DeepSeek V4 与 Qwen3.6 修复,能否在家庭级多 GPU / DGX Spark 类机器复现。
  • LM Studio / Jan / KoboldCPP 这类桌面 serving surface 是否继续补 API 兼容、并发、权限和日志。
  • Gemma4 vs Qwen3.6:别只看榜单,重点测中文、tool calling、长上下文、量化后退化。
  • 本地 agent sandbox:优先验证文件隔离、网络出口、API key 不进 sandbox。

证伪条件

如果下周出现可复现的 open model + harness,在真实 coding/agent 工作流里以成本或成功率明显压过 Claude Code / Codex,本周“闭源 agent 仍是基准”的判断下调。反过来,如果 DeepSeek/Qwen/Gemma 的 serving 修复在本地机器上持续不可复现,本周“runtime 成熟中”的判断也下调。