OSDI 2026 论文综述

OSDI '26 — 第 20 届 USENIX 操作系统设计与实现研讨会

时间: 2026 年 7 月 13–15 日
Program Co-Chairs: Eddie Kohler (Harvard), Amar Phanishayee (NVIDIA)

OSDI 2026 共录用约 80+ 篇论文，按 session 分为三轨并行。以下按研究方向分类综述。

一、LLM 推理与 KV Cache（约 10 篇）

论文	核心思路
Contextra	面向长上下文 LLM 服务的层次化上下文缓存 (Stanford/SJTU/NVIDIA)
ECHO	无损预取的 KV Cache 卸载，服务原生稀疏注意力 LLM (上交/华为)
No Buffer, No Bottleneck	零拷贝 KV Cache 卸载，服务长上下文 LLM (UVA)
Simple is Better	乘法即够——LLM 请求调度 (上交/阿里巴巴)
Chimera (OSDI)	通过 GPU 内存气球实现低成本多 LLM 服务 (UCLA/UC Berkeley/ByteDance)
Djinn	语义感知的透明 GPU 解耦 (UC Berkeley/NVIDIA/UT Austin)
Efficient LLM Serving on Commodity GPU Clusters	数据精简的跨实例编排 (中山大学)
Revisiting Pipeline Parallelism for LLM Serving	重新审视流水线并行 (Korea Univ)
LLMFabric	统一去中心化 HPC 集群的异构 LLM 服务 (ETH/Cambridge/MIT/HKUST)
Kairox	基于在线神经元均衡的自适应 GPU-CPU 混合推理 (中山大学)

趋势: KV Cache 管理（层次缓存、零拷贝卸载、预取）成为独立方向；GPU 解耦 (disaggregated) 推理和跨集群异构服务是新主题。

二、RL 训练与 Post-Training（全新方向 — 5 篇专属 session）

论文	核心思路
Weave	面向解耦式 RL Post-Training 的高效协同调度 (港科大/阿里巴巴)
RLux	宏观到微观流变换实现灵活高效大规模 RL (清华/北大/无穹)
DynaRL	大规模 RL 训练的灵活动态调度 (北大/无穹)
MARS	解耦式多任务 Agentic RL 训练 (港科大/阿里巴巴)
GroupMind	群组感知上下文学习加速同步 LLM RL (清华/Moonshot AI)

趋势: RLHF/GRPO 等 post-training 阶段的系统支持首次在顶会出现独立 session，反映了 AI 对齐训练已成为系统级挑战。

三、大规模模型训练（约 8 篇）

论文	核心思路
Tessera	面向万亿参数异构 MoE 的全局流水线并行 (华科/阿里云)
HSPMD	层次化异构 SPMD 分布式训练 (北大/上交/Purdue)
Syncopate	基于块中心调度的自动细粒度计算 - 通信重叠 (UCSD/OpenAI/Meta)
Teaching The Old Dog New Tricks	大规模 LLM 预训练的高效数据流水线 (中科大/字节跳动)
Cocoon	基于相关噪声的差分隐私训练架构 (Penn State/SK Hynix/KAIST)
Arceus	大模型训练中同时降低动态和静态能耗 (Michigan)
Continuum	中断容忍的 ML 训练运行时 (阿里云/Harvard/UT Austin)
RobustRL	RL Post-Training 的基于角色容错系统 (浙大)

趋势: 训练可靠性（SDC 检测、中断恢复）和能效优化成为新关注点，不再仅追求吞吐。

四、训练可靠性与 GPU 静默错误（专属 session — 4 篇）

论文	核心思路
SDCs in the Wild	生产 LLM 训练中 SDC 缺陷 GPU 的画像与诊断 (上交/字节跳动)
Safeguarding LLM Training	3500 万 GPU 小时的在线 SDC 检测经验 (清华/字节跳动)
OpGuard	比特级对齐的生产 LLM 训练精确调试 (Michigan/字节跳动)
RobustRL	RL Post-Training 的角色容错系统 (浙大)

趋势: GPU 静默数据损坏 (SDC) 首次获得完整 session 级别关注——这是大规模训练中最隐蔽、最难调试的问题之一。字节跳动贡献了多篇来自生产环境的经验。

五、CXL 与解耦内存系统（约 10 篇，两个 session）

论文	核心思路
RAMRyder	弹性内存池化突破到对端 (UCSD/Samsung)
MAC	CXL DRAM 元数据加速 (首尔国立/UIUC)
Finding NEMO	敏捷且表达力强的内存可观测性 (UW/Meta/Microsoft)
OBASE	基于对象的地址空间工程改进内存分层 (Wisconsin/Google/xAI)
MDK	重新思考数据中心内存回收问题 (Google/UBC)
LiteSwitch	收割亚微秒级 CXL 内存停顿 (Princeton/Columbia)
Duhu	面向分布式计算框架的共享解耦内存 (NYU/Databricks/Microsoft/SK Hynix)
Blowfish	面向解耦内存的弹性虚拟机内存 (北大/上交/华为云)
Espresso	通过 SSD 间计算资源共享构建低成本 CXL JBOF (北大)
FORGE	缓解内存解耦缓存系统中的同步放大 (华科)
MEGALON	部分一致 CXL 内存的高效数据共享 (UIUC/NVIDIA)

趋势: CXL 生态已从概念验证进入实际系统设计阶段。内存池化、弹性管理、一致性协议、以及 CXL 上的缓存/索引结构是核心议题。

六、MoE 专家混合系统（专属 session）

论文	核心思路
Achieving Cloud-Grade SLOs for Local MoE	CPU-GPU 混合设计实现本地 MoE 推理的云级 SLO (清华/星云)
UEP	可移植的专家并行通信 (UC Berkeley/UC Davis/AMD)
BatchGen	面向可扩展高效批推理的架构 (Edinburgh/Tencent)
Extensible Software Transport Layer for ML	面向 ML 工作负载的可扩展软件传输层 (UC Davis/UC Berkeley/Tsinghua/IBM/Amazon)

趋势: MoE 模型的通信瓶颈（All-to-All、专家路由）是独特的系统问题，获得了专属 session。

七、Agentic AI 与 LLM 运维（全新方向 — 5 篇）

论文	核心思路
SystemX	云平台中资源高效的 Agentic 工作流编排 (MIT/Microsoft Azure)
ACE	AI 驱动的仓库级计算机代码效率优化器 (Google/Google DeepMind)
StriaTrace	LLM 推理的高效追踪与诊断 (上交/阿里云)
Diagnosing Performance Issues in Application-Defined Resources	应用自定义资源的性能问题诊断 (BU/UW)
ADAngel	自适应计算映射加速任意精度量化 LLM (上交)

趋势: "Agentic AI" 首次作为独立系统方向出现在顶会，涵盖 Agent 工作流编排、LLM 系统运维可观测性。

八、操作系统内核与调度（约 8 篇）

论文	核心思路
MultiLane	消除用户态网络栈中的集中瓶颈 (北大)
Koma	内核内消息导向调度实现低尾延迟 (EPFL)
kSTEP	Linux CPU 调度器 Bug 的画像与受控测试 (Wisconsin/Purdue)
What Are You (M)Waiting For	超大规模云中空闲的隐藏代价 (上交/阿里云)
Xkernel	重新思考 OS 内核的性能可调性 (清华/UIUC/Microsoft Research)
DeLFS	面向众核的去中心化日志结构文件系统 (中央大学)
Surviving the Impossible Trinity	现代商用移动设备的 CPU 调度问题 (荣耀/南大/东南)
PeeR	面向延迟敏感 eBPF 应用的一等公民调度 (MIT)

趋势: 内核调度器的可测试性 (kSTEP)、可调性 (Xkernel)、以及针对超大规模场景的空闲代价分析是突出方向。eBPF 继续渗透到更多系统层面。

九、机密计算与安全（约 7 篇）

论文	核心思路
JANUS	跨域协作嵌套虚拟化实现安全容器 (蚂蚁/华科/阿里巴巴)
Merlin	面向加密计算的透明高效虚拟内存 (UCLA/UC Berkeley)
Nested SEV	安全且通用的嵌套虚拟化 SEV 支持 (九州工大)
μUSB	ARM TrustZone 中实用安全的 USB 驱动复用 (电子科大/CISPA)
Accelerating Confidential Databases	无密码学映射加速机密数据库 (中科院软件所)
USEC	用户需求驱动的操作系统强制访问控制框架 (清华/统信)
Mohabi	解耦并沙箱化 Firefox JavaScript 引擎 (UT Austin/Stanford/Mozilla)

趋势: 嵌套虚拟化 + TEE (SEV/TrustZone) 的组合是主要技术路线。安全容器从单层到跨域协作 (JANUS) 标志着复杂度升级。

十、虚拟化与热迁移（约 6 篇）

论文	核心思路
M3U	可扩展内核内存管理实现高端 VM 高效 Post-copy 热迁移 (上交/阿里云)
Compaction-Free Defrag	通过无限客户物理地址空间实现无压缩内存碎片整理 (哈工大深圳)
Inside Out	VM 内省的范式转换 (Grenoble/Toulouse/UBC)
vBOIDs	通过粗粒度调度抽象驯服容器混乱 (UT Arlington/AFRL)
vClutch	消费级 GPU 的高效透明时间复用 (Duke)
Virtualizing eBPF with Late-Binding	延迟绑定的 eBPF 虚拟化 (上交)

趋势: VM 热迁移在超大规模部署下的内存管理难题 (M3U) 和无压缩碎片整理是新的研究点。eBPF 虚拟化 (Late-Binding) 将 eBPF 扩展到虚拟化环境。

十一、GPU 编译器与内核优化（5 篇专属 session）

论文	核心思路
Optimal Software Pipelining	Tensor Core GPU 的最优软件流水线与 Warp 特化 (Stanford/NVIDIA)
TileLoom	面向空间数据流加速器的自动数据流规划 (NUS/Arizona State)
TGX	张量程序超核化的编译器与运行时 (CMU/清华/Purdue)
GraCE	编译器支持解锁 CUDA Graph 的 ML 工作负载 (IISc/Microsoft Research)
VTC	通过虚拟张量消除数据移动的 DNN 编译 (UIUC/Georgia Tech/Microsoft)

趋势: GPU 编译器栈正走向产品化——从 Warp 级流水线到 CUDA Graph 自动化，再到跨层数据移动消除。

十二、Serverless 与弹性（5 篇）

论文	核心思路
Stop Pretending to be Busy	共置批工作负载的 Serverless 范式 (清华/上交/蚂蚁)
Arca	基于 Continuation 的计算 (Stanford)
Rethinking Process Snapshots	近温 Serverless 冷启动 (MIT)
Distributed Speculative Execution	弹性云应用的分布式投机执行 (MIT/Microsoft Research)
Continuum	中断容忍的 ML 训练运行时 (阿里云/Harvard)

十三、存储与文件系统（约 6 篇）

论文	核心思路
Oxbow	多组件文件系统的协调架构 (UIUC/KAIST)
Scaling the IO wall with Declarative IO	声明式 I/O 突破 IO 墙 (Google/CMU/Microsoft/UW/UNC)
Umap	重新审视分布式文件系统上的内存映射 I/O (SCITIX/清华/北大)
CoPilotIO	CPU 作为 GPU I/O 的副驾驶 (港科大广州)
WiseCode	突破宽条纹向量码的可扩展性壁垒 (清华)
The LogDrive	云共享日志的可组合持久性 (Confluent/Meta)
Timelock Drive	存储系统的时间隔离防御 (Michigan)

十四、网络与 RDMA（约 5 篇）

论文	核心思路
RoCE CREED	面向 SmartNIC 的服务增强 RDMA 卸载引擎 (ETH)
DPA-Store	有序网络数据路径 KV 存储 (Mainz/Aachen)
FARLock	公平的非对称 RDMA 锁 (Simon Fraser)
When DDIO Meets Page Coloring	Sepia 重审 DDIO 性能 (成均馆)
Extensible Software Transport	ML 负载的可扩展软件传输层 (UC Davis/Berkeley/清华)

十五、共识与 BFT（4 篇）

论文	核心思路
Bodega	通过 Roster Lease 实现任意位置的本地化线性化读 (AWS/Wisconsin)
Equal Opportunity	有序共识的正确性条件 (Cornell/UW/Microsoft)
Jetpack	使共识普遍快速 (Stony Brook)
PoliceCar	通过 Racing 拯救 BFT (UC Berkeley/Cornell/Duke/Sei Labs)

十六、图计算与向量搜索（4 篇）

论文	核心思路
FlowANN	解耦图依赖的十亿级 GPU 向量搜索 (上交)
Efficient GPU-Centric Evolving Graph Processing	GPU 中心的动态图处理 (CityU HK)
Pluto	通过高级镜像实现高性能分布式图分析 (UT Austin)
Helmsman	成本效益高性能近似近邻搜索 (华东师大/小红书/上交)

十七、集群调度与能效（约 6 篇）

论文	核心思路
DVLA	动态 VM 生命期感知调度 (阿里云)
PIMS	最小容量缓冲的全队数据中心维护 (Meta/Cambridge/Ohio State)
Heterogeneity at Hyperscale	大规模生产 AI 集群的异构画像与调度 (港科大/阿里巴巴/复旦)
Hardware Lifecycle-Aware Power Planning	商用超大规模数据中心的硬件生命周期功耗规划 (Meta/UT Austin)
SPADE	信号感知的 DAG 调度与动态供给 (UMass/Berkeley/MIT)
Quota Marketplace	ML 训练资源的动态定价高效分配 (Google)

十八、测试、调试与正确性（约 8 篇）

论文	核心思路
ValScope	面向 DBMS 逻辑 Bug 的值语义变体测试 (厦大)
The Abstention Protocol	Clos 网络的根因分析 (Microsoft)
When Sampling Lies	平坦工作负载的可信性能剖析 Blink (UofT/Huawei/Yscope)
kSTEP	Linux CPU 调度器 Bug 画像与受控测试 (Wisconsin/Purdue)
Aletheia	微服务中数据完整性违规自动检测 (INESC-ID/IST)
jwmalloc	面向移动设备的已验证内存分配器 (华为/上交)
Neuro-Symbolic Proof Generation	系统软件验证的神经符号证明生成 (南大/ETH)
Succinct Proofs for Numerical Computations	数值计算的简洁证明 (NYU)

十九、移动与边缘系统（4 篇）

论文	核心思路
Sereno	遮蔽中消除移动 LLM 推理的内存带宽争用 (上交)
LifeLine	对象 - 页面生命期对齐的 GC (CityU HK)
Unleash All Cores	非对称感知的移动 CPU DNN 推理 (武大/澳门)
Surviving the Impossible Trinity	现代商用移动设备的 CPU 调度 (荣耀/南大)

二十、同步原语与并发（4 篇）

论文	核心思路
Arctic	实用无锁自适应基数树 (UT Austin/ETH)
Efficient Synchronization via Generalized Cache Coherence	广义缓存一致性实现高效可扩展同步 (Yale)
Shaving the Peaks	通过解耦 GC 驯服托管工作负载尾延迟 (上交)
DeLFS	面向众核的去中心化日志结构文件系统 (中央大学)

核心观察与趋势总结

1. RL Post-Training 系统化。 OSDI 2026 首次设立 "RL Training at Scale" 专属 session（5 篇），标志着 RLHF/GRPO 等对齐阶段从算法走向系统工程。

2. GPU SDC 成为一等公民问题。 4 篇论文专攻训练中的静默数据损坏检测与诊断，字节跳动贡献了来自 3500 万 GPU 小时的生产经验。

3. CXL 内存生态爆发。 约 10 篇论文覆盖 CXL 内存池化、弹性 VM 内存、CXL JBOF、以及部分一致性协议，CXL 已从研究走向工程实践。

4. Agentic AI 系统元年。 "Agentic AI and LLM Operations" 首次成为独立 session，涵盖 Agent 工作流编排 (SystemX)、LLM 推理运维可观测 (StriaTrace)、AI 驱动的代码优化 (ACE)。

5. GPU 编译器产品化。 5 篇论文从 Warp 级流水线、CUDA Graph 编译支持到虚拟张量，显示 GPU 编译器栈正在成熟。

6. 内核可测试性觉醒。 kSTEP (Linux 调度器 Bug 测试)、Xkernel (内核性能可调性)、Virtualizing eBPF 等论文表明内核系统性研究正回归。

7. 大规模集群运维。 来自 Meta (PIMS, Hardware Lifecycle)、阿里云 (DVLA, DiTing)、Google (ACE, Quota Marketplace) 的生产论文持续扩大。

内核/虚拟化/安全方向重点推荐

kSTEP — Linux CPU 调度器 Bug 画像与受控测试框架 (Wisconsin/Purdue)
Xkernel — 重新思考 OS 内核性能可调性 (清华/UIUC/Microsoft)
JANUS — 跨域协作嵌套虚拟化安全容器 (蚂蚁/阿里/华科)
Nested SEV — 嵌套虚拟化的安全 SEV 支持 (九州工大)
Virtualizing eBPF with Late-Binding — eBPF 虚拟化 (上交)
M3U — 高端 VM Post-copy 热迁移内核内存管理 (上交/阿里云)
Compaction-Free Defrag — 无限客户物理地址空间免压缩碎片整理 (哈工大)
SDCs in the Wild — 生产训练 GPU 静默损坏画像 (上交/字节)
MultiLane — 消除用户态网络栈集中瓶颈 (北大)
Koma — 内核内消息导向调度低尾延迟 (EPFL)
μUSB — ARM TrustZone USB 驱动复用 (电子科大)
What Are You (M)Waiting For — 超大规模云空闲代价 (上交/阿里云)