OSDI '26 — 第 20 届 USENIX 操作系统设计与实现研讨会
时间: 2026 年 7 月 13–15 日
Program Co-Chairs: Eddie Kohler (Harvard), Amar Phanishayee (NVIDIA)
OSDI 2026 共录用约 80+ 篇论文,按 session 分为三轨并行。以下按研究方向分类综述。
一、LLM 推理与 KV Cache(约 10 篇)
| 论文 | 核心思路 |
|---|---|
| Contextra | 面向长上下文 LLM 服务的层次化上下文缓存 (Stanford/SJTU/NVIDIA) |
| ECHO | 无损预取的 KV Cache 卸载,服务原生稀疏注意力 LLM (上交/华为) |
| No Buffer, No Bottleneck | 零拷贝 KV Cache 卸载,服务长上下文 LLM (UVA) |
| Simple is Better | 乘法即够——LLM 请求调度 (上交/阿里巴巴) |
| Chimera (OSDI) | 通过 GPU 内存气球实现低成本多 LLM 服务 (UCLA/UC Berkeley/ByteDance) |
| Djinn | 语义感知的透明 GPU 解耦 (UC Berkeley/NVIDIA/UT Austin) |
| Efficient LLM Serving on Commodity GPU Clusters | 数据精简的跨实例编排 (中山大学) |
| Revisiting Pipeline Parallelism for LLM Serving | 重新审视流水线并行 (Korea Univ) |
| LLMFabric | 统一去中心化 HPC 集群的异构 LLM 服务 (ETH/Cambridge/MIT/HKUST) |
| Kairox | 基于在线神经元均衡的自适应 GPU-CPU 混合推理 (中山大学) |
趋势: KV Cache 管理(层次缓存、零拷贝卸载、预取)成为独立方向;GPU 解耦 (disaggregated) 推理和跨集群异构服务是新主题。
二、RL 训练与 Post-Training(全新方向 — 5 篇专属 session)
| 论文 | 核心思路 |
|---|---|
| Weave | 面向解耦式 RL Post-Training 的高效协同调度 (港科大/阿里巴巴) |
| RLux | 宏观到微观流变换实现灵活高效大规模 RL (清华/北大/无穹) |
| DynaRL | 大规模 RL 训练的灵活动态调度 (北大/无穹) |
| MARS | 解耦式多任务 Agentic RL 训练 (港科大/阿里巴巴) |
| GroupMind | 群组感知上下文学习加速同步 LLM RL (清华/Moonshot AI) |
趋势: RLHF/GRPO 等 post-training 阶段的系统支持首次在顶会出现独立 session,反映了 AI 对齐训练已成为系统级挑战。
三、大规模模型训练(约 8 篇)
| 论文 | 核心思路 |
|---|---|
| Tessera | 面向万亿参数异构 MoE 的全局流水线并行 (华科/阿里云) |
| HSPMD | 层次化异构 SPMD 分布式训练 (北大/上交/Purdue) |
| Syncopate | 基于块中心调度的自动细粒度计算 - 通信重叠 (UCSD/OpenAI/Meta) |
| Teaching The Old Dog New Tricks | 大规模 LLM 预训练的高效数据流水线 (中科大/字节跳动) |
| Cocoon | 基于相关噪声的差分隐私训练架构 (Penn State/SK Hynix/KAIST) |
| Arceus | 大模型训练中同时降低动态和静态能耗 (Michigan) |
| Continuum | 中断容忍的 ML 训练运行时 (阿里云/Harvard/UT Austin) |
| RobustRL | RL Post-Training 的基于角色容错系统 (浙大) |
趋势: 训练可靠性(SDC 检测、中断恢复)和能效优化成为新关注点,不再仅追求吞吐。
四、训练可靠性与 GPU 静默错误(专属 session — 4 篇)
| 论文 | 核心思路 |
|---|---|
| SDCs in the Wild | 生产 LLM 训练中 SDC 缺陷 GPU 的画像与诊断 (上交/字节跳动) |
| Safeguarding LLM Training | 3500 万 GPU 小时的在线 SDC 检测经验 (清华/字节跳动) |
| OpGuard | 比特级对齐的生产 LLM 训练精确调试 (Michigan/字节跳动) |
| RobustRL | RL Post-Training 的角色容错系统 (浙大) |
趋势: GPU 静默数据损坏 (SDC) 首次获得完整 session 级别关注——这是大规模训练中最隐蔽、最难调试的问题之一。字节跳动贡献了多篇来自生产环境的经验。
五、CXL 与解耦内存系统(约 10 篇,两个 session)
| 论文 | 核心思路 |
|---|---|
| RAMRyder | 弹性内存池化突破到对端 (UCSD/Samsung) |
| MAC | CXL DRAM 元数据加速 (首尔国立/UIUC) |
| Finding NEMO | 敏捷且表达力强的内存可观测性 (UW/Meta/Microsoft) |
| OBASE | 基于对象的地址空间工程改进内存分层 (Wisconsin/Google/xAI) |
| MDK | 重新思考数据中心内存回收问题 (Google/UBC) |
| LiteSwitch | 收割亚微秒级 CXL 内存停顿 (Princeton/Columbia) |
| Duhu | 面向分布式计算框架的共享解耦内存 (NYU/Databricks/Microsoft/SK Hynix) |
| Blowfish | 面向解耦内存的弹性虚拟机内存 (北大/上交/华为云) |
| Espresso | 通过 SSD 间计算资源共享构建低成本 CXL JBOF (北大) |
| FORGE | 缓解内存解耦缓存系统中的同步放大 (华科) |
| MEGALON | 部分一致 CXL 内存的高效数据共享 (UIUC/NVIDIA) |
趋势: CXL 生态已从概念验证进入实际系统设计阶段。内存池化、弹性管理、一致性协议、以及 CXL 上的缓存/索引结构是核心议题。
六、MoE 专家混合系统(专属 session)
| 论文 | 核心思路 |
|---|---|
| Achieving Cloud-Grade SLOs for Local MoE | CPU-GPU 混合设计实现本地 MoE 推理的云级 SLO (清华/星云) |
| UEP | 可移植的专家并行通信 (UC Berkeley/UC Davis/AMD) |
| BatchGen | 面向可扩展高效批推理的架构 (Edinburgh/Tencent) |
| Extensible Software Transport Layer for ML | 面向 ML 工作负载的可扩展软件传输层 (UC Davis/UC Berkeley/Tsinghua/IBM/Amazon) |
趋势: MoE 模型的通信瓶颈(All-to-All、专家路由)是独特的系统问题,获得了专属 session。
七、Agentic AI 与 LLM 运维(全新方向 — 5 篇)
| 论文 | 核心思路 |
|---|---|
| SystemX | 云平台中资源高效的 Agentic 工作流编排 (MIT/Microsoft Azure) |
| ACE | AI 驱动的仓库级计算机代码效率优化器 (Google/Google DeepMind) |
| StriaTrace | LLM 推理的高效追踪与诊断 (上交/阿里云) |
| Diagnosing Performance Issues in Application-Defined Resources | 应用自定义资源的性能问题诊断 (BU/UW) |
| ADAngel | 自适应计算映射加速任意精度量化 LLM (上交) |
趋势: "Agentic AI" 首次作为独立系统方向出现在顶会,涵盖 Agent 工作流编排、LLM 系统运维可观测性。
八、操作系统内核与调度(约 8 篇)
| 论文 | 核心思路 |
|---|---|
| MultiLane | 消除用户态网络栈中的集中瓶颈 (北大) |
| Koma | 内核内消息导向调度实现低尾延迟 (EPFL) |
| kSTEP | Linux CPU 调度器 Bug 的画像与受控测试 (Wisconsin/Purdue) |
| What Are You (M)Waiting For | 超大规模云中空闲的隐藏代价 (上交/阿里云) |
| Xkernel | 重新思考 OS 内核的性能可调性 (清华/UIUC/Microsoft Research) |
| DeLFS | 面向众核的去中心化日志结构文件系统 (中央大学) |
| Surviving the Impossible Trinity | 现代商用移动设备的 CPU 调度问题 (荣耀/南大/东南) |
| PeeR | 面向延迟敏感 eBPF 应用的一等公民调度 (MIT) |
趋势: 内核调度器的可测试性 (kSTEP)、可调性 (Xkernel)、以及针对超大规模场景的空闲代价分析是突出方向。eBPF 继续渗透到更多系统层面。
九、机密计算与安全(约 7 篇)
| 论文 | 核心思路 |
|---|---|
| JANUS | 跨域协作嵌套虚拟化实现安全容器 (蚂蚁/华科/阿里巴巴) |
| Merlin | 面向加密计算的透明高效虚拟内存 (UCLA/UC Berkeley) |
| Nested SEV | 安全且通用的嵌套虚拟化 SEV 支持 (九州工大) |
| μUSB | ARM TrustZone 中实用安全的 USB 驱动复用 (电子科大/CISPA) |
| Accelerating Confidential Databases | 无密码学映射加速机密数据库 (中科院软件所) |
| USEC | 用户需求驱动的操作系统强制访问控制框架 (清华/统信) |
| Mohabi | 解耦并沙箱化 Firefox JavaScript 引擎 (UT Austin/Stanford/Mozilla) |
趋势: 嵌套虚拟化 + TEE (SEV/TrustZone) 的组合是主要技术路线。安全容器从单层到跨域协作 (JANUS) 标志着复杂度升级。
十、虚拟化与热迁移(约 6 篇)
| 论文 | 核心思路 |
|---|---|
| M3U | 可扩展内核内存管理实现高端 VM 高效 Post-copy 热迁移 (上交/阿里云) |
| Compaction-Free Defrag | 通过无限客户物理地址空间实现无压缩内存碎片整理 (哈工大深圳) |
| Inside Out | VM 内省的范式转换 (Grenoble/Toulouse/UBC) |
| vBOIDs | 通过粗粒度调度抽象驯服容器混乱 (UT Arlington/AFRL) |
| vClutch | 消费级 GPU 的高效透明时间复用 (Duke) |
| Virtualizing eBPF with Late-Binding | 延迟绑定的 eBPF 虚拟化 (上交) |
趋势: VM 热迁移在超大规模部署下的内存管理难题 (M3U) 和无压缩碎片整理是新的研究点。eBPF 虚拟化 (Late-Binding) 将 eBPF 扩展到虚拟化环境。
十一、GPU 编译器与内核优化(5 篇专属 session)
| 论文 | 核心思路 |
|---|---|
| Optimal Software Pipelining | Tensor Core GPU 的最优软件流水线与 Warp 特化 (Stanford/NVIDIA) |
| TileLoom | 面向空间数据流加速器的自动数据流规划 (NUS/Arizona State) |
| TGX | 张量程序超核化的编译器与运行时 (CMU/清华/Purdue) |
| GraCE | 编译器支持解锁 CUDA Graph 的 ML 工作负载 (IISc/Microsoft Research) |
| VTC | 通过虚拟张量消除数据移动的 DNN 编译 (UIUC/Georgia Tech/Microsoft) |
趋势: GPU 编译器栈正走向产品化——从 Warp 级流水线到 CUDA Graph 自动化,再到跨层数据移动消除。
十二、Serverless 与弹性(5 篇)
| 论文 | 核心思路 |
|---|---|
| Stop Pretending to be Busy | 共置批工作负载的 Serverless 范式 (清华/上交/蚂蚁) |
| Arca | 基于 Continuation 的计算 (Stanford) |
| Rethinking Process Snapshots | 近温 Serverless 冷启动 (MIT) |
| Distributed Speculative Execution | 弹性云应用的分布式投机执行 (MIT/Microsoft Research) |
| Continuum | 中断容忍的 ML 训练运行时 (阿里云/Harvard) |
十三、存储与文件系统(约 6 篇)
| 论文 | 核心思路 |
|---|---|
| Oxbow | 多组件文件系统的协调架构 (UIUC/KAIST) |
| Scaling the IO wall with Declarative IO | 声明式 I/O 突破 IO 墙 (Google/CMU/Microsoft/UW/UNC) |
| Umap | 重新审视分布式文件系统上的内存映射 I/O (SCITIX/清华/北大) |
| CoPilotIO | CPU 作为 GPU I/O 的副驾驶 (港科大广州) |
| WiseCode | 突破宽条纹向量码的可扩展性壁垒 (清华) |
| The LogDrive | 云共享日志的可组合持久性 (Confluent/Meta) |
| Timelock Drive | 存储系统的时间隔离防御 (Michigan) |
十四、网络与 RDMA(约 5 篇)
| 论文 | 核心思路 |
|---|---|
| RoCE CREED | 面向 SmartNIC 的服务增强 RDMA 卸载引擎 (ETH) |
| DPA-Store | 有序网络数据路径 KV 存储 (Mainz/Aachen) |
| FARLock | 公平的非对称 RDMA 锁 (Simon Fraser) |
| When DDIO Meets Page Coloring | Sepia 重审 DDIO 性能 (成均馆) |
| Extensible Software Transport | ML 负载的可扩展软件传输层 (UC Davis/Berkeley/清华) |
十五、共识与 BFT(4 篇)
| 论文 | 核心思路 |
|---|---|
| Bodega | 通过 Roster Lease 实现任意位置的本地化线性化读 (AWS/Wisconsin) |
| Equal Opportunity | 有序共识的正确性条件 (Cornell/UW/Microsoft) |
| Jetpack | 使共识普遍快速 (Stony Brook) |
| PoliceCar | 通过 Racing 拯救 BFT (UC Berkeley/Cornell/Duke/Sei Labs) |
十六、图计算与向量搜索(4 篇)
| 论文 | 核心思路 |
|---|---|
| FlowANN | 解耦图依赖的十亿级 GPU 向量搜索 (上交) |
| Efficient GPU-Centric Evolving Graph Processing | GPU 中心的动态图处理 (CityU HK) |
| Pluto | 通过高级镜像实现高性能分布式图分析 (UT Austin) |
| Helmsman | 成本效益高性能近似近邻搜索 (华东师大/小红书/上交) |
十七、集群调度与能效(约 6 篇)
| 论文 | 核心思路 |
|---|---|
| DVLA | 动态 VM 生命期感知调度 (阿里云) |
| PIMS | 最小容量缓冲的全队数据中心维护 (Meta/Cambridge/Ohio State) |
| Heterogeneity at Hyperscale | 大规模生产 AI 集群的异构画像与调度 (港科大/阿里巴巴/复旦) |
| Hardware Lifecycle-Aware Power Planning | 商用超大规模数据中心的硬件生命周期功耗规划 (Meta/UT Austin) |
| SPADE | 信号感知的 DAG 调度与动态供给 (UMass/Berkeley/MIT) |
| Quota Marketplace | ML 训练资源的动态定价高效分配 (Google) |
十八、测试、调试与正确性(约 8 篇)
| 论文 | 核心思路 |
|---|---|
| ValScope | 面向 DBMS 逻辑 Bug 的值语义变体测试 (厦大) |
| The Abstention Protocol | Clos 网络的根因分析 (Microsoft) |
| When Sampling Lies | 平坦工作负载的可信性能剖析 Blink (UofT/Huawei/Yscope) |
| kSTEP | Linux CPU 调度器 Bug 画像与受控测试 (Wisconsin/Purdue) |
| Aletheia | 微服务中数据完整性违规自动检测 (INESC-ID/IST) |
| jwmalloc | 面向移动设备的已验证内存分配器 (华为/上交) |
| Neuro-Symbolic Proof Generation | 系统软件验证的神经符号证明生成 (南大/ETH) |
| Succinct Proofs for Numerical Computations | 数值计算的简洁证明 (NYU) |
十九、移动与边缘系统(4 篇)
| 论文 | 核心思路 |
|---|---|
| Sereno | 遮蔽中消除移动 LLM 推理的内存带宽争用 (上交) |
| LifeLine | 对象 - 页面生命期对齐的 GC (CityU HK) |
| Unleash All Cores | 非对称感知的移动 CPU DNN 推理 (武大/澳门) |
| Surviving the Impossible Trinity | 现代商用移动设备的 CPU 调度 (荣耀/南大) |
二十、同步原语与并发(4 篇)
| 论文 | 核心思路 |
|---|---|
| Arctic | 实用无锁自适应基数树 (UT Austin/ETH) |
| Efficient Synchronization via Generalized Cache Coherence | 广义缓存一致性实现高效可扩展同步 (Yale) |
| Shaving the Peaks | 通过解耦 GC 驯服托管工作负载尾延迟 (上交) |
| DeLFS | 面向众核的去中心化日志结构文件系统 (中央大学) |
核心观察与趋势总结
1. RL Post-Training 系统化。 OSDI 2026 首次设立 "RL Training at Scale" 专属 session(5 篇),标志着 RLHF/GRPO 等对齐阶段从算法走向系统工程。
2. GPU SDC 成为一等公民问题。 4 篇论文专攻训练中的静默数据损坏检测与诊断,字节跳动贡献了来自 3500 万 GPU 小时的生产经验。
3. CXL 内存生态爆发。 约 10 篇论文覆盖 CXL 内存池化、弹性 VM 内存、CXL JBOF、以及部分一致性协议,CXL 已从研究走向工程实践。
4. Agentic AI 系统元年。 "Agentic AI and LLM Operations" 首次成为独立 session,涵盖 Agent 工作流编排 (SystemX)、LLM 推理运维可观测 (StriaTrace)、AI 驱动的代码优化 (ACE)。
5. GPU 编译器产品化。 5 篇论文从 Warp 级流水线、CUDA Graph 编译支持到虚拟张量,显示 GPU 编译器栈正在成熟。
6. 内核可测试性觉醒。 kSTEP (Linux 调度器 Bug 测试)、Xkernel (内核性能可调性)、Virtualizing eBPF 等论文表明内核系统性研究正回归。
7. 大规模集群运维。 来自 Meta (PIMS, Hardware Lifecycle)、阿里云 (DVLA, DiTing)、Google (ACE, Quota Marketplace) 的生产论文持续扩大。
内核/虚拟化/安全方向重点推荐
- kSTEP — Linux CPU 调度器 Bug 画像与受控测试框架 (Wisconsin/Purdue)
- Xkernel — 重新思考 OS 内核性能可调性 (清华/UIUC/Microsoft)
- JANUS — 跨域协作嵌套虚拟化安全容器 (蚂蚁/阿里/华科)
- Nested SEV — 嵌套虚拟化的安全 SEV 支持 (九州工大)
- Virtualizing eBPF with Late-Binding — eBPF 虚拟化 (上交)
- M3U — 高端 VM Post-copy 热迁移内核内存管理 (上交/阿里云)
- Compaction-Free Defrag — 无限客户物理地址空间免压缩碎片整理 (哈工大)
- SDCs in the Wild — 生产训练 GPU 静默损坏画像 (上交/字节)
- MultiLane — 消除用户态网络栈集中瓶颈 (北大)
- Koma — 内核内消息导向调度低尾延迟 (EPFL)
- μUSB — ARM TrustZone USB 驱动复用 (电子科大)
- What Are You (M)Waiting For — 超大规模云空闲代价 (上交/阿里云)