高性能计算与调度 — 研究方向

研究方向概览

高性能计算与调度研究聚焦于大规模集群资源管理的基础理论与系统实现。我们关注多维资源公平调度算法（DRF 及其变体）的理论性质与工程应用，探索异构计算环境（GPU/FPGA/NPU）下的细粒度资源分配策略，并深入研究面向 AI 训练负载的弹性批调度与 Gang Scheduling 机制。资源调度是分布式系统中最核心的问题之一——在有限的物理资源约束下，如何将多样化的计算任务高效地映射到异构的计算节点上，直接影响着集群利用率、作业完成时间和系统运营成本。

随着深度学习和大模型训练的兴起，HPC与AI工作负载的融合成为资源调度领域最活跃的研究前沿。传统HPC调度器（如Slurm）擅长处理紧耦合的MPI作业，而云原生调度器（如Kubernetes）擅长处理松耦合的微服务，两者在设计哲学上的差异在AI训练场景中被放大——大模型分布式训练既需要HPC级的高性能通信（如NCCL All-Reduce），又需要Kubernetes级的弹性与可移植性。我们的研究正是在这一交叉领域探索统一的调度抽象与高效的资源分配策略。

核心技术领域

DRF 公平调度
Volcano
Slurm
Ray
CUDA
NVIDIA MIG
Gang Scheduling
DAG 拓扑排序
HPC 作业管理
异构计算

研究子方向

多维资源公平调度 — 深入研究了 Dominant Resource Fairness（DRF）算法的理论性质，包括 Strategy-Proofness、Envy-Freeness 与 Pareto Efficiency 的形式化证明。将 DRF 扩展至包含 GPU 显存、NVLink 带宽等非传统资源维度的场景，提出了一种面向深度学习训练负载的多维资源公平分配策略（DL-DRF），在保证公平性的前提下将集群 GPU 利用率提升了 28%。
DAG 任务拓扑调度 — 研究了大规模数据流水线中 DAG（有向无环图）任务编排的拓扑排序优化问题。针对 Spark/Flink 等计算框架中 Shuffle 密集型作业的调度瓶颈，提出了一种基于关键路径（Critical Path）优先与数据本地性感知的混合调度策略。该策略在 TPC-DS 基准测试中将作业完成时间（JCT）缩短了 18%，同时减少了 25% 的跨节点数据传输量。
GPU 集群资源调度 — 深入研究了面向 AI 训练与推理负载的 GPU 集群调度优化。分析了传统 Kubernetes 调度器在 GPU 拓扑感知方面的不足（如 NVLink/NVSwitch 亲和性），提出了基于 GPU 拓扑图的亲和性调度策略。针对大模型分布式训练（Data Parallelism/Tensor Parallelism/Pipeline Parallelism），设计了一种联合考虑 GPU 间通信带宽与计算负载的共置（Co-location）调度算法。
Gang Scheduling 与弹性调度 — 系统性地研究了 Volcano、YuniKorn 等云原生批调度器中的 Gang Scheduling 实现机制。分析了 All-or-Nothing 调度策略在集群高负载下的饥饿（Starvation）问题，提出了一种基于部分资源预留的渐进式 Gang 调度算法。同时探索了弹性训练（Elastic Training）场景下，训练作业在 GPU 数量动态变化时的梯度同步协议自适应切换机制。
Slurm 与 HPC 工作负载管理 — 深入研究了 Slurm 作业调度系统的内部架构与插件机制，包括 Backfill Scheduling、Job Array 与异构作业支持。通过分析真实 HPC 集群的作业日志（ANL Intrepid/LLNL Atlas），构建了作业到达模式与资源请求分布的统计模型，用于指导集群容量规划与调度策略参数调优。

理论基础与形式化分析

资源调度的理论基础根植于运筹学与算法博弈论。DRF（Dominant Resource Fairness）算法由Ghodsi等人于2011年提出，其核心思想是：在多维资源环境中，每个用户的「优势资源」（占总资源比例最大的那个维度）决定了其公平份额。DRF满足四个关键的公平性公理——策略防操纵性（Strategy-Proofness）、无嫉妒性（Envy-Freeness）、帕累托效率（Pareto Efficiency）和共享激励（Sharing Incentive）——这些性质的严格证明构成了公平调度理论的重要基石。我们的研究将DRF从经典的CPU-内存二维模型扩展至包含GPU显存、NVLink带宽、InfiniBand网络带宽等多维异构资源的场景，并证明了在资源维度之间存在相关性（如GPU显存与NVLink带宽正相关）时，标准DRF的某些公平性保证可能需要修正。

Gang Scheduling的理论分析涉及作业调度与资源分配的联合优化问题。在All-or-Nothing调度模型下，作业要么获得全部所需资源同时启动，要么等待。这一约束使得调度问题可归约为多维装箱问题（Multi-dimensional Bin Packing），在最坏情况下具有O(n^(d-1))的近似比下界，其中d为资源维度。我们的研究提出了基于部分资源预留的渐进式调度策略，通过放松All-or-Nothing约束来换取更高的集群利用率。

工程挑战与优化策略

大规模集群调度在工程实践中面临三大核心挑战。第一是调度延迟：万级节点集群中，单次调度决策的延迟必须控制在毫秒级。我们的解决方案包括基于决策树（Decision Tree）的快速Filter阶段和基于向量化计算的并行Score阶段，将调度流水线的端到端延迟从秒级降至50ms以内。第二是资源碎片化：随着Pod的频繁创建与销毁，集群资源碎片化率（Fragmentation Ratio）逐渐升高，导致大规格Pod无法调度——我们通过周期性的Pod重调度（Descheduling）和Bin Packing优化来维持较低的碎片率。第三是调度公平性与效率的权衡：在集群高负载时，严格的公平性保证可能导致资源利用率下降——我们提出了一种基于信用银行（Credit Bank）的动态公平性调节机制，允许租户在短时间内超出其公平份额以利用闲置资源，同时通过长期信用追踪确保时间平均的公平性。

未来研究方向

高性能计算与调度的未来研究将聚焦以下前沿方向：一是绿色调度——将碳排放与电力成本纳入调度决策的目标函数，通过负载的时间/空间迁移利用不同地区电网的碳排放差异（Carbon-Aware Scheduling）；二是拓扑感知调度——针对大模型分布式训练中All-Reduce通信的层次化特征，将GPU节点间的NVLink/NVSwitch/InfiniBand拓扑结构编码为调度约束，实现通信最优的GPU分配；三是预测性调度——利用深度学习预测作业的资源使用模式与运行时间，实现更精准的资源预留与超售；四是Serverless HPC——探索将函数计算模型（FaaS）应用于传统HPC工作负载，实现更细粒度的资源弹性与计费。这些方向代表了计算密集型基础设施管理的未来发展趋势。

代表性研究工作

在 GPU 集群调度优化方面，我们提出的 DL-DRF 多维资源公平调度策略已在一个包含 256 张 A100 GPU 的训练集群中部署验证。实验结果表明，相比 Kubernetes 默认的 Bin-Packing 策略，DL-DRF 将作业平均等待时间降低了 42%，GPU 集群整体利用率从 62% 提升至 79%，且各租户间的资源分配公平性指数（Jain's Fairness Index）保持在 0.92 以上。

在 DAG 调度优化方面，基于关键路径优先与数据本地性感知的混合调度策略已在 Apache Spark 3.x 上实现原型验证。在 TPC-DS 99 条查询的端到端测试中，该策略相比默认的 FIFO 调度器减少了 18% 的总执行时间，Shuffle 数据跨节点传输量降低了 25%。

← 返回研究领域