SkyForm AIP GPU 调度与计算加速———面向AI、EDA、CAE的智能GPU资源编排平台

一、智能感知的GPU资源管理

SkyForm AIP 能够自动检测集群中所有节点的 GPU 设备及其关键参数(型号、显存、温度、负载等),无需人工配置,即可实现 GPU 资源的统一管理与可视化监控。通过命令 chinfo -g 即可查看实时 GPU 状态,支持多型号、多厂商 GPU 的异构集群管理。

示例 / Example:

HOST_NAMEID MODEL_NAME            TotMem FreeMem Temp GUT  MUT

win100 NVIDIA GeForce RTX 2   5934    5915   22 0.01 0.00

1 NVIDIA GeForce GT 10   2001    1991   17 0.02 0.00

AIP 会自动为不同型号的GPU 生成独立的资源名,如gpuGeForceRTX、gpuGeForceGT 等,便于作业提交时精准调度。

 

二、灵活高效的GPU作业调度

AIP 支持多种 GPU 作业类型,包括单节点与多节点的 GPU 并行任务。用户可在提交作业时灵活指定所需 GPU 数量、型号及 CPU-GPU 绑定关系。

单机GPU作业 / Single-Node Example:

csub -n 4 -R "rusage[gpu=2] span[hosts=1]" myjob

表示使用 4 个 CPU 核、2 块任意型号的 GPU,并在同一节点上运行。

多节点GPU作业 / Multi-Node Example:

csub -n 16 -R "rusage[gpu=0.5]" myjob

表示每 2 个 CPU 核共享 1 块 GPU,AIP 根据集群资源自动平衡 GPU 分配。

 

三、GPU资源安全与隔离控制

管理员可在调度配置文件 cb.yaml 中启用 GPU cgroup 控制,确保作业仅能访问被系统分配的 GPU 资源。容器作业默认开启 GPU 隔离,保证计算任务互不干扰、资源分配透明可控。

示例配置 / Example:

general:

cgroup: gpu acct

cgroup: acct用于确保AIP能够跟踪作业的所有进程。

 

四、vGPU:多任务共享GPU的创新模式

针对算力充足但单任务利用率不足的 GPU,AIP 提供vGPU 虚拟共享模式,显著提升资源利用率。

用户可通过rusage[gpu=0.25] 等参数,将一块 GPU 划分为多个逻辑实例,支持时间分片或物理资源限制两种模式:

分时共享(Time-Slicing多个作业轮流使用 GPU 全部资源,系统自动控制调度片段,缺省启用。

物理资源限制(Physical Partitioning为每个作业限定独立的显存与算力比例(如 0.25 GPU = 1.5GB 显存),实现硬隔离。启用方式:在队列配置中加入 vgpu: y,并重启调度器。

示例 / Example:

csub -R rusage[gpu=0.25] -I nvidia-smi

作业中仅显示被分配的显存容量,资源占用清晰可见。

 

五、MIG:基于硬件的GPU多实例调度

针对 NVIDIA A100/A800、H100/H800 等高端 GPU,AIP 完整支持MIG(Multi-Instance GPU技术。系统自动识别 MIG 实例并将其视为独立 GPU 资源,实现物理级别的 GPU 分区调度。

示例 / Example:

chosts -s

RESOURCE USABLE RESERVED  LOCALE

gpuMIG1g5gb 7.0    0.0       linux7

gpuMIG2g10gb 3.0    0.0       linux7

作业可按需申请特定大小的 MIG 实例:

csub -I -R "rusage[gpuMIG1g5gb=1]" env | grep CUDA

输出结果中自动生成唯一的CUDA_VISIBLE_DEVICES MIG 标识,实现精准任务绑定。

 

六、统一的容器与GPU生态支持

SkyForm AIP 原生兼容 NVIDIA Container Toolkit,支持 Docker、Singularity、Podman 等容器环境的 GPU 加速任务。GPU、vGPU 与 MIG 均可与容器作业协同调度,实现多租户、多用户的统一算力池化管理。

 

七、价值与优势总结

 

八、总结与宣传语

SkyForm AIP GPU调度系统,让每一瓦算力都被精准利用。无论是AI训练、EDA仿真,还是科学计算,AIP都能为GPU资源提供自动发现、灵活调度、智能共享与硬件级隔离的全栈支持。

 

 

如在GPU调度使用过程中遇到问题,可通过联系我们的技术团队获取支持。

推荐阅读 

在线咨询 MESSAGE

姓名 *

电话 *

邮箱 *

咨询意向 *

公司名称

所属行业

需求概述 *