SkyForm AIP GPU 调度与计算加速———面向AI、EDA、CAE的智能GPU资源编排平台
一、智能感知的GPU资源管理
SkyForm AIP 能够自动检测集群中所有节点的 GPU 设备及其关键参数(型号、显存、温度、负载等),无需人工配置,即可实现 GPU 资源的统一管理与可视化监控。通过命令 chinfo -g 即可查看实时 GPU 状态,支持多型号、多厂商 GPU 的异构集群管理。
示例 / Example:
HOST_NAMEID MODEL_NAME TotMem FreeMem Temp GUT MUT
win100 NVIDIA GeForce RTX 2 5934 5915 22 0.01 0.00
1 NVIDIA GeForce GT 10 2001 1991 17 0.02 0.00
AIP 会自动为不同型号的GPU 生成独立的资源名,如gpuGeForceRTX、gpuGeForceGT 等,便于作业提交时精准调度。
二、灵活高效的GPU作业调度
AIP 支持多种 GPU 作业类型,包括单节点与多节点的 GPU 并行任务。用户可在提交作业时灵活指定所需 GPU 数量、型号及 CPU-GPU 绑定关系。
单机GPU作业 / Single-Node Example:
csub -n 4 -R "rusage[gpu=2] span[hosts=1]" myjob
表示使用 4 个 CPU 核、2 块任意型号的 GPU,并在同一节点上运行。
多节点GPU作业 / Multi-Node Example:
csub -n 16 -R "rusage[gpu=0.5]" myjob
表示每 2 个 CPU 核共享 1 块 GPU,AIP 根据集群资源自动平衡 GPU 分配。
三、GPU资源安全与隔离控制
管理员可在调度配置文件 cb.yaml 中启用 GPU cgroup 控制,确保作业仅能访问被系统分配的 GPU 资源。容器作业默认开启 GPU 隔离,保证计算任务互不干扰、资源分配透明可控。
示例配置 / Example:
general:
cgroup: gpu acct
cgroup: acct用于确保AIP能够跟踪作业的所有进程。
四、vGPU:多任务共享GPU的创新模式
针对算力充足但单任务利用率不足的 GPU,AIP 提供vGPU 虚拟共享模式,显著提升资源利用率。
用户可通过rusage[gpu=0.25] 等参数,将一块 GPU 划分为多个逻辑实例,支持时间分片或物理资源限制两种模式:
分时共享(Time-Slicing)多个作业轮流使用 GPU 全部资源,系统自动控制调度片段,缺省启用。
物理资源限制(Physical Partitioning)为每个作业限定独立的显存与算力比例(如 0.25 GPU = 1.5GB 显存),实现硬隔离。启用方式:在队列配置中加入 vgpu: y,并重启调度器。
示例 / Example:
csub -R rusage[gpu=0.25] -I nvidia-smi
作业中仅显示被分配的显存容量,资源占用清晰可见。
五、MIG:基于硬件的GPU多实例调度
针对 NVIDIA A100/A800、H100/H800 等高端 GPU,AIP 完整支持MIG(Multi-Instance GPU)技术。系统自动识别 MIG 实例并将其视为独立 GPU 资源,实现物理级别的 GPU 分区调度。
示例 / Example:
chosts -s
RESOURCE USABLE RESERVED LOCALE
gpuMIG1g5gb 7.0 0.0 linux7
gpuMIG2g10gb 3.0 0.0 linux7
作业可按需申请特定大小的 MIG 实例:
csub -I -R "rusage[gpuMIG1g5gb=1]" env | grep CUDA
输出结果中自动生成唯一的CUDA_VISIBLE_DEVICES MIG 标识,实现精准任务绑定。
六、统一的容器与GPU生态支持
SkyForm AIP 原生兼容 NVIDIA Container Toolkit,支持 Docker、Singularity、Podman 等容器环境的 GPU 加速任务。GPU、vGPU 与 MIG 均可与容器作业协同调度,实现多租户、多用户的统一算力池化管理。
七、价值与优势总结
八、总结与宣传语
SkyForm AIP GPU调度系统,让每一瓦算力都被精准利用。无论是AI训练、EDA仿真,还是科学计算,AIP都能为GPU资源提供自动发现、灵活调度、智能共享与硬件级隔离的全栈支持。
如在GPU调度使用过程中遇到问题,可通过联系我们的技术团队获取支持。
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18