SkyForm AIP GPU 调度与计算加速———面向AI、EDA、CAE的智能GPU资源编排平台

一、智能感知的GPU资源管理

SkyForm AIP 能够自动检测集群中所有节点的 GPU 设备及其关键参数（型号、显存、温度、负载等），无需人工配置，即可实现 GPU 资源的统一管理与可视化监控。通过命令 chinfo -g 即可查看实时 GPU 状态，支持多型号、多厂商 GPU 的异构集群管理。

示例 / Example:

HOST_NAMEID MODEL_NAME TotMem FreeMem Temp GUT MUT

win100 NVIDIA GeForce RTX 2 5934 5915 22 0.01 0.00

1 NVIDIA GeForce GT 10 2001 1991 17 0.02 0.00

AIP 会自动为不同型号的GPU 生成独立的资源名，如gpuGeForceRTX、gpuGeForceGT 等，便于作业提交时精准调度。

二、灵活高效的GPU作业调度

AIP 支持多种 GPU 作业类型，包括单节点与多节点的 GPU 并行任务。用户可在提交作业时灵活指定所需 GPU 数量、型号及 CPU-GPU 绑定关系。

单机GPU作业 / Single-Node Example:

csub -n 4 -R "rusage[gpu=2] span[hosts=1]" myjob

表示使用 4 个 CPU 核、2 块任意型号的 GPU，并在同一节点上运行。

多节点GPU作业 / Multi-Node Example:

csub -n 16 -R "rusage[gpu=0.5]" myjob

表示每 2 个 CPU 核共享 1 块 GPU，AIP 根据集群资源自动平衡 GPU 分配。

三、GPU资源安全与隔离控制

管理员可在调度配置文件 cb.yaml 中启用 GPU cgroup 控制，确保作业仅能访问被系统分配的 GPU 资源。容器作业默认开启 GPU 隔离，保证计算任务互不干扰、资源分配透明可控。

示例配置 / Example:

general:

cgroup: gpu acct

cgroup: acct用于确保AIP能够跟踪作业的所有进程。

四、vGPU：多任务共享GPU的创新模式

针对算力充足但单任务利用率不足的 GPU，AIP 提供vGPU 虚拟共享模式，显著提升资源利用率。

用户可通过rusage[gpu=0.25] 等参数，将一块 GPU 划分为多个逻辑实例，支持时间分片或物理资源限制两种模式：

分时共享（Time-Slicing）多个作业轮流使用 GPU 全部资源，系统自动控制调度片段，缺省启用。

物理资源限制（Physical Partitioning）为每个作业限定独立的显存与算力比例（如 0.25 GPU = 1.5GB 显存），实现硬隔离。启用方式：在队列配置中加入 vgpu: y，并重启调度器。

示例 / Example:

csub -R rusage[gpu=0.25] -I nvidia-smi

作业中仅显示被分配的显存容量，资源占用清晰可见。

五、MIG：基于硬件的GPU多实例调度

针对 NVIDIA A100/A800、H100/H800 等高端 GPU，AIP 完整支持MIG（Multi-Instance GPU）技术。系统自动识别 MIG 实例并将其视为独立 GPU 资源，实现物理级别的 GPU 分区调度。

示例 / Example:

chosts -s

RESOURCE USABLE RESERVED LOCALE

gpuMIG1g5gb 7.0 0.0 linux7

gpuMIG2g10gb 3.0 0.0 linux7

作业可按需申请特定大小的 MIG 实例：

csub -I -R "rusage[gpuMIG1g5gb=1]" env | grep CUDA

输出结果中自动生成唯一的CUDA_VISIBLE_DEVICES MIG 标识，实现精准任务绑定。

六、统一的容器与GPU生态支持

SkyForm AIP 原生兼容 NVIDIA Container Toolkit，支持 Docker、Singularity、Podman 等容器环境的 GPU 加速任务。GPU、vGPU 与 MIG 均可与容器作业协同调度，实现多租户、多用户的统一算力池化管理。

七、价值与优势总结

八、总结与宣传语

SkyForm AIP GPU调度系统，让每一瓦算力都被精准利用。无论是AI训练、EDA仿真，还是科学计算，AIP都能为GPU资源提供自动发现、灵活调度、智能共享与硬件级隔离的全栈支持。

如在GPU调度使用过程中遇到问题，可通过联系我们的技术团队获取支持。

ꄴ前一个：无

ꄲ后一个：无

天云融创 ꄲ 技术专题 ꄲ SkyForm AIP GPU 调度与计算加速———面向AI、EDA、CAE的智能GPU资源编排平台

— 推荐阅读 —

2022-03-22
深度|超算上“云”不管你愿不愿意，它来了
2022-03-22
软件4大定律
2022-03-22
超级计算机与工业智能制造
2022-03-22
超级计算（HPC）你了解多少
2022-03-18
云管平台下一个战场“灵动纳百云”——SkyForm 多云管理平台腾讯专访
2022-03-18
天云融创软件携SkyForm应用平台2.0亮相2021 HPC China大会

在线咨询 MESSAGE

需求概述 *

企业使命 — 让智能算力服务化繁为简，触手可及。

企业愿景 — 成为客户首选的多元算力技术与业务合作伙伴。

企业价值观 — 诚信共赢，创新突破，客户为先，企业与员工相互成就。

联系我们

咨询热线：010-62969256
业务邮箱：info@chinaskycloud.com

总部地址：北京市朝阳区将台路甲2号诺金写字楼30层3006

微信公众号

官方微博

SkyForm AIP GPU 调度与计算加速———面向AI、EDA、CAE的智能GPU资源编排平台

留言