SkyForm集群管理系统
一、产品简介
SkyForm集群管理系统是一个深度感知HPC业务的统一运维平台,它将调度器、作业、资源与用户无缝整合,帮助管理者将复杂的运维挑战,转化为高效、透明的算力服务。
面向 HPC 与 EDA 的业务特性,系统提供集群策略和资源快速配置能力,集成工程师常用日常工具,增强跨集群管理的可控性,以数据闭环驱动持续优化。由此,工程师能够更加专注于设计与仿真本身,管理员能够聚焦集群规划与风险防控,企业则在稳定性、效率与成本之间取得均衡并可持续演进。
二、产品架构
三、产品核心功能
- 个人工作台: 工程师自助式使用工具
- 统一纳管: 硬件、系统、软件、调度器
- 智能采集: 无侵入、客户端、定制探针
- 可视化配置: 多种适配器满足配置需求
- 集中告警: 自动发现阈值、日志告警
- 定时巡检: 及时发现问题消除隐患
四、产品特色
特性 |
通用型运维产品 |
SkyForm集群管理系统 |
调度器性能监控 |
无法实现,无法探测LSF、AIP等调度器指标。 |
深度集成,监控HPC集群状态、队列负载、作业周转时间、等待原因、调度器内置指标
|
工程师工作台 |
无此功能,管理员分散管理用户会话和密钥 |
集中管理用户会话,支持用户异常作业自助分析 |
集群可视化 |
不支持集群配置,只有设备的硬件管理和监控 |
支持管理者可视化配置调度器策略,查看HPC业务状态 |
关键业务数据 |
完全缺失,无法监控EDA License等 |
内置License、Autofs挂载点、关键目录监控等
|
五、应用场景
1、EDA芯片设计公司
典型现状:
数千核节点,多个LSF调度器,全球团队,7x24稳定性要求,仿真作业多,“僵尸作业”浪费资源。
客户痛点:
多集群管理难、异常排查慢、资源浪费严重,需要大量人力进行运维支持。
解决方案:
统一纳管(LSF适配器)、工程师自助服务(异常作业查询)、主动告警(全局策略)、定时巡检。
2、高校/科研机构超算中心
典型现状:
集群规模增长,新旧设备并存,物理位置分散,多院系/课题组公共计算服务,用户背景多样,管理员人力有限。
客户痛点:
使用门槛高、资源分配不均、故障响应不及时、资产不清、被动运维、规划靠“拍脑袋”。
解决方案:
精细化计量与报告、统一资产管理、自动化巡检+智能告警、数据驱动容量规划。
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18