超智算中心计算平台解决方案
一、建设和运营超智算平台的痛点
- 在当资源管理和调度复杂
超智算中心资源丰富,涵盖大量异构计算、存储和网络资源。因资源动态变化、用户需求多样,运营客户精准分配与调度异构资源难度极大,极易导致资源浪费或不足。
- 用户需求多样
超智算中心为最终用户提供算力服务,用户的需求来源分散且复杂,从算力服务模式上存在独占算力服务器和共享算力任务方式,从算力使用场景上又需要覆盖传统的科学计算、深度学习以及当前新兴的AI训练推理算力服务。
- 成本控制难题
超智算中心的建设与运营成本极高,像硬件设备采购、电力消耗、人员薪酬等支出庞大。运营客户需在确保服务质量的同时,有效控制成本,需要平台提供更多的节省成本的功能和特性,艰难平衡成本与性能。
- 用户服务和支持压力大
超智算中心面向大量最终用户,用户在使用过程中会遇到各种问题。问题涵盖从基础的设备连接故障、应用集成到复杂的算法运行报错。面对如此庞大且复杂的用户咨询量,运营客户需要投入大量的人力进行解答与处理。
- 使用算力的复杂度过高
最终用户需要了解超智算中心的架构,甚至要自行在系统中编译部署应用、构建环境,对如何优化任务以充分利用算力感到困惑。用户无法直接使用应用进行计算,且没有相应的在线指引说明,导致用户使用算力复杂度过高。
二、客户核心诉求
1、为平台最终用户
- 快速获取更高算力;
- 更快迭代速度;
- 更好的用户体验;
- 加强用户黏性。
2、为运营管理方
- 提供运营体系和经验;
- 解决安全和运营管理问题;
- 快速实现可靠的落地方案;
- 最少的成本实现盈利。
三、解决方案概述
SkyForm算力应用平台可以有效地解决以上问题,它通过其内置的国产算力调度器直接管理多种异构化的资源,包括GPGPU、GPU、CPU、内存等不同品牌的异构资源,并对所有任务不间断排队计算,最大化资源利用率。用户可以根据自身需求使用ServerLess算力服务或独占的算力资源,他们只需要通过浏览器或者SSH客户端即可开展AI或HPC相关工作,在平台内直接进行科学计算、模型训练和推理,让庞大的集群算力唾手可得。
本方案包含几大亮点:
-
SkyForm 算力应用平台拥有丰富且实时的集群管理和资源管控功能。可提供集群主机、队列、调度组、用户组、作业、存储等全面管理功能。其调度器适配国内外多种CPU、GPU,支持十几种策略,能按照多维度资源需求进行混合调度,还可对接LSF、PBS、Slurm调度器形成统一资源池,有效应对用户多样需求,实现精准调度,避免资源浪费或不足。
-
支持多种算力服务模式,既满足用户独占主机方式,也支持核时 / 卡时等共享模式。同时涵盖传统科学计算、深度学习以及 AI 训练推理等多场景应用,集成容器及AI 框架如 TF、PyTorch 等,并默认集成大部分工业应用,能满足不同用户的各类算力使用场景需求。
-
平台支持多租户自服务管理功能,可对租户、用户设置多种资源配额控制,防止资源滥用。提供计量计费及报表分析功能帮助运营者提高运营水平。支持对集群、主机、队列配置节电策略,自动对空闲主机进行关机等操作,降低电力消耗成本
-
为运营者提供智能运维功能,对集群所有资源及平台应用进行监控告警和预警,快速将问题扼杀在用户感知之前,为用户提供工单和SLA功能,通过工单流程有序解决用户问题,降低服务压力提高服务质量。
-
平台提供计算应用SaaS服务,而非资源服务,用户无需关心操作系统和基础环境,支持通过浏览器使用平台及集群算力,系统提供大量指引说明以及在线帮助,让用户快速掌握必要知识,用户进入系统后无需过多培训即可快速开展工作,降低用户使用算力的复杂度和运营人力成本。
-
平台是由天云历经多年自主研发,经过许多大型项目中不断锤炼,并成功支撑多个超智算中心长期运营,其功能、性能及稳定性都有保障,平台提供了精密的数据隔离机制,其不但满足二级等保要求,且支持军工保密要求的三员管理和密级控制功能,数据安全有保障。
四、方案概述
高性能计算人工智能应用平台的整体方案不但包括集群系统网络、存储、安全、可视化设备、计算服务器等硬件算力资源池的构建,而且包含算力调度系统、算力交互门户、算力运行基础环境和算力应用等软件系统构建,这是一个庞大而系统化的工程。
图:天云多元异构资源+超智算应用融合方案
天云通过其自主研发的高性能调度器以及成熟好用的服务平台为超智算中心客户提供一站式运营解决方案,让最终用户简单便捷且安全地使用高性能算力,同时也解决了运营中的运维保障、客户服务、多样化需求等多方面的问题。
五、方案核心
六、多行业客户部署验证
七、成功案例
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18