SkyForm算力调度系统
产品概述
SkyForm算力调度系统是由北京天云融创软件技术有限公司自主研发的专为高性能计算、人工智能以及智算中心应用设计的算力调度系统,具有独立知识产权,安全可控,核心技术不依赖于国外开源社区。本系统适用于管理强大算力的超(智)算中心、以及工业仿真、科研领域、人工智能和数据分析等领域的资源管理和任务调度。
产品定位
SkyForm算力调度系统是北京天云融创软件自主研发的高性能计算(HPC)和高通量计算(HTC)任务调度系统,有支持数万个节点的集群、每小时百万任务通量调度的能力。
产品功能
广泛的集成和兼容生态
• 融合HPC、AI、大数据等多种并发批处理应用的支持,全面兼容应用厂商已有的应用与资源管理的深度集成,快速部署和上线,包括:如CAE应用ANSYS,FLUENT,ABAQUS,NASTRAN,LS-DYNA,-STAR-CCM+,OptiStruct,SIMPACK等,EDA应用Synopsys、Cadence、Mentor Graphics以及华大九天等,以及机器学习/深度学习框架TensorFlow、MXNet、PyTorch、Intel Caffe、Spark、RapidMiner等;
• 深度集成HPC应用常用的MPI,无需配置免密SSH,远程管理和控制MPI任务分发,自动清理任务进程残留;
• 支持应用在容器中调度;
• 支持各种操作系统、云环境、国产CPU、GPU软硬件平台;
• 支持2D/3D远程高保真、低延迟可视化技术;
• 支持国际通用调度器的常用命令行:SLURM、PBS、LSF
最大化应用许可利用率
• 基于应用程序许可证的调度
• 基于策略分配许可功能
• 最大化许可利用率和吞吐量
• 确保及时完成重要工作负载
增强的调度功能
• 确保服务质量的抢占调度
• 多级别的公平分享调度
• 基于许可或资源的抢占
• 作业阵列
• 队列分派和运行窗口
• 独占调度、交互作业支持
• 用户、队列和主机的作业限制
• 多步骤工作流的作业依赖
• 支持根据实际资源使用阈值的调度
• 支持大作业资源预留、小作业回填等
• 支持Linux和Windows混合集群的统一资源调度和配置管理;
• 简化深度学习分布式任务资源分配和部署
管理功能
• 易于使用的web界面
• 用户可以在不改变使用习惯的前提下完成前后处理和求解,利用HPC集群加速仿真进程
• 支持项目、用户、作业、主机等多维度多指标监控和分析
• 支持作业使用的软硬件资源进行计量计费
• 灵活的报表子系统
• 作业组支持(按组管理作业)
• 增强的NUMA环境支持
• 支持多集群管理
• 支持多种底层调度技术
卓越的可伸缩性和可靠性
• 支持数百万个作业,数千台主机
• 动态主机选择,多路故障转移
• 低延迟、高吞吐量调度
• 并行事件处理带来更快启动速度
• 针对可伸缩性的附加调整参数
• 增强的inter-daemon通信
• 可插拔的身份验证
• 主机宕机时的作业重启
灵活部署
• 避免限制性许可证协议
• 支持在本地和在云中运行
• 保持灵活性,降低许可成本
高品质的服务和支持
• 拥有数十年相关经验的支持团队
• 标准和高级支持选项
• 安装、配置和调优的援助
• 可选的现场实施服务
产品价值
1、加速产品和科技成果研发:极致发挥高性能算力,融合和共享多种资源,提高工业设计、仿真,科学计算、人工智能、和数据分析的能力。
应用场景
高性能计算系统的应用领域非常广泛,包括CAE仿真(结构分析,流体分析,电磁场分析)、EDA、动漫渲染(图像处理、三维渲染)、高校课题研究、电力、物理化学、石油勘探、生命科学、气象环境(海洋预报)、航空航天设计以及人工智能等等。
场景一:工业制造设计仿真系统解决方案
随着新一代信息技术(如云计算、物联网、大数据等)与制造业的融合与落地应用,世界各国纷纷出台了各自的先进制造发展战略,如美国工业互联和德国工业4.0,与此同时,在“制造强国”和“网络强国”大战略背景下,我国也先后出台了“中国制造2025”和“互联网+”等制造业国家发展实施战略,加快建设制造强国,加快发展先进制造业,其核心是借力新一代信息技术(如数字孪生体Digital Twin),充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,实现制造的理世界与信息世界的交互与共融,进而促进制造业先进化水平的整体提升。
数字孪生面向产品全生命周期过程,发挥连接物理世界和信息世界的桥梁和纽带作用,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。通过工业辅助设计CAD、工业仿真CAE、虚拟转配和制造DMU/CAM的辅助工具,由漫长传统工业设计制造的物理过程向数字化的虚拟过程迈进。因此,在此建设过程中,亟需高效、灵活、高性能的云服务能力的支撑,来加速产品发布周期、提升产品交付质量,优化全生命周期成本。
业界解决方案的现状
目前工业制造设计仿真应用支撑系统形态各异,主要面临如下问题和挑战:
• 仿真系统复杂度高,资源和应用的管理、运维的难度大、复杂性高;
• 常规HPC方案所能解决的问题有限,提供软件运行环境,但操作性相对传统落后,与用户本地环境相比使用体验差;
• 普遍的仿真云基于虚拟桌面方案,因此缺乏高性能、分布式并行计算能力的支持;
• 公有云服务提供商只提供硬件资源环境,用户仍需自行解决应用部署、与本地资源连接等问题。
解决方案
天云工业制造云平台以天云融创软件的两大核心产品SkyForm多云管理平台和SkyForm算力调度系统为依托,提供从底层资源管理到上层工业应用管控的一体化的工业制造云解决方案。在该云平台上提供工业设计CAD、分析和模拟CAE、数控加工CAM以及产品数据管理PDM端到端的工业制造软件SaaS服务能力,用户可以像本地一样便捷、灵活地访问和使用工业制造应用软件,同时提供按需供给的弹性计算能力。
SkyForm多云管理平台实现对底层异构计算资源进行统一管理,包括私有云、公有云、裸金属服务器,为上层应用提供支撑。
SkyForm算力调度系统基于云资源以及高性能计算物理资源池,提供丰富的工业制造应用的集成、快速的应用云服务化、业务协同管理,规范的资源、数据和应用许可授权治理,高效的资源管控和调度。
场景二:一流半导体设计公司高性能计算解决方案
天云融创软件已与多家半导体行业公司合作,协助在40,000个内核上部署SkyForm算力调度系统 for IC设计,为客户带来战略灵活性,协助迁移服务和技术支持服务。
根据业务运算的复杂性,平台面临以下挑战:
1、计算节点数量多,部署复杂,安装过程容易出错。
2、计算节点管理调度不灵活,造成任务排队,资源浪费。
3、各部门作业任务计算量大,需良好的调度软件满足等级较高的作业任务优先使用计算资源。
4、业务计算关联性强,满足资源共享能力。
解决方案
• 快速部署,大量计算节点几分钟部署完成。
• 计算能力,容纳数千个计算节点,数十万个内核和数百万个作业并行计算,SkyForm算力调度系统可以调度和动态分配任务。
• 设置策略优先级,多级别分享调度,设置不同等级的作业优先级别。
• 资源利用率高,在100,000核的集群上负载1,000,000个作业,达到99%的资源利用率。
场景三:动漫渲染领域高性能计算解决方案
渲染是动漫、影视制作的核心环节之一,是实现创意和前期设计构想的关键环节,直接决定作品的视觉效果,高水平的渲染可以细致地显示出材质纹理和光景效果,使形象更加生动逼真。目前,渲染已经成为全球重要的高性能计算应用领域,且近些年我国动漫、影视产业发展迅猛,全国各地兴建动漫影视基地或创意文化产业园区,为渲染应用的普及与推广提供了极好的契机。
随着电影、动画制作的不断精细化与高清化,渲染消耗的时长以及产生的原始数据量都在飞速增长,这也对渲染农场的各方面性能提出严苛的要求。
目前渲染主要面临以下几方面挑战:
• 单机渲染视图和动画非常耗时,占很大的制作时间比例;
• 计算密集型特征要求系统运算能力高;
• 海量存储需求,并发读写压力大,容易出现I/O瓶颈;
• 动漫渲染管理繁琐,账号控制和用户记账统计复杂。
解决方案
HPC集群资源管理方面,将分散在不同节点上的物理资源聚合起来,根据内存、闲置CPU容量、磁盘空间、临时空间、软件可用性,以及用户定义的资源限制来调度并分配工作负载,支持数百万个作业,数千台主机超大规模的运算能力。
卓越的可伸缩性和可靠性,作业调度动态主机选择,多路故障转移,主机宕机时的作业重启。
Maya, 3Dstudio MAX, XSI专业的三维建模软件分布在多台计算资源节点上,实现更高效的渲染;并行存储系统提供海量、高带宽的数据访问;SkyForm任务调度系统对硬件平台提供全面、完善的作业调度分配、运维管理与监控管理功能。
SkyForm任务调度系统可对用户插拔进行身份验证。
场景四:高校教学模拟研究高性能计算解决方案
各大院校都希望通过HPC强大的计算能力计算或模拟实验运算出来的结果,来辅助完成学术和探索方面的研究和证实,这些学术和探索方面的研究课题包括生物计算,基因研究,航空航天,分子动力学,材料化学,计算化学,物理化学,结构力学,流体力学,有限元领域,气象领域,石油勘探以及人工智能等领域。这些课题的研究成果都是高校研究能力的重要体现。
目前高校的高性能计算主要面临以下几方面挑战:
1、院校各专业学生较多,需要跨多个集群、调度管理。
2、需满足不同专业学术的模拟需求,满足多租户的实验场景,实现多租户之间的安全隔离,每个用户使用时的体验是自己独享一个集群。
3、需满足资源灵活分配要求来满足不同课题研究环境。
4、需满足系统批量自动发放并部署教学环境。
解决方案
• 海量计算能力:基于SkyForm算力调度系统的海量规模计算,模拟实验平台能够快速高效获取计算资源,大大缩短排队和实验模拟时间。
• 多租户:学术和探索方向课题研究都不同,每个课题都是一个私有的运算环境,采用多租户的实验场景,实现多租户之间的安全隔离。
• 集群计算能力:强大的集群并行计算能力,100,000核的集群上负载1,000,000个作业,达到99%的资源利用率。
• 降低TCO成本:开源的技术优势,降低采购成本。
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18