SkyForm OpenLava(高性能计算平台)

【即刻申请试用】

SkyForm OpenLava企业版是一个增强的、基于开源OpenLava的企业级工作负载调度器,并针对机器学习和半导体研发的工作负载做了设计与优化。不论是现场物理集群部署,虚拟基础设施部署,还是云中部署,客户都不用支付高昂的许可证费用,并可选择天云软件高品质的支持服务以确保部署的成功

openlava01

产品架构图:

openlava02 

企业版2017发布

SkyForm OpenLava企业版2017增强了处理机器学习和人工智能任务的能力,其内置的GPU调度功能使用户在部署机器学习任务的时候能够专注于应用程序本身而不是工作负载管理。SkyForm OpenLava企业版2017还可以跟踪作业的其他资源使用指标,以实现更智能的监控和工作负载模式分析。

新特性

优点

GPU调度——跟踪可用的GPU并在多个主机上调度GPU并行作业 在不需要过重地学习配置OpenLava的前提下,立即调度GPU作业。这使用户可以专注于应用程序和算法,避免在配置工作负载管理上浪费时间。
通过分析可配置的历史作业运行时间来增强公平调度能力 为机器学习并行作业带来更公平的资源共享。
跟踪作业的最大和平均内存使用情况,供用户查看,同时供OpenLava监控系统生成报表 保持作业成功率的同时最大化内存使用率。
跟踪线程的作业号,供用户查看,同时供OpenLava监控系统生成报表 保持作业成功率的同时最大化CPU使用率。
提升结束作业阵列的性能 允许要求使用大规模作业阵列的应用程序运行。
修复基于插槽的抢占调度漏洞 允许按作业优先级使用作业插槽。
通过使用ssh启动远程守护进程,而非rsh 允许网站远程启动和控制OpenLava守护进程。

 

应用场景

高性能计算系统的应用领域非常广泛,包括CAE仿真(结构分析,流体分析,电磁场分析)、动漫渲染(图像处理、三维渲染)、高校课题研究、电力、物理化学、石油勘探、生命科学、气象环境(海洋预报)、航空航天设计等等。

openlava03

天云软件团队在高性能计算方面有数十年的经验,包括在半导体设计行业的丰富经验。天云软件的很多员工都是OpenLava社区的积极贡献者,意味着这些深入了解代码的人能够提供专业建议并迅速解决问题。无论您的工作负载调度要求如何,天云软件都可以帮助您通过OpenLava提高生产效率。

场景一:动漫渲染领域高性能计算解决方案

渲染是动漫、影视制作的核心环节之一,是实现创意和前期设计构想的关键环节,直接决定作品的视觉效果,高水平的渲染可以细致地显示出材质纹理和光景效果,使形象更加生动逼真。目前,渲染已经成为全球重要的高性能计算应用领域,且近些年我国动漫、影视产业发展迅猛,全国各地兴建动漫影视基地或创意文化产业园区,为渲染应用的普及与推广提供了极好的契机。

随着电影、动画制作的不断精细化与高清化,渲染消耗的时长以及产生的原始数据量都在飞速增长,这也对渲染农场的各方面性能提出严苛的要求。

目前渲染主要面临以下几方面挑战

  1. 单机渲染视图和动画非常耗时,占很大的制作时间比例;
  2. 计算密集型特征要求系统运算能力高;
  3. 海量存储需求,并发读写压力大,容易出现I/O瓶颈;
  4. 动漫渲染管理繁琐,账号控制和用户记账统计复杂。

解决方案

openlava04

  • 通过OpenLava集群资源管理方面,将分散在不同节点上的物理资源聚合起来,根据内存、闲置CPU容量、磁盘空间、临时空间、软件可用性,以及用户定义的资源限制来调度并分配工作负载,支持数百万个作业,数千台主机超大规模的运算能力。
  • 卓越的可伸缩性和可靠性,作业调度动态主机选择,多路故障转移,主机宕机时的作业重启。
  • Maya,3Dstudio MAX,XSI专业的三维建模软件分布在多台计算资源节点上,实现更高效的渲染;并行存储系统提供海量、高带宽的数据访问;Openlava集群管理平台对硬件平台提供全面、完善的作业调度分配、运维管理与监控管理功能。
  • Openlava集群管理平台可对用户插拔的身份验证。

 

场景二:高校教学模拟研究高性能计算解决方案

各大院校都希望通过HPC强大的计算能力计算或模拟实验运算出来的结果,来辅助完成学术和探索方面的研究和证实,这些学术和探索方面的研究课题包括生物计算,基因研究,航空航天,分子动力学,材料化学,计算化学,物理化学,结构力学,流体力学,有限元领域,气象领域,石油勘探等领域。这些课题的研究成果都是高校研究能力的重要体现。

 目前高校的高性能计算主要面临以下几方面挑战

1、院校各专业学生较多,需要跨多个集群、调度管理。

2、需满足不同专业学术的模拟需求,满足多租户的实验场景,实现多租户之间的安全隔离,每个用户使用时的体验是自己独享一个集群。

3、需满足资源灵活分配要求来满足不同课题研究环境。

4、需满足系统批量自动发放并部署教学环境。

解决方案

openlava05

  • 海量计算能力:基于Openlava作业调度的海量规模计算,模拟实验平台能够快速高效获取计算资源,大大缩短排队和实验模拟时间。
  • 多租户:学术和探索方向课题研究都不同,每个课题都是一个私有的运算环境,采用多租户的实验场景,实现多租户之间的安全隔离。
  • 集群计算能力:强大的集群并行计算能力,100,000核的集群上负载1,000,000个作业,达到99%的资源利用率。
  • 降低TCO成本:开源的技术优势,降低采购成本。

 

场景三:一流半导体设计公司高性能计算解决方案

天云软件北美研发中心与在美国、欧洲和亚洲设有中心的跨国半导体公司合作,协助在40,000个内核上部署OpenLava工作负载管理平台,为客户带来战略灵活性,协助迁移服务和全球支持服务。

根据业务运算的复杂性,平台面临以下挑战

  1. 计算节点数量多,部署复杂,安装过程容易出错。
  2. 计算节点管理调度不灵活,造成任务排队,资源浪费。
  3. 各部门作业任务计算量大,需良好的调度软件满足等级较高的作业任务优先使用计算资源。
  4. 业务计算关联性强,满足资源共享能力。

解决方案
openlava06

  • 快速部署:大量计算节点几分钟部署完成。
  • 计算能力:容纳数千个计算节点,数十万个内核和数百万个作业并行计算,OpenLava集群可以调度和动态分配任务。
  • 设置策略优先级:多级别分享调度,设置不同等级的作业优先级别。
  • 资源利用率高:在100,000核的集群上负载1,000,000个作业,达到99%的资源利用率。

价值体现

  • 高密度集群管理调度和强大并行计算能力
  • 快速灵活扩展和部署能力
  • 低延迟、高吞吐量调度,资源利用率高能力
  • 多级别分享调度,设置不同等级的作业优先级别能力
  • 降低TCO成本

产品亮点

1. 100%开源组件

  • 避免限制性许可证协议
  • 在本地或在云中运行
  • 保持灵活性,降低许可成本
  • 无限制,无锁定

 

 

2. 最大化EDA许可利用率

  • 基于应用程序许可证的调度
  • 基于策略分配许可功能
  • 最大化许可利用率和吞吐量
  • 确保及时完成重要工作负载

 

3. 增强的调度功能

  • 确保SLA的抢占调度
  • 多级别的公平分享调度
  • 基于许可或资源的抢占
  • 作业阵列
  • 队列分派和运行窗口
  • 独占调度、交互作业支持
  • 用户、队列和主机的作业限制
  • 多步骤工作流的作业依赖

 

4. 管理功能

  • 易于使用的web界面
  • 灵活的报表子系统
  • 作业组支持(按组管理作业)
  • 增强的NUMA环境支持

 

5. 卓越的可伸缩性和可靠性

  • 支持数百万个作业,数千台主机
  • 动态主机选择,多路故障转移
  • 低延迟、高吞吐量调度
  • 并行事件处理带来更快启动速度
  • 针对可伸缩性的附加调整参数
  • 增强的inter-daemon通信
  • 可插拔的身份验证
  • 主机宕机时的作业重启

 

6. 高品质的服务和支持

  • 拥有数十年相关经验的支持团队
  • 标准和高级支持选项
  • 安装、配置和调优的援助
  • 可选的现场实施服务

成功案例

国家超级计算广州中心

国家超级计算无锡中心

【即刻申请试用】