SkyForm AIP(应用任务管理平台)

SkyForm AIP概述

SkyForm应用任务管理平台(简称SkyForm AIP) 是由北京天云融创软件技术有限公司自主研发的高性能、高可靠、高可扩的应用集成和任务管理系统,具有独立知识产权,安全可控,核心技术不依赖于国外开源社区。

SkyForm AIP专门为人工智能、高性能计算、大数据等应用而设计,是企业级的资源和任务调度利器,注重大规模集群分布式深度学习、机器学习、高性能计算、数据分析等任务管理,使用户在使用大集群和异构硬件的时候如同使用本地系统一样的简单和透明,同时又让系统管理员能够有效地监控和管理集群上所有的资源(包括专业应用软件许可证),使昂贵资源的利用率最大化,从而提高效能、降低成本。

SkyForm AIP与市场上常见的应用任务管理平台相比较,对应用环境的支持有以下明显的优势和先进性:

  • 应用和服务直接在物理机上运行,不受容器对特殊硬件支持的限制,大大降低系统复杂度和系统软件开销。
  • 采用OS的用户系统来控制用户认证和用户权限,避免管理多套用户认证和权限系统,以及不必要的数据库开销。
  • 利用共享文件系统实现数据的持久性,利用内建的检测机制实现系统服务(如任务调度)的HA,避免依赖于第三方容错软件,降低排错难度。
  • 支持分布式多种任务异构资源的统一调度管理。其它的资源调度器对多种任务的资源每次调度一种,当一种任务所需资源不足时其它作业占着资源等待,造成资源浪费。SkyForm AIP把所有应用的异构组件作为单一作业,直到所有任务所需资源都满足时才启动,以保障应用性能和昂贵资源利用率的最大化。这是SkyForm AIP的独特调度能力。
  • 独特的用户权限和资源配额管理,确保系统的安全性和可靠性。
  • 特殊调度策略:根据实际资源使用阈值的调度、大作业资源预留、小作业回填等,而基于容器的资源管理软件(如K8S,MESOS)不具备这种完整的大型生产环境所需的高级调度策略支持。
  • 与主流并行平台MPI(如Intel MPI)深度集成,更好地支持HPC应用。
  • 调度速度可达每秒5000个作业,吞吐量优于其它资源管理器,且目前已支持200,000核以上的大集群,达到业界领先水平。

SkyForm  AIP应用支持

1. 集成CAE 仿真软件

SkyForm AIP与CAE仿真软件的集成有两个方面:

(1)用户通过SkyForm AIP门户可以填写应用参数后直接递交CAE应用作业。SkyForm AIP的门户里已有的作业递交页面包括:ANSYS,FLUENT,ABAQUS,NASTRAN,LS-DYNA,-STAR-CCM+,OptiStruct,SIMPACK等。

(2)用户在应用软件的图形化界面里(如ANSYS WorkBench、FLUENT Launcher等)直接递交仿真作业。

2. 支持其他HPC应用

SkyForm AIP与HPC应用常用的MPI框架有深度集成。在MPICH2,MVAPICH2和Intel MPI等使用Hydra的MPI环境中,Hydra自动调用SkyForm AIP来启动MPI远程任务。

3. 集成深度学习框架和机器学习开发环境

SkyForm AIP与常用深度学习框架有效集成,支持TensorFlow、Caffe、PyTorch、MXNet等。用户可以通过SkyForm AIP启动分布式深度学习任务。

SkyForm AIP支持动态启动Jupyter Notebooks服务,为人工智能的编程提供有效工具。以下常用的Python算法库可以通过Jutyper Notebooks来调用和运行:Scikit-learn(通用算法库)、Keras(Python编写的高级神经网络API)、MLlib(分布式算法库)等。

SkyForm AIP还支持RapidMiner Studio,其是一款可以进行机器学习、数据挖掘、文本挖掘、预测性分析和商业分析,且具有拖拽功能的图形化工具,提供免费且先进的数据挖掘技术和库,以及易于使用的图形化交互界面。

4. 支持大数据应用

SkyForm AIP支持Spark单机模式和集群模式。

5. 支持交互式图形作业

SkyForm AIP为用户动态生成图形终端桌面,用户可以在桌面中运行交互式图形应用。远程图形终端支持多种3D远程可视化技术,包括AWS的NICE DCV。