SkyForm AIP(AI支撑平台)

AI支撑的挑战

当前,如火如荼的AI正逐渐渗透到各个行业和领域,必将深刻改变我们的工作、学习和生活。然而,AI的支撑仍旧处于可靠性差、效率低、运维成本高的尴尬现状。当前流行的AI云基本都基于Docker容器集群Kubernetes。Kubernetes作为通用容器集群管理系统对于深度学习和机器学习的集群管理具有以下的挑战:

(1)系统复杂,资源开销大

  • 容器集群需要像Kubernetes这样的集群管理,系统组件多,版本间兼容性差,对系统资源要求高;
  • 系统部署、管理和使用负载,排错困难。

(2)对特殊硬件(AI加速器)支持差

  • 不支持GPU+InfiniBand;
  • 不支持GPU外的特殊AI加速硬件;
  • 常用虚拟网络性能比物理机差;

(3)资源调度能力弱

  • 对异构AI框架和特殊硬件的调度能力差,导致资源利用率低;
  • 昂贵硬件投资回报率(ROI)低。

产品概述

SkyForm AIP(AI支撑平台)是专为AI应用开发的具有自主知识产权的集群和任务管理系统,具有:

  • 原创的异构资源调度引擎——不依赖于国外开源软件、独特的调度能力,支持国产操作系统;
  • 灵活的AI任务管理器——监控和管理AI作业的多种任务;
  • 高容量集群cron作业调度器——用于在线学习任务和在线服务任务的调度。

SkyForm AIP有以下的功能:

  1. 异构资源调度
    • 多异构任务和资源的同步调度;
    • 优先级和公平分享调度策略;
    • 高并行作业资源预留。
  2. 灵活任务管理
    • 远程任务执行;
    • 远程任务监控;
    • 支持普通Linux进程和Docker Container。
  3. 容易定制
    • Resource Sensor可以轻松接入各种需调度的资源;
    • CLI/Python API支持各种集成。
  4. 轻量级
    • 不依赖于特殊OS核及软件包;
    • 占用资源小,管理节点也可运行计算任务;
    • 内建容错机制,实现轻便HA。

AIP架构

SkyForm AIP提供常用的分布式深度学习作业模板:

  • TensorFlow
  • Intel Caffe
  • MXNet
  • PyTorch

SkyForm AIP支持的主流机器学习库的部分清单:

名    称

描    述

Scikit-learn (通用算法库) Scikit-learn是开源的Python机器学习库,是一个完整的机器学习流程框架,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。
MLlib (分布式算法库) MLlib是Spark对常用机器学习算法的开源分布式实现库,目标是使实用的机器学习算法可扩展并容易使用。Spark是一个专门针对大量数据处理的通用的快速引擎,其基于内存的计算模型天生擅长机器学习算法的迭代计算,所以Spark是在大数据训练样本下的分布式机器学习理想平台,适用于工程化的实践项目。
OpenCV(专门计算机视觉库) OpenCV是开源的跨平台的计算机视觉库,由Intel发起并参与开发,用于开发实时的图像处理,计算机视觉以及模式识别应用。
Textsum(情报文本分析) 自然语言处理(NLP)对于浅层次的特征提取、分类等问题已经比较成熟,而深层次的语义理解是当下研究的热点。情报分析领域需要获取并筛选大量数据,从中找出重要的信息,产生情报并得到认知。
其它Python库
  • pandas: 针对结构化和时间序列数据分析
  • numpy: 矩阵运算
  • scipy: 数学库
  • matplotlib: 作图
  • seaborn: 统计图表

SkyForm AIP还提供通过web门户访问的集群监控和管理。

AIP监控截屏1

AIP监控截屏2