SkyForm智算云平台

产品概述

SkyForm智算云平台不仅提供了企业内部的资源(包括裸金属服务器和Kubernetes集群)管理和监控,更扩展到对外的算力运营服务,将大模型训练、推理、应用工具于一体,为企业私域AI应用助力,给客户提供了整套智算云一条龙解决方案。

 

产品定位

SkyForm智算云平台包含智算控制台、算力应用、算力调度这三大功能模块,适配了国内主流国产化操作系统及国产化GPU,集成了业界主流开源大模型框架,如vllm、DeepSpeed、Openllm、Text generation inference、CTranslate2、Ray Serve、MLC LLM等,无论您是在寻找提高工作效率的方法,还是在寻找如何更好的管理资源,或是在寻找一键部署的解决方案,我们的智算平台都能为您提供最好的答案。让我们一起,用智算平台,引领未来的计算。

 

 

产品特性

1、国产化支持及快速部署

平台及模型一键部署解决方案

支持主流国产化操作系统及GPU

快速纳管资源和集群

2、高吞吐量和大模型集群支持

调度速度可达每秒5000个作业,吞吐量优于所有其他资源管理器,处于国际最领先水平;

目前,已经支持20,000台主机的大集群,达到业界领先水平。

强大的资源管理能力和优秀的调度策略

支持混合异构的资源池管理

支持多种调度策略,如根据实际资源使用阈值的调度、大作业资源预留、小作业回填等

3、深度集成

与主流并行平台MPI(如Intel MPI)深度集成,可以实现MPI作业的高效调度和管理;

与基于容器的资源管理软件相比,调度器在MPI作业的集成和性能方面具有优势

4、安全性和可靠性

通过算力调度框架运行MPI作业无需设置免密登录,确保系统安全并省去不必要的设置和排错

算力调度框架还可以监控远程MPI任务的进程和资源使用情况,并在需要时自动清理远程MPI任务的所有进程,提高系统的安全性和可靠性

5、支持多种主流大模型

vllm、DeepSpeed、Openllm、Text generation inference、CTranslate2、Ray Serve、MLC LLM

6、优秀的数据处理能力

大数据模型的核心部分即数据处理步骤如下:

1)数据预处理:在进行数据处理之前,通常需要对原始数据进行预处理。这包括数据清洗,即去除重复、缺失或错误的数据;数据转换,将数据从一种格式或结构转换为另一种格式或结构;以及数据集成,将来自不同数据源的数据合并到一个统一的数据集中。

2)分布式计算:大数据模型利用分布式计算框架(如Apache Spark、Hadoop等)来处理大规模数据。这些框架使用并行计算和分布式存储来提高计算速度和处理能力。数据被分割成多个块,每个块在多个计算节点上进行并行处理,最后将结果合并。

3)数据转换和转换操作:数据处理中的转换操作对数据进行结构化和格式化。这包括数据过滤、排序、聚合、映射、连接等操作,以便在后续分析中更好地理解和利用数据。

4)数据分析和挖掘:通过应用各种数据分析和挖掘技术,如统计分析、机器学习、深度学习等,来发现数据中的模式、趋势和关联。这些分析可以帮助用户理解数据,做出准确的决策,发现商业机会或解决问题。

5)实时处理:随着大数据的迅速增长,实时数据处理变得越来越重要。实时处理可以在数据到达时立即进行处理和分析,以便实时监控和响应事件。这可以通过流处理框架(如Apache Kafka、Apache Flink等)来实现。

6)数据存储:在数据处理过程中,处理和分析的结果需要进行存储以供后续使用。大数据模型通常使用分布式存储系统(如Hadoop HDFS、NoSQL数据库等)来存储海量数据,并提供高可用性和容错能力。

7)训练推理优化

为了优化训练推理能力,除了硬件优化外,比如选择适当的硬件设备,如GPU、TPU等,以加速模型的训练和推理过程,我们还做了以下工作:

1)分布式训练:将大模型分割成多个子模型,利用分布式计算框架进行并行训练。这样可以充分利用多台计算机或多个GPU进行训练,加快训练速度。同时,还可以通过分布式训练降低内存占用量。

2)数据并行处理:将数据划分成多个批次,分配给不同的计算设备进行处理。这样可以充分利用计算设备的并行处理能力,加速模型的训练和推理过程。

3)模型剪枝和压缩:通过剪枝和压缩技术,减少模型的参数和计算量,降低模型的复杂度。这可以提高模型的训练和推理效率,同时减少模型占用的存储空间。

4)模型量化:将模型的权重和激活值从浮点数转换为定点数或低精度数。这可以减少模型的存储需求和计算复杂度,提高模型在推理阶段的速度

5)缓存和预计算:针对模型中的重复计算部分,可以将计算结果缓存起来或预先计算,避免重复计算,提高推理速度。

6)模型优化技术:使用一些模型优化技术,如批量归一化、残差连接等,可以提高模型的收敛速度和泛化能力。

推荐阅读 

在线咨询 MESSAGE

姓名 *

电话 *

邮箱 *

咨询意向 *

公司名称

所属行业

需求概述 *