天云融创软件亮相半导体CAD联盟张江论坛

近日,天云融创软件参加了半导体CAD联盟组织的张江论坛活动,现场CTO郭宏分享了公司自主研发的SkyForm 算力调度系统在EDA领域的突破性应用。

 

郭宏

北京大学计算机软件硕士,北京天云融创软件技术有限公司CTO,从事高性能计算领域工作超过20年,曾在加拿大Platform 公司担任作业调度系统研发经理,曾参与开发、设计国内外多套高性能计算平台项目,拥有丰富的产品研发与方案设计经验。

 

 

面对半导体行业高并发任务需求与异构资源管理的挑战,天云融创国产自研的SkyForm 算力调度系统完全兼容LSF,已在多家EDA客户生产环境中使用多年 ,具有自主代码,兼容所有EDA工具,可利用EDA工具内建的 LSF集成功能。会议中深刻阐述了利用最佳实践优化和定制作业调度的方法,分享了通过自有统一监控数据利用AI做内存预测及改进实践的案例,该集群调度软件系统可高效助力企业实现算力资源的精准调度与高效利用。

 

同时针对数据安全与混合云部署难题,天云融创展示了其VPC隔离、端到端加密传输及自动化文件同步技术,并结合IaC(基础设施即代码)保障云端集群的可维护性,为半导体行业提供国产化产品解决方案,更敏捷、更安全的云上算力服务。

 

天云融创EDA上云解决方案概述

本方案旨在阐述如何在公有云环境(例如 AWS、阿里云等)中部署和配置一个弹性的 EDA 集群,该集群的核心调度器由 AIP 提供。通过 AIP 的智能资源管理和动态伸缩能力,集群能够根据 EDA 工作负载的需求自动调整计算资源,从而提高作业吞吐量、缩短设计周期并优化成本。云上的EDA集群与企业内部的HPC集群一起为用户提供弹性HPC资源,满足多变的应用算力需求。

 

架构设计

弹性 EDA 集群的逻辑架构主要包括以下几个关键组件:

 

  • AIP 云上弹性集群: 部署 AIP 调度系统组件,Master负责接收和调度 EDA 作业、监控集群状态、管理用户和资源等。通常建议配置高可用性 (HA) 以确保服务的连续性。Compute 节点运行实际 EDA 工作负载的计算实例。这些节点可以是同构的,也可以根据不同的 EDA 工具和工作负载类型进行异构配置。
  • 云上共享存储: 提供所有计算节点可访问的共享文件系统,用于存储 EDA 设计数据、库文件、工具安装包和作业的输入输出。常见的选择包括云厂商提供的网络文件系统服务 (例如 AWS EFS等)。云上的共享存储用于存储临时计算数据。
  • 公有云基础设施服务: 利用公有云提供的计算、存储、网络、安全和监控等基础服务。
  • 公有云上的用户认证系统:公有云集群建立自己的用户认证系统,如LDAP,ActiveDirectory等。
  • 企业内部集群:企业内部的AIP集群提供本地算力,并于云上的弹性集群连接。当本地算力资源不够时,将计算任务和计算所用的数据一同送往云上的AIP集群,计算任务结束后,把计算结果同步回本地集群中。
  • 企业用户门户:企业用户通过内部的门户登录,开通VNC或ssh终端,提交和管理计算任务。
  • 企业内部的共享存储:企业内部的共享存储系统用于保存永久的计算数据,并与云上的共享存储系统同步作业所需的数据。同步可以利用云提供的数据同步服务,或者用AIP内置的作业数据同步组件。
  • 企业内部的用户认证系统:企业内部的集群使用企业内统一的用户认证。
  • 企业内部的多集群:企业内部的多集群之间也可实现算力分享。图中企业内部的AIP集群也可把计算任务送往企业内部其他调度器的集群中。

SkyForm AIP弹性集群调度系统

SkyForm算力调度系统简称AIP(Application Integration Platform),是天云融创软件国产自研的算力调度系统。该系统完全兼容LSF,已在多家EDA客户生产环境中使用多年 ,具有自主代码,兼容所有EDA工具,可利用EDA工具内建的集群集成功能,这款为EDA量身定制的调度系统支持1万节点单一大机群,和每小时1百万个作业高性能调度,与亚马逊、阿里等公有云深度集成实现云上的弹性集群。

 

系统具有以下组件:

  • 计算服务器上的AIP服务监控主机性能指标。
  • 管理主机收集所有主机上的性能指标,根据配置的调度策略调度作业。
  • 通过调用公有云API实现基于负载的云上自动伸缩。
  • 性能监控通过Prometheus的exporter从管理主机上定期抽取数据,用Grafana实现可视化。
  • 登录主机上运行VNC桌面门户。用户通过递交作业的方式启动VNC桌面,访问集群。用户也可以从VNC门户中申请ssh session,通过ssh访问集群。
  • 管理门户给管理员提供用户、部门的用量统计数据。

AIP在云上弹性伸缩的步骤为:

 

  1. 用户的任务提交到AIP的队列中。
  2. AIP调度器根据任务资源需求调用公有云的API启动云主机。云主机启动后动态加入AIP集群(AIP动态计算主机),并开始接受任务。
  3. 当某个云主机上无任务运行一段时间后(可配置时间间隔),AIP调用公有云的API销毁主机,主机销毁后自动从AIP集群中移除。

云主机的启动和销毁由AIP调度器根据任务统一调度,不会与云自身的自动伸缩逻辑发生冲突。

AIP云集群的一些关键技术为:

  1. 弹性集群:根据队列中作业负载控制集群服务器数量;根据作业资源需求选择合适的云主机;对于短作业使用Spot Instances。
  2. 本地云端用户账号转换:在本地和云上用户账号不统一时, 提供账号映射;提供多对一、多对多的映射方式。
  3. 本地云端自动文件传输:文件传输支持用户账户映射;文件传输与作业同步, 输入文件传输在作业运行前完成,输出文件传输在作业结束后完成。

公有云弹性集群的优点

利用公有云的弹性特性和AIP的高效调度,可以实现显著的成本优化:

  • 按需付费: 只为实际使用的计算资源付费,避免长期闲置资源的浪费。
  • 动态伸缩: 根据实际工作负载的需求动态调整计算资源,避免过度配置。
  • 竞价实例/Spot Instances: 对于对中断不敏感的 EDA 工作负载,可以考虑使用成本更低的竞价实例或 Spot Instances。AIP可以感知和管理这些类型的实例。
  • 合理的实例类型选择: 根据不同的 EDA 工具和工作负载选择最合适的实例类型,避免为不需要的资源付费。
 

推荐阅读 

在线咨询 MESSAGE

姓名 *

电话 *

邮箱 *

咨询意向 *

公司名称

所属行业

需求概述 *