EDA任务负载监控与分析系统解决方案

行业现状

近些年来,电子产品已然成为人们日常生活中不可或缺的一部分,对人们的生活以及国民经济发展都产生了深远的影响,电子行业也抓住机遇随之获得了前所未有的蓬勃发展。作为电子产品的核心部件半导体同样发展前景非常可观,同时随着科技的不断发展,生产工艺的不断提高,在生产过程中的EDA(电子设计自动化)仿真模拟计算资源的需求随着半导体业的不断发展呈指数级增长。

EDA1

DRC: Design Rule Checking

数据来源:ElectonicDesign

EDA计算资源管理水准直接影响到资源(CPU、内存以及License)的使用效率,通过对集群的调度配置的优化可以得到20%以上的效率提升。而这将依赖于作业的监控、故障分析、容量以及报表分析来进行系统的配置的优化。

EDA2

而其他市面上的常见监控分析系统解决方案有,例如基于关系型数据库的,在大规模环境中的性能较差,不具备容错功能,而使用OLAP数据仓库的却对原始数据有损失,同时也不能灵活地产生报表,定制化成本较高。

需求分析

通过作业可视化来进行监控作业的运行状态分析,确保资源(如EDA工具许可证)高效使用。而当故障发生时,通过故障分析来发现问题的根源来指导用户快速定位和解决问题。在运营过程中,工作人员需要定期的报表来评估系统的服务质量,分析资源瓶颈,指导容量规划进行资源扩展。

EDA3

方案概述

EDA4

SkyForm Vision是天云软件的作业调度系统集中监控产品,实现了对集群内主机、任务、队列、项目等多种维度关键性能采集、报表展示、实时监控等分析监控功能,并可对集群和任务健康状态进行深度分析,为不同视角的用户提供了数据管理和辅助决策的功能。SkyForm Vision为管理决策者、运维人员以及应用管理员提供不同的用户视图来满足各自的业务需求。

EDA5

关键技术

(1)数据采集

根据大量客户的实践和反馈,我们支持丰富而重要的监控采集指标:

  • 作业细节
    • 提交的参数
    • 最新作业状态
    • 作业完成后的资源利用情况
  • 作业历史
    • 每分钟的作业资源使用情况: CPU利用率,内存利用率
    • 作业进程
  • 作业负载历史
    • 采集间隔最短为30秒
    • 通过队列,用户和用户组
  • 作业pending reason统计
  • 资源利用率和可用性
    • 软件许可证
    • CPU、内存、SWAP、/tmp等
    • 自定义资源
  • 支持多集群系统
  • 作业内存请求和实际使用对比
  • 软件许可证使用情况(许可证服务器、应用厂商、Feature、用户、主机和许可证使用数)
  • 存储使用情况
  • 其他系统资源使用情况

(2)监控图表

提供丰富内建的统计图表,并且还支持灵活的自定义报表和仪表盘。

  • 集群作业槽最大数和使用数
  • 集群作业等待、运行、挂起的作业槽数
  • 队列作业等待、运行、挂起的作业槽数
  • 前20个运行作业槽最多的用户
  • 前20个等待作业槽最多的用户
  • 队列内个用户作业槽等待和使用情况
  • 作业CPU、内存、SWAP和线程数统计
  • 单个作业的CPU、内存、SWAP的使用历史
  • 作业等待原因统计
  • 共享资源(如浮动许可证)可用统计
  • 主机CPU和内存使用统计
  • 主机作业运行、挂起情况
  • 主机/tmp、r15s、r1m、r15m
  • 主机可用定制资源统计

主界面集成实时监控、报表和作业管理查询等功能,如下图示例:

EDA6

主界面

EDA7

单项资源使用率

EDA8

作业资源使用量

EDA9

灵活的仪表盘

方案亮点

  • 充分利用最新大数据技术,支持多个集群的大环境,系统线性可扩;
  • 内建容错能力,不依赖于第三方容错软件或硬件;
  • 灵活的报表和分析能力,自由定义专属面板;
  • 与系统管理的web门户紧密集成;
  • 收集百余项源数据,多维度数据组合展示;
  • 紧密贴合作业调度系统,精准定位系统问题。

价值体现

  • 确保集群服务质量;
  • 量化资源规范和购置;
  • 缩短排错时间;
  • 提高集群管理效率和管理水准。

适用客户

  • 电子设计和制造公司的EDA集群;
  • 支持IBM® Spectrum LSF 9.x, 10.x。

成功案例——某顶级半导体设计和制造公司

该客户的研发中心位于上海、北京等多地。

客户需求:

  • 具有战略灵活性的监控和分析解决方案;
  • 增强的自定义报表以满足客户不断变化的业务需求;
  • 兼容现有集群管理软件;
  • 可支持多个集群。

解决方案:

  • SkyForm Vision和定制化服务;
  • 本地工程师支持。

客户收益:

  • 有效分析负载和许可证使用;
  • 降低TCO(软件许可和支持成本);
  • 高可扩,支持多集群。