深度|超算上“云”不管你愿不愿意,它来了

目前越来越多的公有云开始提供高性能计算服务,我们从现在到未来预见高性能计算上云将是个势不可挡的趋势,基于以下几个理由:

 

0和1问题,就拿工业产品的设计制造来说,以前我们主要是逆向设计制造。但是随着时代的变化,我们产品的创新,提高质量和经济效益来说,我们越来越依赖于正向设计,而正向设计需要大量的建模和模拟仿真计算。这就需要大量的高性能计算。对于中小企业来说,构建传统的HPC基础设施是昂贵的,而且企业无法快速支撑HPC的需求爆发性的增长。所以超算云是帮助他们解困的必由之路。

 

传统云计算服务市场逐渐饱和,刺激各大云提供商的持续投入,终于让高性能计算上云不再只是少数传统玩家的专利。

 

随着科学技术的进步,原来的一些问题和障碍也会逐步得到解决,比如高速网络的成本价格会降低,适合HPC低消耗的容器技术被大量用在HPC的应用上。

 

在商业的HPC市场,应用软件的成本和硬件之比大约是7:3,这也是阻碍HPC上云的一大障碍,但是随着HPC应用大量开源软件的出现和国产化工业APP的发展,人们使用HPC的成本会大大降低,这将会激发更多的用户上超算云。

 

来自Market Research Future的《CloudHPC市场研究报告——及2023年预测》。

 

我们再来看看目前公有云发展所带来的一些优势,而这些往往受超算中心所不具备的。

 

规模:就拿中国市场来说,我们所有超算总节点数不超过10万,而云服务器总规模超过100万

 

可用规模:不同于超算中心模式,云计算中心的各个可用区之间是可以打通的,甚至还可以在不同云厂商之间通过API调用打通使用,这意味着云计算中心的可用规模约等于其总规模。超算中心对单个用户申请的资源上限进行严格审核,如国家超级计算长沙中心规定单个用户最多使用100个节点。云计算中心对于单个用户也有类似的限制,称为“服务配额”,但这是由商务模式决定的,不是由技术限制决定的,类似给用户发放信用卡一样,信用越高额度越大。

 

短时最大可调用规模:云计算的一大特色就是具备短时间内大规模调用海量计算资源的能力,这一能力已在各行各业经过了充分的验证。前不久,哈佛大学医学院在《Nature》发布了VirtualFlow开源药物发现平台,称利用该平台调用16万个CPU对接10亿个分子仅耗时约15小时,而使用1万个CPU则需要2周。

 

 

除了公有云对资源使用的规模和灵活性外,它还有其它方面的优势:

 

种类繁多的基础资源,云计算中心主要提供的是虚拟资源,用户能够享受到更为丰富的计算资源选择。如某公有云厂商的企业级云服务器ECS分为通用型、计算型、内存型、大数据型、GPU型、本地SSD型、高主频型、FPGA型、弹性裸金属九大类,其中每一种类型还可以选择与不同存储和网络的组合。

 

存储空间方面,可以选择20-500GiB不等的高效云盘或SSD云盘作为系统盘,单块数据盘最多则可配到32768GiB。网络带宽的选择范围也很大,用户可以选择“按固定带宽”和“按使用流量”两种带宽计费模式,前者的带宽值可选范围为1-200M,后者的带宽峰值可选范围为1-100M。

 

附加产品和服务:不同于超算中心,云计算中心的产品可以用玲琅满目来形容。这是因为云计算的服务对象要比超算客户广泛的多。

 

 

灵活的计费模式:相对于超算中心的机时计费或节点独占模式计费,云计算由a)预留实例,相当于批发,主要针对中长期稳定需求,优点是价格整体比较低,缺点是资源必须长期持有,灵活性差。b)按需实例:相当于零售,即买即用。针对短期弹性需求,按小时计费,灵活精准,避免浪费,但价格比较高。c)可被抢占实例,相当于秒杀,手快有手慢无。

 

所以很明显,超级计算和云计算相结合,为云计算市场和超算领域的市场注入了一股清新的潮流。优势互补是大家能够看到的希望。无论是中国国内还是海外主流云服务提供商都对HPC云给予了极大的热情,基于对云计算前景的乐观。HPC云早晚将成为云计算的一只耀眼的明星。

 

 

世界Top 5 超算云提供商(HPC in the Cloud):

第一名AWS,亚马逊从2006年以来一直提供HPC的云服务,在这个领域处于领导者地位。AWS主要提供具有无与伦比存储能力的IAAS解决方案。AWS可以让企业通过租用而不是购买有能力运行计算密集型的计算任务,使得客户节省大量的金钱和最大限度地减少浪费。

 

通过AWS,您能在数分钟内完成高性能计算集群的创建,并将并行HPC 任务的数量增加到大多数本地HPC 环境都无法支持的规模,从而提高研究速度并缩短获得成效的时间。AWS 可按需提供针对特定应用程序进行优化的CPU、GPU 和FPGA 服务器,有众多的服务器类型选择,无需巨额资金投入,从而帮助降低成本。您有权限访问面向紧密耦合、IO 密集型和存储密集型工作负载的完全等分的高带宽网络,这使您能够在数千个核心之间横向扩展,从而更快获得成效。

 

最初EC2服务被不适合运行HPC应用程序。就此,Amazon专门为HPC创立了“集群实例(Cluster Instance)”,根据用户需求可配置虚拟HPC集群实例提供给用户。他们的第一个产品是提供两个集群实例,提供了数量众多的CPU ,并配置了高性能的网络(10 GigE )。实例有两种规模的CPU核数,一是基于Nehalem 的4倍特大实例(8核/节点,23 GB RAM ,1.7 TB本地存储),另一种则是基于Sandy Bridge 的8倍超大实例(16核/节点,60.5 GB 的RAM ,3.4 TB 的本地存储)。

 

此外,Amazon 还提供了另外两个专门的实例。第一个是GPU集群实例,它提供了两个NVIDIA Tesla Fermi M2050 GPU ,具有比例较高的CPU 和10 Gi gE 网络性能。第二个是高I / O 实例,它提供两个基于SSD的卷,每个卷具有1024G 的存储空间。

 

根据资源的按需、计划或现货购买,定价可能有所不同。通常,按需EC 2 实例的成本如下:四倍超大实例是1.3美元/小时(0.33美元/核时)八倍超大实例是2.4美元/小时(0.15美元/核时),GPU集群实例是2.1美元/时,高I/O实例为每小时3.1美元。

 

因此,使用小型(80个核,每个核4 GB RAM ,500 GB存储)将花费每小时24.00美元(10 个8倍超大实例)。更大的使用情况(256 个核,每个核4 GB RAM ,1TB 快速全局存储)将花费38.4美元/小时(16个8倍超大实例)。

 

Amazon 对传输到EC 2 的数据不收取费用,但对从云中传输出去的数据收取不同的费用;此外,EC 2 存储成本也是存在的。因此,总成本取决于计算时间、总数据存储和传输。一旦创建了实例,就必须由用户提供和配置实例,使其作为集群工作。

 

 

第二名Google,如同AWS谷歌云平台也提供了IAAS方案,但是谷歌提供了非常特别的按-分钟计费模式。谷歌允许客户选择开源的Hadoop或则谷歌的Cloud dataflow 来处理和存储数据。谷歌具有竞争力的价格使它们能够吸引大公司和中小企业。

 

 

第三名微软Azure 为企业提供机时付费的HPC解决方案。微软的优势是在于那些微软的老客户,他们一直习惯于微软的产品和解决方案。Azure提供了易用平台来集成Windows系统来支撑HPC任务运行在云中。Azure为SAAS和PAAS客户提供量身定制的解决方案。

 

 

第四名IBM Spectrum计算允许用户从各种公共、私有或混合云基础设施中进行选择。为客户提供使用灵活的远程管理系统的机会。IBM为企业客户提供了许多开箱即用(out of box)的解决方案,包括IBM 高性能计算服务,高性能分析服务,IBM Spectrum等。IBM将这些软件包作为开箱即用的解决方案提供,而不是为企业客户创建可定制的解决方案。

 

 

第五名企鹅的Computing on Demand (POD)尽管企鹅是第一个建立真正HPC 云的厂商,但是在排名上只能在第五位。POD云,是第一个提供远程HPC服务的。从一开始POD 就是一个类似于内部集群的裸机计算模型。每个用户都有一个虚拟机的登录节点,该节点在代码执行中不起作用。标准计算节点有一系列选项,包括双四核至强、双六核至强或四核12核AMD处理器,速度范围从2.2至2.9GHz,每台服务器24至128Gb内存,每个节点最多1Tb的本地临时存储。

 

POD提供预装数百个应用程序的HPC集群服务。这样做的好处是,允许用户可以为自己量身定制HPC解决方案。Penguin 类似于IBM 提供这些开箱即用的产品,但是用户只为他们构建、管理和使用的套餐付费。

 

 

相对于云计算市场,高性能计算云相对比较晚,我们预计它在未来几年将以非常快的速度增长。上述公司只是市场上一些大公司的名单,并不是所有HPC云运营商的名单。我们可以看到未来几年会有更多的供应商将在一些狭窄领域上线提供服务。我们将看到由于竞争的增加导致更多服务提供商。

 

毫无疑问,我们会看到满足各种需求的HPC云,这样的选择范围差异很大。每个提供商都有自己的功能集,对用户来说最重要的一步是确保他们为自己的需求选择最佳的解决方案。
 

 

中国超算云提供商

 

IDC最新发布的《中国公有云服务市场(2020第四季度)跟踪》报告显示:2020年第四季度中国IaaS市场规模为34.9亿美元,阿里巴巴仍然占据市场份额第一的位置,华为与腾讯并列第二,中国电信和AWS位居其后,前五服务商共同占据77.4%的市场份额。

 

尽管没有直接数据说明中国公有云在高性能计算方面的排名,我们就简单按其公有云的市场排名来一一说明这些厂商在HPC云方面的情况

 

阿里E-HPC

自从阿里2017年9月,阿里云宣布推出全新一代异构计算加速平台称作E-HPC。阿里的EHPC提供的是机遇阿里自主的神龙服务器架构构建的裸金属服务器,这不同于AWS提供虚拟机的高性能计算集群。属于高性能计算的IAAS服务层次。2020年阿里云弹性计算产品年度发布会上,阿里云宣布推出第三代神龙云服务器,即第三代弹性裸金属服务器(ECS Bare Metal Instance),它是基于阿里云完全自主研发的下一代虚拟化技术而打造的新型计算类服务器产品,兼具虚拟机的弹性和物理机的性能及功能特性。

 

据介绍,《流浪地球》制作方MORE VFX(墨镜天合)已将算力需求最大的渲染环节迁上阿里云。传统的后期处理,对计算力的需求会随项目而变,低谷期利用率不高、高峰期资源无保障,且排队严重。为了解决这一问题,MORE VFX通过专线上云,利用阿里云高性能计算E-HP服务,在云端完成渲染,一天可以处理原本一周的量,大大缩短了渲染等待时间。

 

 

华为HPC云

华为云的产品线分为线上和线下,作为华为的高性能产品和解决方案以线下为主,也就是说以私有部署为主。其HPC解决方案面向汽车制造业、生命科学、金融领域、石油天然气、动画渲染、气象预测以及教育科研等行业,具备超强的计算能力、灵活高效存储以及极速的网络性能,在行业内具备多项唯一:

 

"唯一支持裸金属能力的厂家,裸金属服务无虚拟化损耗,最大规格达到96核4T。

"唯一支持100Gb的Infiniband网络的厂家。

"唯一提供基于Infiniband网络的Lustre高性能并行文件处理系统的厂家,单个OSS存储节点读写带宽均能达到4.5GB/s,最高达到2TB/s,目前业界性能最高。

 

除此之外,华为云HPC也正在与AI技术进行深度融合,提供更加创新的资源服务。AI让HPC实现更优化的资源分配和能源管理,HPC帮助AI实现更强大的算力,两者结合帮助企业从容应对机器学习模型训练不断增长的计算需求。华为云HPC搭载最强的NVIDIATeslaV100GPU加速卡,应用于AI训练领域,其训练性能比上一代P100卡提升3倍多。

 

目前,华为云HPC解决方案已在汽车制造、基因测序、科研教育等领域为客户成功部署了云上的高性能计算资源。其中汽车制造行业,国内已有多家"财富"500强车企选择基于华为云建设HPC资源,用于新车仿真测试。

 

除了聚焦于自身技术能力的建设,华为云HPC解决方案将持续与行业领先的厂家进行合作,如达索系统、ESI、ANSYS等,双方进行联合测试、基于客户需求进行产品调优,未来,将为行业客户提供最符合自身需求的解决方案。

 

 

腾讯超算云

腾讯超算云提供了集合黑石物理服务器、云服务器(CVM)、存储、网络、批量计算(Batch)、深度学习DI-X平台等优势产品的云端高性能计算解决方案。其有三大特点:

 

快速可获取:用户可即时获取HPC资源并快速扩容,可通过HPC PaaS平台按小时购买,也可按月、按季、按年租用专属HPC集群,减少了集群的建设周期,也不用一次性巨额资金投入。

 

资源灵活配置:使用者可以根据应用需求创建各种配置的HPC 群集,比如减少GPU服务器配比,增加FPGA服务器等。同时还能在技术革新后,即时使用到换代机型,用户不用再受限于HPC资源,加快研发速度,节约研发成本。

 

高性能硬件:腾讯超算云采用基于英特尔至强可扩展处理器定制机型的黑石服务器,并针对HPC应用进行专门优化,高性能无虚拟化开销。同时提供包括NVIDIA P100/V100 GPU机型、FPGA机型等在内的各种异构计算机型,加速多机并行应用,让应用享受最新的硬件加速。

 

同时,腾讯超算云专门为HPC集群设计了高可用高带宽和可扩展性强的网络架构,大幅提升网络性能。其中,腾讯超算云提供40GE/100GE的RDMA网络,延时小于1.5us,还能兼容基于MPI的传统HPC应用;并提供GPUDirect RDMA功能,使多机多GPU之间的带宽和延迟性能得到大幅度提升。

 

此外,为了应对高性能计算对存储的高标准需求,腾讯超算云提供文件存储CFS和高性能并行文件系统,其中腾讯云并行文件系统基于腾讯分布式存储架构,能提供TBps级的吞吐带宽和EB级文件系统。

 

基于优势基础能力,腾讯超算云还针对工业制造(CAD/CAE、碰撞、材料模拟等)、生物基因和人工智能等场景推出基于业务流的PaaS平台和行业应用的集成,让客户在使用高性能计算服务时专注产品研发和创新,无需关注底层集群和调度系统,提升产品研发效率和上市速度。

 

 

超级计算机将向云靠拢

 

当人们遇到一个大到一台计算机处理器无法处理的难题时,他们会怎么做?无外乎是超级计算机或分布式计算方案,或者云计算方案。

 

甭管是超算方案还是云方案,应用肯定需要多处理器了共同完成一个任务。

 

一台计算机包含处理器和存储器。从本质上讲,处理器执行指令,存储器保存数据和指令。对于一个简单的基础计算,或许一台计算机,一个处理器就够了。但是如果要处理许多不同的变量或大型数据集,显然一个处理器是不够的,我们需要额外的处理器来解决问题。我们现在有越来越多的场景需要使用大量的计算资源,比如实时天气预报,航空航天和生物医学工程,核聚变研究和核储备管理等等。

 

 

面对这些问题的求解,人们需要更复杂的系统,可以更快和更有效地处理数据。为了实现这一点,人们在一个系统里集成了成千上万个处理器。

 

如果要采用多处理器方式,我们有二种选择,一个是超级计算机。超级计算机非常大而且昂贵。在这种方案中,计算机与其所有的处理器位于同一位置,所有的东西都通过本地网络流动。另一个选择在一个广域网或互联网上集成各种处理器,称之为分布式计算。这也是当下广泛被接受的云计算模式,处理器可以位于不同的地理位置,所有通信通过互联网或广域网。

 

那么我们是采用超算还是云计算?

由于数据在超级计算机的处理器处理得如此之快,同一任务可以一台超级计算机上计算没有任何问题,这非常适合那些需要实时处理的应用程序。缺点是它们的成本往往高得令人望而却步。它们由昂贵的处理器、快速内存、特别设计的组件和精心设计的冷却机制组成。另外扩展一台超级计算机并不容易:一旦机器建好,加载额外处理器就不是个简单任务,这需要启动一个项目来完成它。

 

相比之下,人们选择云的分布式计算的一个原因是它的价格要便宜得多。分布式网络的设计可以非常复杂,但硬件组件和冷却不需要是高端的或专门设计的。它可以无缝扩展:随着额外的服务器(及其处理器)被添加到网络中,处理能力也会随之增长。相比较于超级计算机的优势在于通过快速连接短距离发送数据,云计算的分布式架构下数据是通过较慢的网络传输的。所以云计算架构不适合传统意义上的高性能计算类应用,比如那些MPI类的应用。

 

 

显然超算和云不是零和博弈,不同的应用场景决定了那种方式更有性价比。

 

比如新郎新娘过几天要结婚,除了选择黄道吉日外,他们还要对婚礼当天的天气非常关注,然而看似简单的问题,其实回答它并不是个简单问题。天气预报是极其复杂和众所周知的难以预测。

 

一般气象局使用超级计算机来进行天气预报处理,为了正确地确定某一地区的天气可能如何演变,超级计算机将模拟大数据,包含温度、风、湿度、气压、阳光等随时间变化的巨大数据集。为了实时得到合理准确的答案,您必须非常快速地处理所有数据。我们一般认为想要实时更新天气预报,那么使用超级计算机是必要的,但是问题是如果这里有数百万的实时应用在等待中,该怎么办呢?

 

我们就不得不说云计算的优势了,作为分布式计算机系统,云拥有一台超级计算机所不具备的巨大数量的处理器和内存。所以对于那些对延迟不那么敏感的应用,使用云计算是个解决办法。例如,当美国宇航局的喷气推进实验室(JPL )需要处理其火星探测器收集的大量图像数据时,托管在云上的计算机集群是一个天然的好办法

 

 

云作为分布式计算的一种形式,云计算又定义的计算资源的提供方式是一种服务,这意味着云厂商为这种分布式计算环境的性能,可靠性,可弹性完全负起了责任。

 

也就是说用户使用这些资源不再需要维护,更新,扩展。这些都有云服务商做了。

 

在了解了云计算和超级计算的区别,我们来看看一个云计算作为超级计算机的用途案例(引用David Stepania在其linkin的文章“Supercomputing vs. Cloud Computing“ )。

 

金融分析师布拉克斯顿·麦基(BraxtonMckee)身处华尔街竞争激烈的世界。作为对冲基金Ufora的创始人,McKee开始在云计算领域进行探索,他知道云的计算能力和其广泛使用的技术是前所未有的。他开发了一套智能应用程序,该程序可以随着使用而变得更加聪明,Mckee创建的电子表格有多达100万行和100万列!而这个计算传统上需要超级计算机或者至少是大型计算机来运行,现在靠云就可以以低廉的成本运算出来,这得益于这些应用属于大数据的特点适合云计算。

 

Kelly Bit. Rather解释说:“他们的努力值得注意的不是人工智能技术从科幻小说到具体落地的事实。”而是,“令人吃惊的如此庞大的数据分析变得如此廉价,以至于许多企业都很可以负担得起。”

 

人工智能和机器学习已经被一些对冲基金使用多年了。如今,Ufora和类似的组织正在使用云来运行复杂的预测模型,否则这些预测模型将非常昂贵。

 

以前,McKee使用的计算系统将需要几个月的开发和100多万美元的服务器投入。现在,他只需访问云服务器可立即运行应用处理这些数据即可。

 

与专用计算相比,云计算在数据分析问题的速度要快得多,因此Mckee的目标--让计算机在他片刻休息的时间内就能完成其工作--听起来很有道理。Bit说:“他的目标是让每一个模型--不管涉及多少数据--都能在他的办公室厨房里煮一杯Nespresso Caredto咖啡,然后走他的办公桌的时候计算就能完成。”这听起来很酷?

 

 

在人工智能的机器学习方面,云计算也大有可为。人们已经认识到使用公共云运行复杂的算法变得更加可能--更有效率,也更经济。反过来,人工智能行业正在蓬勃发展。看看彭博社(Bloomberg)有关风险资本对人工智能的信心的数据就知道了:

 

风险投资人工智能初创企业总数2014年16家,总投资3亿美元,  2010年2家总投资1500万美元,你可以看到云的兴起导致了人工智能投资的快速推进。一般认为从事机器学习的公司专长在人工智能的算法,其实拥有样本大数据和样本数据分析的能力才是最重要的。相对于封闭的系统,云上的大数据分析能力就像开通一台虚拟机一样简单:它是即时的。正因为如此,基本上每个人都能获得非常强大的预测模型。

 

而对于传统科研教育的超级计算机而言,向云方向移动开始显现。当我们讨论超级计算机和云的超级计算机潜力时,我们真正谈论的是高性能计算(HPC)的日益增长的价值和可访问性。大学和私人公司的研究人员需要高性能计算机,他们正求助于公有云来提供这种服务。

 

Idc的研究员史蒂夫康威(Steve Conway)表示,使用云服务的hpc的可能性有点令人难以置信。贝宝(PayPal)通过在高性能HPC环境下运行,节省了7亿美元。

 

IDC的预测显示,高性能计算在这十年将继续稳步的大幅度增长:

 

2018年高性能计算机硬件和软件分别是147亿美元和290亿美元,而2013年分别是103亿美元和200亿美元

 

公司转向使用高性能计算是为了更好地管理大数据任务。这些系统现在对许多科学家、制药研究人员、工程师,甚至是情报界来说都是必不可少的工具。对于那些数据密集型的应用正从超级计算机转向云。

 

 

数据中心专家ArchanaVenkatraman举了一家美国公司的例子,该公司“想要建造一台15.6万核心的超级计算机,用于分子建模,以开发更高效的太阳能电池板。”为了实现这一目标,该公司利用了云的广泛分布的资源特性,将跨多国的资源联系来作为一台超级计算机系统来使用。为了完成这个项目,该公司总共运行了1.21千兆字节,处理了205,000种可能的太阳能电池板材料的数量。通过云计算将原来需要264计算机年(一台普通计算机需要运行264年)浓缩成18个小时,该公司实际上创造了全球排名前50位的超级计算机之一,而无需组装任何物理部件。

 

云是总望所归

云本质上是将高性能计算大众化。这对于那些以前无法使用超级计算机的人来说是个好消息。在超算在与云厂商合作之前,超算中心就不是个分布式架构,而是集中式的建设大型机,集中存储和以太网网络技术。这种架构导致了超算不真正的100 %高可用。比如超算中心断电了,一切将会瘫痪,有了云情况就不同了,一个数据中心断电了,其他地方的数据中心可以继续为客户提供服务。

推荐阅读 

在线咨询 MESSAGE

姓名 *

电话 *

邮箱 *

咨询意向 *

公司名称

所属行业

需求概述 *