vRA 7.3环境扩展 (Part 1)

Multi-cloud-220x105
作者:Nikolay Nikolov  翻译:李崇民 假设你是一个不喜欢浪费资源的人,你会在条件允许时乘坐公共交通或者电动车,你会对垃圾进行分类,只在必要时才购买新的登山装备,总是随手关掉浴室的灯,与此同时,你也确实喜欢虚拟基础设施所带来的可扩展特性。即便你只是喜欢“按需增长”这个概念,那么这篇博客也是适合你的。说句题外话,如果你还没开始这么做的话,你确实应该考虑乘坐公共交通并对垃圾进行分类。 基于高可用性(HA)的考虑,vRA的部署大多属于分布式部署。然而,在达到冗余需求的同时,这样的环境浪费了太多的资源,因为这些环境几乎很少会遇到性能不足的问题。如果你已经搭建了vRA,然后在某个时间点你了解到系统的真正需求只是很多的Windows虚拟机,各种各样的应用和外部数据库。这种情况下你其实并没有高可用性的需求,因为容灾方案其实已经覆盖了高可用的需求,或者你只是需要搭建一个概念验证(POC)系统,这时你完全可以从搭建“单节点分布式环境”开始起步。这是一个在vRA 参考环境中经过简化的配置图: 可以看到,我们只有一个节点来对应于每个角色(管理服务器,DEM和代理甚至合并在一个服务器...
More

深度学习简介及支撑深度学习的解决方案

OLYMPUS DIGITAL CAMERA
■文/天云软件 CTO 牛继宾  天云软件技术开放日沙龙分享已圆满落幕,近几天已陆续放出沙龙期间技术大牛们的干货分享现场实录及相关文件,感谢关注。此文为第4篇,也是最终篇,其余几篇干货分享实录请点击文章末尾相关阅读获取。由天云软件CTO牛继宾给大家带来名为“深度学习简介及支撑深度学习的解决方案 ”的精彩分享,以下为演讲实录。   牛继宾:谢谢大家留在最后和我做一个技术交流。首先是深度学习,是依赖于最早的神经网络。神经网络是什么概念?我输入一组数据,基于每个节点的预算,会最终输出数据,比较常见的是做类似于分类,类似于识别,用得最多的是语言识别,图像识别等。传统的神经网络只有三四层,精度比较低,基本上应用在工业上比较难,深度学习相比,有了更多隐层(hidden Layer)。 首先介绍一下GPU,这个图介绍了GPU和CPU的分别,一颗CPU大概是8个核或者12个核。普通的X86服务器,两颗CPU,基本上是24核,GPU不一样,一颗GPU有上千个核,你一旦把运算放在上面有上千个线程并发计算,特别适合有多个隐层,多个参数计算的深度学习神经网络算法。除了核特别多,CPU往往不会一直在...
More

企业级云管理平台的架构实现与落地实践、趋势分析

OLYMPUS DIGITAL CAMERA
 ■ 文/ 天云软件 产品总监 马俊  4月23日天云软件技术开放日已圆满落幕,接下来几天将陆续放出沙龙期间技术大牛们的干货分享现场实录及相关文件,敬请关注。此文为第一篇,由天云软件产品总监马俊带来的IaaS专题:企业级云管理平台的架构实现与落地实践、趋势分析,以下为演讲实录。 马俊:我给大家介绍一下云管平台,OpenStack现在比较流行,企业级客户IT架构在OpenStack上会有一个云管的平台,整个业界对云系统建设也都是怎么认识的。 我们看其实最下面有一个虚拟化的层,这里面有Vsphere、KVM、XenServer,然后在上面技术架构层上发生了变化,最开始从Vcenter逐渐发展成OpenStack,我们发现需要个云管平台,这个平台把底下的不同技术架构进行统一管理,整个业界也都是按照这个层次来进行IT系统建设。现在OpenStack比较流行的,企业用户上了OpenStack以后,在CMP上的需求就出来了,单单通过OpenStack或者vCenter这样的技术架构是不能解决用户在管理上的需求的。 我们看一下企业级云管理平台的架构,这是我们的架构,核心是CMDB和调度,...
More

专题四:分布式机器学习的集群方案介绍之HPC实现

专题封面1
■ 文/ 天云软件 系统架构师 李崇民 伴随着人工智能技术的发展,尤其是深度学习的兴起,许多之前机器学习领域的问题与难点逐步的得到了解决,训练效率与学习准确率都得到了质的提升。深度学习的实现,需要多种技术进行支撑,比如服务器、GPU、集群、集群管理调度软件、深度学习框架、深度学习的具体应用等。我们把这些技术进行归类,认为服务器、GPU、分布式集群、集群调度管理软件等作为深度的学习的系统支撑平台,也是机器学习领域的必备技术。天云软件作为国内较早做云计算、分布式集群计算、集群调度管理软件等的公司,在机器学习系统支撑平台上也有自己的独特的理解与实现。因此,本次分享将作为一个系列,内容罗列如下: 第1篇:深度学习简介,GPU计算的原理,分布式机器学习原理(to see ); 第2篇:分布式深度学习的两种集群管理与调度的实现方式简介(to see see );  第3篇:分布式机器学习集群方案介绍之基于Kubernetes的GPU调度(to see see again) ; 第4篇:分布式机器学习的集群方案介绍之HPC实现。 本次介绍第4篇—分布式机器学习的集...
More

专题二:分布式深度学习的两种集群管理与调度的实现方式简介

专题封面1
■文/天云软件 CTO 牛继宾 伴随着人工智能技术的发展,尤其是深度学习的兴起,许多之前机器学习领域的问题与难点逐步的得到了解决,训练效率与学习准确率都得到了质的提升。深度学习的实现,需要多种技术进行支撑,比如服务器、GPU、集群、集群管理调度软件、深度学习框架、深度学习的具体应用等。我们把这些技术进行归类,认为服务器、GPU、分布式集群、集群调度管理软件等作为深度的学习的系统支撑平台,也是机器学习领域的必备技术。天云软件作为国内较早做云计算、分布式集群计算、集群调度管理软件等的公司,在机器学习系统支撑平台上也有自己的独特的理解与实现。因此,本次分享将作为一个系列,内容罗列如下: 第1篇:深度学习简介,GPU计算的原理,分布式机器学习原理(点进去看看); 第2篇:分布式深度学习的两种集群管理与调度的实现方式简介;  第3篇:分布式机器学习集群方案介绍之基于Kubernetes的实现 第4篇:分布式机器学习集群方案介绍之HPC实现  本次介绍第2篇—分布式深度学习的两种集群管理与调度的实现方式简介 为什么需要集群管理与调度 上文我们简单介绍了深度学...
More

专题一:深度学习简介,GPU计算的原理,分布式机器学习原理

专题封面1
■文/天云软件 CTO 牛继宾 伴随着人工智能技术的发展,尤其是深度学习的兴起,许多之前机器学习领域的问题与难点逐步得到了解决,训练效率与学习准确率都得到了质的提升。深度学习的实现,需要多种技术进行支撑,比如服务器、GPU、集群、集群管理调度软件、深度学习框架、深度学习的具体应用等。我们把这些技术进行归类,认为服务器、GPU、分布式集群、集群调度管理软件等作为深度学习的系统支撑平台,也是机器学习领域的必备技术。天云软件作为国内较早做云计算、分布式集群计算、集群调度管理软件等的公司,在机器学习系统支撑平台上也有自己的独特的理解与实现。因此,本次分享将作为一个专题系列,本文为第一篇。 专题内容罗列如下: 第1篇:深度学习简介,GPU计算的原理,分布式机器学习原理;  第2篇:分布式深度学习的两种集群管理与调度的实现方式简介;  第3篇:分布式机器学习集群方案介绍之基于Kubernetes的实现 第4篇:分布式机器学习集群方案介绍之HPC实现   深度学习简介 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度...
More

喜讯!“一种基于云平台的分布式可扩展资源监控系统”获得发明专利授权

发明专利封面图
  近日,由北京天云融创软件技术有限公司作为专利权人申请的“一种基于云平台的分布式可扩展资源监控系统”正式获得发明专利授权,专利号:ZL201410838425.X。   本发明涉及一种基于云平台的分布式可扩展资源监控系统及方法,包括用于存储目标监控对象配置信息的监控对象数据库,用于根据目标监控设备信息组件采集任务,将采集任务分配给采集服务器,同时维护所有采集服务器的状态和性能的采集管理节点;用于监控采集任务的调度,采集插件的管理以及对采集结果数据的存储的采集服务器;用于存储采集服务器的注册信息及状态信息的管理节点数据库;用于存储采集服务器采集的数据的性能数据库。本发明为用户提供精确、实时的监控数据,用户通过对监控数据的分析,可以迅速感知到系统资源是否能够支撑当前业务需求或存在过度冗余,从而达到业务稳定运行和资源最大化利用的目的。 天云软件作为国内一家致力于云平台软件研发、云系统构建、云计算行业解决方案提供及云运维服务的创新型科技公司,一贯注重自主研发、重视知识产权的建立和保护。目前,公司仍有13项发明专利处于受理阶段,主要集中在资源调度、异构管...
More