资讯详情

Information for details

ZStack&趋动科技联合发布:提供AI算力资源池化功能的解决方案

近日,专注IaaS的产品化云厂商ZStack与领先的AI算力资源池化软件公司趋动科技(VirtAITech.com)宣布,推出提供AI算力资源池化功能的联合解决方案,该方案融合了ZStack Cloud云平台与趋动科技OrionX,双方产品优势互补,共同推动GPU资源池在私有云平台落地,将新一代的算力云平台推向更广泛的市场!

合作背景

新基建浪潮下,AI、5G、大数据中心、工业互联网等一起构成了新基建的核心领域。AI将逐步渗透到各行业,变得越来越“基础设施化”,AI加速器市场及GPU服务器市场规模相应水涨船高,以GPU、FPGA 等为主的AI加速器市场将迅猛发展。IDC发布的《人工智能基础架构市场(2019下半年)跟踪》报告数据显示:到2024年,中国GPU 服务器市场规模将达到64亿美元。

 

GPU 资源池化技术难点

AI产业的快速发展对GPU资源池化技术提出了更高要求,用户希望获得灵活调度GPU资源的能力,希望AI应用与GPU服务器解耦,并且能够远程调用GPU的资源,通过资源池优化GPU的调度使用等。

然而目前大部分用户使用GPU的方式仍然停留在直接使用物理GPU卡的阶段。在此情况下,传统云平台上使用GPU将面临诸多技术问题,比如无法远程调用GPU卡、仅能整卡透传给虚机、多虚机无法共享单张GPU卡、GPU资源释放必须关闭虚机等问题

 

提供AI算力资源池化功能的解决方案

OrionX提供GPU资源池化功能,是ZStack Cloud在GPU调度上的功能补充,可以灵活调用虚拟GPU资源,使得用户可以在私有云和混合云的环境中灵活使用GPU资源,帮助用户数据中心中的所有硬件资源实现云化管理。

 

OrionX典型应用场景

大模型如训练场景,对算力资源需求量大,通常会使用一张或者多张GPU卡资源,构建AI算力资源池,OrionX既可以支持单台服务器上的单卡,多卡训练,也可以支持跨设备的多卡训练。

小模型如推理、开发和教学实训等场景,对算力资源需求量小,通常不能占满一张GPU卡资源。作为AI算力资源池化平台,OrionX可以从算力和显存两个维度切分GPU,支持将多个小模型任务调度到一张卡,有效提高资源利用率。

· 通过“化零为整”功能支持训练

OrionX支持将多台服务器上的GPU 提供给一个虚拟机或者容器使用,而该虚拟机或者容器内的基于Horovod框架的AI应用无需修改代码。通过这个功能,用户可以将多台服务器的 GPU 资源聚合后提供给单一虚拟机或者容器使用。“化零为整”支持训练等大模型场景,为用户的 AI 应用提供数据中心级的海量算力。

· 通过“隔空取物”功能支持训练/推理场景

OrionX支持将虚拟机或者容器运行在一台没有物理 GPU的服务器上,通过计算机网络,透明地使用另一台服务器上的 GPU 资源,该虚拟机或者容器内的 AI 应用无需修改代码。通过这个功能,OrionX帮助用户实现了数据中心级的 GPU资源池,实现了AI应用和GPU物理资源的解耦合,允许用户的AI应用无障碍地部署到数据中心内的任意服务器之上,并且能够透明地使用任何服务器之上的 GPU 资源。消除了原有架构中CPU和GPU资源配置固定带来的配比限制问题。

“隔空取物”支持训练等大模型场景,既可以调取单台设备的多卡资源给容器或者虚拟机,实现类似单机多卡训练的场景;也支持调取多台设备的多卡资源给容器或者虚拟机,实现类似分布式多机多卡训练的场景。

“隔空取物”支持推理、开发和教学实训等小模型场景,可以调取单台设备的细颗粒度卡资源给容器或者虚拟机,将多个小模型应用调用到一张物理GPU中,并严格限制vGPU资源间的隔离,实现资源利用率最大化。

· 通过“化整为零”功能支持推理

OrionX支持将一块物理 GPU 细粒度切分成多块虚拟 GPU,然后分配给多个虚拟机或者容器。每一块虚拟 GPU 的显存和算力都能被独立设置和限制。通过这个功能,用户可以高效地共享 GPU 资源,提高 GPU 利用率,降低成本。

算力切分的最小颗粒度为原物理GPU算力的1%;显存切分的最小颗粒度为1MB。

· 通过“随需应变”功能支持训练/推理等多场景

OrionX支持用户在虚拟机或者容器的生命周期内,动态分配和释放所需要的 GPU 资源。通过这个功能,OrionX帮助用户实现了真正的 GPU 资源动态伸缩,极大提升了GPU 资源调度的灵活度。

OrionX vGPU支持资源按需分配,随用随取,最大限度的利用算力资源。不论是大模型训练,还是小模型推理的环境中,用户都可以按照AI模型需求,动态的调整算力资源大小,而无需重启挂载OrionX vGPU的虚拟机/容器。OrionX vGPU支持资源预留模式和获取模式,预留模式,和使用物理GPU类似,客户申请的OrionX vGPU是独占的,不可被其他用户使用;获取模式,客户申请的OrionX vGPU是动态的,只有在客户的AI应用运行时,OrionX vGPU资源才锁定到具体的物理GPU,一旦AI应用结束,物理GPU资源及时释放。

 

 

ZStack 创始人&CEO张鑫表示:“GPU虚拟化是推动私有云落地AI场景的关键举措,未来双方将紧密合作,实现算力的平民化,推动AI计算无处不在。“

趋动科技创始人&CEO王鲲博士称赞道:“ZStack与OrionX的联合解决方案为用户提供了更大的价值和更加灵动的任务处理能力,加速推动AI计算在私有云领域落地,助力行业客户聚焦自身业务发展与创新。”

 

延伸阅读

关于ZStack

ZStack(云轴科技)由阿里云、中国电信战略投资并战略合作,是一家自主创新、专注产品化的云计算公司,以“降低企业上云门槛”为使命、“让每一家企业都拥有自己的云”为愿景,具备自主知识产权、自主开源云代码、自主云平台三大优势。

凭借自研的ZStack Cloud、ZStack Mini、ZStack CMP、ZStack Cube、ZStack Ceph等产品,积极支持信创发展,全面适配信创生态,并最早提出云计算的4S特性,注重产品化,普惠云计算。历经多年发展,ZStack客户数和销售额逐年倍数增长,服务全球30多个国家和地区、100个行业场景、1200家客户。

面向新基建和信创发展契机,ZStack聚焦IaaS,携手阿里云、天翼云、飞腾、龙芯、华为、曙光、长城、安恒、麒麟软件、统信软件等200多家合作伙伴,共同为政府、电信、能源、交通、教育、制造业、医疗、金融、广电、互联网等众多行业客户提供安全可信的云产品和服务。

关于趋动科技

趋动科技于2019年成立于北京中关村高新技术园区,拥有专业的研发、运营和服务团队。趋动科技荣登WISE2020「新基建创业榜」最具成长性创业公司TOP20,趋动科技的OrionX猎户座AI算力资源池化解决方案荣获“2020新基建与行业创新应用优秀解决方案”、“2020智慧高校解决方案卓越奖”和“2020金麒杯年度金融行业最佳解决方案服务商”。

趋动科技致力于帮助客户构建高效的AI算力资源池,提升客户AI运维管理的效率和AI业务应用的效率。根据客户测算,OrionX猎户座软件可以每年提升50%的AI算法工程师人效、提升AI资源利用率3到8倍、让客户总体拥有成本下降80%。凭借标准化、可复制的产品架构,OrionX猎户座软件得到了包括互联网、金融、电信运营商和高校等大量行业头部客户的认可。