腾讯云:把GPU分开卖是黑科技吗?
雷锋网 (公众号:雷锋网) AI开发者按,1999年,NVIDIA 公司发明了GPU(Graphics Processing Unit,图形处理器),优异的图形处理表现让它艳惊四座。
近年来,GPU在大规模并行运算上的巨大优势,让其成为大数据、AI以及图形图像处理等场景下不可或缺的计算引擎。
然而,一直以来,囿于GPU切分难度较高,用户不论是购买GPU硬件,还是购买GPU云服务,都只能整块购买。这样有两个结果:
1. 使用门槛较高。GPU相对CPU价格较贵,一块超级计算类GPU价格更是高达好几万,个人开发者使用门槛较高。
2. 资源浪费。在算力需求较小的时候,一整块GPU卡无法满负荷运行,造成算力浪费。
今天,这种局面看起来被打破了,腾讯云正式对外发布基于 NVIDIA T4 的虚拟GPU(vGPU)计算产品GN7实例,可以为任意AI工作负载提供支持。
因此,用户可以在云上买到规格更小的GPU计算产品,可以降低用户使用GPU的成本并增加灵活度,对一些小规模算力场景的人工智能研发有非常大的帮助。
广泛适用不同AI场景
凭借强大的计算能力和弹性能力,GN7实例在海量数据处理和人工智能领域都具有广阔的应用价值。它既可以满足诸如搜索、大数据分析等需要对海量数据进行处理的业务场景,也可以作为深度学习训练和推理的系统平台。
GN7实例的虚拟化特性,也十分适合互联网业务中人工智能业务的批量部署以及云游戏,AR/VR在云端的应用。
目前,GN7实例已经在腾讯云自有的智能钛弹性模型服务(TI-EMS)上实现了应用。该平台通过使用vGPU做小模型推理,帮助用户解决复杂模型部署和GPU利用成本效益等问题。
基于多精度支持,NVIDIA T4拥有可加速深度学习训练和推理、机器学习以及数据科学工作负载的 Tensor Core,以及丰富的平台堆栈,包括用于深度学习的cuDNN、用于数据分析和机器学习的NVIDIA RAPIDS、用于云工作站图形的NVIDIA Quadro虚拟工作站和用于云游戏的NVIDIA游戏软件。结合用于GPU虚拟化的 vComputeServer软件,腾讯云客户可以灵活选择在虚拟环境中运行GPU加速的工作负载,从而在提高安全性和利用率的同时降低成本。
进一步降低成本
GN7实例降低了GPU加速的初始投资成本,NVIDIA vComputeServer软件通过对NVIDIA T4进行虚拟化,使多台虚拟机(VM)可以同时访问GPU或者使一台虚拟机可以访问多颗 GPU,从而实现性能的最大化。因此,腾讯云用户可以根据工作负载的需求灵活选择对应的GPU加速量。
比如在进行简单模型推理这一类低算力需求的应用时,用户无须再像以往必须使用单颗物理GPU,而是可以根据自身业务具体类型对GPU算力的需求,灵活选择匹配的vGPU资源,提升了计算资源的利用率,从而有效降低用户的使用成本,避免因配置不足或配置过度而产生成本。比如,通过使用1/2 vGPU实例规格,成本相对单卡实例降低了50%。
相比过往进程级别的虚拟化GPU,GN7的升级点在于其提供的设备级虚拟化vGPU是完全模拟出来一个GPU设备,在支持GPU硬件的绝大多数特性的同时,还能够做到操作系统级别的隔离,而且不同的用户使用也不用担心资源争抢的问题。
不过,关于虚拟化GPU的技术,AI开发者也采访了一位业内资深技术人士,该人士表示,这个vGPU技术其实并不难,华为、阿里也都有类似的。当然,腾讯云和NVIDIA的深度合作还是有一定卖点。
AI开发者获悉,下周在苏州举办的GTC大会上,腾讯云将会演示NVIDIA GPU加速的云服务,并介绍如何从云端部署AI工作负载。
。