1、关于GPU我有话说。 现在在国内能提供P100云主机的厂商有三家,阿里云、天翼云、还有华为云。阿里云在去年7月30日左右抢先华为云一个月发布了P100实例,并且现在能够开放购买。华为云还在公测阶段,需要申请。到底谁才有真功夫,可以通过一系列的对比来一探究竟。这次我用NVIDIA提供的一些CUDA sample对比了一下GPU的基础能力。天翼云我搞不到GPU云主机,就先看看华为云和阿里云的。首先,我们在华为云选择公测的P1双GPU实例,在阿里云选择GN5双GPU实例,两个实例的cpu规格和内存规格接近,都提供两张P100 GPU。
2、阿里的云主机信息见下图:
3、华为的云主机信息见下图:
4、用bandwidthTest看看GPU带宽,这个工具是NVIDIA的CUDA开发包里提供的sample,能够测试GPU到主机,主机到GPU的传输带宽。下面我们来看看阿里云和华为云在这一回合的较量结果。可以从下面的图上看到,在显存带宽上,阿里云和华为云的几乎持平不分伯仲。在p2p时延上,阿里占优一些。但在GPU p2p带宽上,单向带宽华为比阿里高33%,双向带宽华为是阿里的2.5倍。阿里的p2p带宽和非p2p带宽竟然几乎一样。阿里虚拟化以后的损耗太大了,完全制约了P100的能力。
5、GPU p2p就是所说的GPU direct技术,能够极大提高GPU之间的数据传输效率,最终能够极大提升需要大数据量传输的属蟓彩瘵业务性能。我查阅了一下公开资料,Amber在GPU p2p下性能能够提升151%。深度学习训练过程中,各节点之间也需要大量的数据传输,我没有找到公开的资料,相信在这个场景下也能够提升非常多。从GPU p2p的能力来看,在需求多GPU p2p的业务场景下,华为云的GPU云主机性能应该能够碾压阿里云。以后有时间我会用业界流行的一些HPC测试工具对比一下计算能力;用tensorflow的benchmark工具测一下真实的业务处理能力。