在vSphere平台下安装vGPU驱动之前需要打开ESXi的SSH服务,方便来传输vib驱动安装包以及后面一些命令行的操作。

ESXi需要加入vCenter,vGPU相关的一些配置都需要在vCenter下来修改。

img

使用WinSCP把驱动压缩包中Host_Drivers目录下相关文件传到ESXi的/tmp目录下,根据驱动版本不同,文件夹下文件也不同,对于目前的长周期支持分支vGPU 13.x(ESXi 7.0 推荐使用,不支持ESXi 8.0),Host_Drivers仅有一个NVD-VGPU开头的驱动包,对于最新的产品分支vGPU 15.x及之后(支持ESXi 8.0) ,还会有一个nvd-gpu-mgmt-daemon开头的文件,Host_Drivers下的NVD-VGPU开头的驱动zip文件不需要再次解压,请把文件直接拷过去。

对于nvd-gpu-mgmt文件,在最新的15.3版本中做了2次打包,所以nvd-gpu-mgmt-daemon_525.125.03-0.0.0000_21816754-package.zip这个文件需要解压,然后把解压得到的nvd-gpu-mgmt-daemon_525.125.03-0.0.0000_21816754.zip文件拷过去,注意我们需要的安装文件是不带package结尾的,之前的版本如15.2不用解压直接拷过去就行,最新16.0版本驱动也直接可用,总之,安装之前先检查一下。

安装驱动之前先检查一下GPU是否被正常识别到,SSH到ESXi,使用命令:lspci | grep NVIDIA 来检查。

img

确保相关文件已经传到/tmp目录下,然后使用esxcli命令进行安装,注意ESXi主机需要处于维护模式,可以在网页图形界面上修改(推荐),也可以用命令行:

esxcli system maintenanceMode set --enable true

主机进入维护模式以后开始安装驱动,

对于vGPU 13.x:

esxcli software vib install -d /tmp/NVD-VGPU*.zip

对于vGPU 15.x及之后:

esxcli software vib install -d /tmp/NVD-VGPU*.zip
esxcli software vib install -d /tmp/nvd-gpu-mgmt-daemon*.zip

对于ESXi 7.0及之后的版本,也可以使用:

esxcli software component apply -d /tmp/NVD-VGPU*.zip
esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip

component apply命令同样适用于升级,命令与安装相同,区别是升级驱动之前需要停止nvdGpuMgmtDaemon服务:

/etc/init.d/nvdGpuMgmtDaemon stop
esxcli software component apply -d /tmp/NVD-VGPU*.zip
esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip


等待几分钟,安装成功以后会有提示信息,可能在安装信息中提示不需要重启,但是强烈建议重启一下主机来验证驱动是否正常,有碰到过重启以后驱动报错的情况。

重启完主机以后使用 nvidia-smi 命令来验证驱动是否正常,正常情况下能看到类似如下信息:

img

特别注意2点:1、ECC模式是否显示off 2、默认情况下vSphere会使用vsga模式,而不是vGPU模式,所以能看到最下面xorg条目,这个我们后面改。

在部分时候,特别是使用全新的GPU,可能会看到nvidia-smi信息里面ECC区域不是off状态,而是0,这说明你现在的ECC是启用的状态,并不是所有vgpu都可以使用ECC,如果你不能确认你的环境是否需要启用ECC,那建议先关闭ECC。

img

使用命令来关闭ECC,注意,启用或者关闭ECC都需要重启主机。

nvidia-smi -e 0

img

更多关于ECC的信息,请参考:

https://docs.nvidia.com/grid/latest/grid-software-quick-start-guide/index.html#disabling-enabling-ecc-memory

主机驱动全部配置完成以后就可以退出维护模式(同样可以通过图形界面操作):

esxcli system maintenanceMode set --enable false

最后我们还要改一下主机图形设置,登陆vCenter,定位到主机-配置-图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享“才能使用vGPU。

2种GPU分配策略,在有多个GPU的时候生效。

默认最佳性能模式,会在所有可能的GPU上去运行虚拟机,即VM1运行在GPU1、VM2运行在GPU2,以此类推,尽可能平均的分布虚拟机,不会让GPU闲着。

GPU整合模式,会在一个GPU核心上运行先启动的虚拟机,直到当前GPU没有资源才会去使用下一个GPU核心,这个模式多用在同一台服务器上运行多个vGPU profile的情况下。

img

除了主机的图形选项,针对每个GPU也都可以单独设置共享模式,第一次使用需要在这里再切换一下,主要是需要重启xorg服务来改变配置,不同vSphere版本界面可能不能,部分早期版本需要手动重启xorg服务。

img

更改成功以后就没有xorg条目了,可以开始使用vGPU了!

img

Last modification:July 10, 2023
如果觉得我的文章对你有用,请随意赞赏