配置NVIDIA IMEX服务
最近更新时间:2026-02-05 16:58:55
操作场景
在以下情况下配置NVIDIA IMEX服务:
- 多节点GPU训练:在多台GPU服务器上运行分布式深度学习训练
- GPU集群扩容:向现有GPU集群添加新节点并配置互联
- 互联重新配置:在机架拓扑变更或IP地址修改后更新IMEX配置
前置条件
在配置NVIDIA IMEX服务前,请确保:
- 多台裸金属服务器已部署在同一机架中
- 所有节点均已正确安装NVIDIA GPU驱动(通过
nvidia-smi验证) - 所有节点均已安装nvidia-imex软件包(通过
systemctl status nvidia-imex验证) - 您可以SSH访问机架中的所有服务器
- 您在所有服务器上拥有sudo/root权限
操作步骤
第一步:查看Rack信息和服务器IP
- 登录 Bitdeer AI Cloud 控制台
- 导航至 计算 → 裸金属服务器
- 点击 Rack信息 入口,查看同一机架下的所有服务器
- 记录需要配置的服务器的内网IP地址
第二步:通过SSH密钥连接到服务器
- 打开终端或SSH客户端
- 使用SSH密钥认证连接到服务器:
ssh -i /path/to/private_key root@<内网IP>示例:
ssh -i ~/.ssh/id_rsa [email protected]第三步:配置IMEX服务
- 打开IMEX节点配置文件:
sudo vim /etc/nvidia-imex/nodes_config.cfg- 添加所有需要互联的服务器内网IP地址,每行一个:
192.168.1.10
192.168.1.11
192.168.1.12
192.168.1.13- 保存文件并退出编辑器
- 重启nvidia-imex服务:
sudo systemctl restart nvidia-imex.service- 验证服务状态:
sudo systemctl status nvidia-imex.service- 验证所有节点已被发现并连接:
nvidia-imex-ctl -N
注意:
- 配置中需包含所有服务器IP,包括当前服务器自身的IP
- 机架中的每台服务器应有相同的
nodes_config.cfg文件 - 在机架中的每台服务器上重复 第二步 和 第三步