Skip to main content

用户指南

配置NVIDIA IMEX服务

最近更新时间:2026-02-05 16:58:55

操作场景

在以下情况下配置NVIDIA IMEX服务:

  • 多节点GPU训练:在多台GPU服务器上运行分布式深度学习训练
  • GPU集群扩容:向现有GPU集群添加新节点并配置互联
  • 互联重新配置:在机架拓扑变更或IP地址修改后更新IMEX配置

前置条件

在配置NVIDIA IMEX服务前,请确保:

  • 多台裸金属服务器已部署在同一机架中
  • 所有节点均已正确安装NVIDIA GPU驱动(通过 nvidia-smi 验证)
  • 所有节点均已安装nvidia-imex软件包(通过 systemctl status nvidia-imex 验证)
  • 您可以SSH访问机架中的所有服务器
  • 您在所有服务器上拥有sudo/root权限

操作步骤

第一步:查看Rack信息和服务器IP

  1. 登录 Bitdeer AI Cloud 控制台
  2. 导航至 计算裸金属服务器
  3. 点击 Rack信息 入口,查看同一机架下的所有服务器
  4. 记录需要配置的服务器的内网IP地址


(desc: 在控制台中查看Rack信息和服务器IP)

第二步:通过SSH密钥连接到服务器

  1. 打开终端或SSH客户端
  2. 使用SSH密钥认证连接到服务器:
ssh -i /path/to/private_key root@<内网IP>

示例:

ssh -i ~/.ssh/id_rsa [email protected]

第三步:配置IMEX服务

  1. 打开IMEX节点配置文件:
sudo vim /etc/nvidia-imex/nodes_config.cfg
  1. 添加所有需要互联的服务器内网IP地址,每行一个:
192.168.1.10
192.168.1.11
192.168.1.12
192.168.1.13
  1. 保存文件并退出编辑器
  2. 重启nvidia-imex服务:
sudo systemctl restart nvidia-imex.service
  1. 验证服务状态:
sudo systemctl status nvidia-imex.service
  1. 验证所有节点已被发现并连接:
nvidia-imex-ctl -N
所有IMEX节点已连接并发现


注意:

  • 配置中需包含所有服务器IP,包括当前服务器自身的IP
  • 机架中的每台服务器应有相同的 nodes_config.cfg 文件
  • 在机架中的每台服务器上重复 第二步第三步