跳过正文
NVIDIA【Fabric Manager】
  1. 运维日记/

NVIDIA【Fabric Manager】

目录
nvidia - 这篇文章属于一个选集。
§ 3: 本文

NVIDIA Fabric Manager 是用于管理和监控 GPU 集群网络(尤其是 NVSwitch / NVLink / InfiniBand Fabric)的服务。它负责 拓扑管理、链路状态监控、带宽优化和错误检测,确保多 GPU 系统和节点间通信性能稳定、高效。

NVIDIA【Fabric Manager】
#

基础环境:

  • Ubuntu 22.04;内核5.15.0-119-generic
  • NVIDIA GPU

一、基础环境
#

1.1 配置源
#

  1. 备份原有 sources.list(若已存在则不重复覆盖)
[ -f /etc/apt/sources.list ] && cp -n /etc/apt/sources.list /etc/apt/sources.list.bak
  1. 写入阿里云 Ubuntu 22.04 (jammy) 镜像源
cat <<'EOF' > /etc/apt/sources.list
deb https://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse

deb https://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse

deb https://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse

# deb https://mirrors.aliyun.com/ubuntu/ jammy-proposed main restricted universe multiverse
# deb-src https://mirrors.aliyun.com/ubuntu/ jammy-proposed main restricted universe multiverse

deb https://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse
EOF
  1. 更新源
sudo apt update

1.2 内核包
#

注意: 内核相关的包一定要保持与当前系统内核版本号一致。

apt install linux-image-5.15.0-119-generic linux-headers-5.15.0-119-generic linux-tools-5.15.0-119-generic linux-cloud-tools-5.15.0-119-generic

二、NVIDIA Fabric Manager
#

  1. 安装
# 1. 下载repo
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
# 2. 安装
dpkg -i cuda-keyring_1.1-1_all.deb
# 3. 创建源列表
apt update
# 4. 安装;请注意后续其他包之间版本依赖问题
# apt-cache madison 命令查看所有版本
apt install nvidia-fabricmanager-570=570.133.20-1 nvidia-fabricmanager-dev-570=570.133.20-1
  1. 启动服务
systemctl enable nvidia-fabricmanager.service 
systemctl start nvidia-fabricmanager.service

结语
#

Fabric Manager 提供 GPU 集群网络管理和优化功能,通过监控链路状态和带宽使用,确保多 GPU 系统在高性能计算和 AI 训练中保持稳定、高效的通信。

参考:

nvidia - 这篇文章属于一个选集。
§ 3: 本文

相关文章


微信赞赏
微信赞赏
关注公众号
关注公众号
支付宝赞赏
支付宝赞赏