技术文档

Technical documentation
目录

OrionX 部署指南(适用于 Red Hat)

环境要求

操作系统

  • RHEL 7 / 8 / 9(建议使用 SELinux 关闭或 permissive 模式)

软件要求

  • Docker ≥ 1.13(已安装并运行)
  • NVIDIA GPU 驱动(与所用 CUDA 版本匹配)
  • NVIDIA Docker Runtime
  • CUDA Toolkit(支持版本:9.0–10.1)
  • CUDNN ≥ 7.4.2(建议 7.6+)
  • NCCL(与 CUDA 匹配)
  • containerd ≥ 1.3.2

硬件要求

  • 安装有 NVIDIA GPU 的服务器
  • 支持 RDMA 的 Mellanox 网卡(可选)

文件结构约定

以下操作假定 OrionX软件包位于 /root/orion/ 目录下:

/root/orion/
├── gpu-monitor/
├── controller/
├── server/
└── client/

安装步骤

  1. GPU Monitor(可选)
cd /root/orion/gpu-monitor
gunzip dcgm-exporter.tar.gz | docker load
gunzip node-exporter.tar.gz | docker load
./run-nvidia-exportor.sh
  1. OrionX Controller
cd /root/orion/controller
gunzip orion-controller-ent-2.2.tar.gz | docker load
gunzip prometheus.tar.gz | docker load
./run-controller.sh
	 
# 修改 prometheus.yml 中的 targets 字段以匹配 GPU Monitor 地址
# 日志文件:/root/controller.log
  1. OrionX Server
cd /root/orion/server
sudo ./install-server.sh
# 编辑配置文件 /etc/orion/server.conf 示例:
	 
[server]
vgpu_count = 4
bind_addr = 192.168.1.100
listen_port = 9960
enable_kvm = true
enable_shm = true
enable_rdma = true
	 
[controller]
controller_addr = 192.168.1.1:9123
# 启动服务	 
sudo systemctl start oriond
  1. OrionX Client
cd /root/orion/client
sudo ./install-client-10.1
	 
# 设置环境变量
export ORION_VGPU=2
export ORION_GMEM=4096
export ORION_RATIO=100
export ORION_CONTROLLER=192.168.1.1:9123
	 
# 日志位置:${HOME}/.orion/log/

OrionX vGPU 使用方式

export ORION_VGPU=2
export ORION_GMEM=4096
./deviceQuery
	 
# 每次运行自动申请和释放 vGPU 资源,应用程序无需修改。

常见问题

  1. License 无效导致服务无法启动:检查 license.txt
  2. 绑定网卡失败:确认所有节点使用相同网卡名称(如 eth0)
  3. GPU 利用率无法显示:检查 Prometheus 与 RDMA 配置
  4. 日志未记录:确认日志路径权限和配置项

示例:Jupyter Notebook 使用 OrionX vGPU

pip3 install notebook
jupyter notebook --ip=0.0.0.0 --no-browser --allow-root
	 
# 本地 SSH 转发方式访问
ssh -Nf -L 8888:localhost:8888 user@client-machine