南京卫斯顿科技有限公司

在当今科技飞速发展的时代，GPU服务器在人工智能、深度学习等领域发挥着至关重要的作用。今天，我们就来详细了解一下GPU服务器集成工作的全流程，让你从0到1轻松搞定！

一、操作系统安装

1. 选择操作系统

常见适用于GPU服务器的操作系统有Ubuntu Server，本次我们选择Ubuntu 22.04 LTS。这是因为它对GPU支持良好，而且社区资源丰富，软件包更新速度快。就好比我们选择一辆车，要选性能好、配件容易找的，Ubuntu 22.04 LTS就是这样的‘好车’。

2. 安装准备

首先要准备可引导的USB安装介质，我们可以通过工具如Rufus将操作系统镜像写入USB。同时，要确保服务器连接稳定电源，检查硬件连接是否正常。这就像我们要出门旅行，得先准备好行李，检查好车辆的状况一样。

操作系统安装准备

3. 安装过程

将USB插入服务器，设置服务器从USB启动（需进入BIOS/UEFI调整启动顺序）。进入安装界面后，按提示进行语言、时区、键盘布局等基础设置，选择安装分区（建议将系统分区和数据分区合理划分，如系统分区200GB，数据分区根据磁盘大小合理分配），完成安装后设置用户名和密码。整个过程就像按照说明书组装一件家具，一步一步来，就能完成。

二、GPU驱动安装

1. 确认GPU型号

通过服务器硬件信息或命令行（如在Linux系统下使用lspci | grep -i nvidia）确认GPU具体型号，如NVIDIA H20等。这就像我们要给手机安装合适的软件，得先知道手机的型号一样。

2. 下载驱动

访问NVIDIA官方网站，根据GPU型号、操作系统版本下载对应驱动。例如，对于Ubuntu 22.04 LTS系统下的NVIDIA H20，需下载适配的Linux x86_64版本驱动。就像我们要下载适合自己手机系统的应用程序一样。

3. 安装驱动

安装前，需禁用nouveau驱动（Ubuntu系统可通过创建/etc/modprobe.d/blacklist-nouveau.conf文件，添加blacklist nouveau和options nouveau modeset=0内容，然后执行sudo update-initramfs -u）。接着，运行下载的驱动安装文件，按照提示完成安装，安装完成后重启服务器，使用nvidia-smi命令验证驱动是否安装成功。这就像我们在安装软件前，可能需要先卸载一些不兼容的旧软件，然后再安装新软件，最后检查软件是否安装成功。

GPU驱动安装

4. 本次安装驱动版本

本次安装驱动版本为：570.86.15

三、网卡驱动安装

1. 查看使用网卡类型

使用命令lspci | grep Mell查看，例如显示53:00.0 Ethernet controller: Mellanox Technologies MT27800 Family [ConnectX - 5]，这就是我们要安装驱动的网卡类型。

2. 下载网卡驱动

选择合适驱动下载，可访问https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ 。

3. 安装

这里下载的是MLNX_OFED_LINUX - 24.10 - 2.1.8.0 - ubuntu22.04 - x86_64.iso，运行./mlnxofedinstall进行安装。

四、CUDA安装

1. 确定CUDA版本

根据计划部署的大模型对CUDA版本的要求选择合适版本，本次大模型部署需要CUDA 12.4 。同时，确保驱动版本与CUDA版本兼容（可参考NVIDIA官方文档）。这就像我们要给电脑安装软件，得确保软件和操作系统兼容一样。

2. 下载CUDA

从NVIDIA官网官网选择合适的CUDA（官网选择合适的CUDA https://developer.nvidia.com/cuda-toolkit-archive）下载对应版本的CUDA Toolkit，提供.run和.deb等多种安装包格式，可根据习惯选择，如.deb格式适合Ubuntu系统。

3. 安装CUDA

以.deb格式为例，下载完成后，执行sudo dpkg -i .deb进行安装，安装过程中可能需要安装依赖包，按提示安装即可。安装完成后，设置环境变量，在.bashrc文件中添加export PATH=/usr/local/cuda - X.Y/bin:和LD_LIBRARY_PATH（X.Y为CUDA版本号），然后执行source ~/.bashrc使环境变量生效。使用nvcc -V命令验证CUDA是否安装成功。

CUDA安装

五、容器引擎安装

1. 选择容器引擎

本次安装容器引擎有Docker 。

2. 安装Docker

在Ubuntu系统下，配置docker安装源，可通过执行sudo apt update更新软件源，然后执行sudo apt - get install - y docker - ce docker - ce - cli containerd.io安装Docker。安装完成后，使用sudo systemctl start docker启动Docker服务，并通过sudo systemctl enable docker设置开机自启。执行docker --version验证安装结果。

3. 配置Docker

为了提高镜像拉取速度，可配置国内镜像源，如阿里云镜像源。在/etc/docker/daemon.json文件中添加镜像源配置（若文件不存在则创建），内容如下：

{
  "registry - mirrors": ["https://<your_aliyun_mirror>.mirror.aliyuncs.com"]
}

然后执行sudo systemctl restart docker使配置生效。

六、安装nvidia - container - toolkit

1. 在线安装nvidia - container - toolkit

参考官网：https://docs.nvidia.com/datacenter/cloud - native/container - toolkit/latest/install - guide.html 进行在线安装。

2. 设为默认运行时（可选）

编辑Docker配置文件/etc/docker/daemon.json，确保包含以下内容：

{
  "default - runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "/usr/bin/nvidia - container - runtime",
      "runtimeArgs": []
    }
  }
}

重启docker：systemctl daemon - reload && systemctl restart docker
查看docker版本和运行时：docker info

七、大模型部署

1. 选择大模型

根据业务需求选择合适的大模型，本次部署deepseek - R1满血版。就像我们要完成一项任务，得选择合适的工具一样。

2. 准备模型文件

从官方渠道或授权平台下载大模型权重文件和相关代码。若模型较大，可能需要通过云存储下载并传输到服务器。这就像我们要盖房子，得先准备好建筑材料一样。

3. 部署环境准备

本次部署使用docker容器的方式进行部署，部署框架使用vllm。

4. 启动模型

在容器内执行模型启动脚本，根据模型文档配置相关参数，如端口号、并发数等。启动成功后，通过浏览器或API工具测试模型是否可正常访问和响应。

大模型部署

八、大模型压测

1. 选择压测工具

使用EvalScope进行压测。

2. 执行压测

在服务器上启动压测工具，运行压测脚本。在压测过程中，实时监控服务器资源使用情况（如CPU使用率、GPU显存占用、内存使用等）、模型响应时间、吞吐量等指标。可通过工具自带的监控界面或系统命令进行监控。这就像我们要测试一辆车的性能，得实时监测它的速度、油耗等指标一样。

3. 分析压测结果

压测结束后，根据监控数据和工具生成的报告，分析模型在不同负载下的性能表现，找出性能瓶颈，如是否存在GPU显存不足、网络延迟过高、CPU计算能力不足等问题。

九、大模型调优

1. 参数调整

根据压测结果，调整大模型的参数以提高推理速度。就像我们调整汽车的发动机参数，让它跑得更快一样。

2. 硬件配置优化

根据模型需求，合理分配服务器资源，如调整GPU显存分配策略、优化内存使用等。若服务器资源不足，可考虑增加硬件资源或采用分布式计算架构。

3. 重新压测与评估

完成调优后，再次进行大模型压测，验证调优效果。重复上述调优步骤，直至模型性能满足业务需求。

大模型调优

通过以上步骤，我们就完成了GPU服务器集成工作的全流程。希望这篇文章能帮助你更好地理解和掌握GPU服务器集成工作，让你在科技的道路上越走越远！

揭秘！GPU服务器集成全流程，从0到1轻松搞定