跳转至

vLLM大模型部署指南

vLLM 是一个快速且易于使用的大语言模型推理和服务库。它基于 PagedAttention 技术,具备高吞吐量、高效内存管理等特性,可与 HuggingFace 模型无缝集成,支持多种硬件设备。本文将指导如何在 OpenCloudOS 9上通过一键安装脚本和容器镜像拉取,快速部署 vLLM 框架。

1.安装容器依赖

1.1 一键安装容器依赖

脚本下载地址:点击下载执行脚本

bash auto_install.sh

1.2 卸载驱动

dnf安装的驱动直接使用

sudo dnf remove nvidia-driver_xxx

2.启动vLLM框架镜像

2.1 下载模型权重

备注:如果已有权重,请忽略2.1节下载步骤,直接跳转2.2小节,下载权重到位置/models/:

1. 安装 Git LFS
sudo dnf install -y git-lfs

2. 已安装的 Git LFS 注册进 Git
sudo git lfs install

3. 下载模型权重到/models/
sudo mkdir -p /models && sudo git clone https://www.modelscope.cn/Qwen/Qwen2.5-7B-Instruct.git /models/Qwen2.5-7B-Instruct

2.2.启动框架

sudo docker run -itd --name vllm_serving --rm --gpus all -p 8000:8000 -v /models/Qwen2.5-7B-Instruct:/models/Qwen2.5-7B-Instruct tencentos/tencentos4-vllm tail -f /dev/null

3.启动推理服务

进入到容器内:

sudo docker exec -it vllm_serving /bin/bash

启动推理服务:

python3 -m vllm.entrypoints.openai.api_server --model /models/Qwen2.5-7B-Instruct/  --served-model-name Qwen2.5-7B-Instruct --max-model-len=2048