vLLM大模型部署指南
vLLM 是一个快速且易于使用的大语言模型推理和服务库。它基于 PagedAttention 技术,具备高吞吐量、高效内存管理等特性,可与 HuggingFace 模型无缝集成,支持多种硬件设备。本文将指导如何在 OpenCloudOS 9上通过一键安装脚本和容器镜像拉取,快速部署 vLLM 框架。
1.安装容器依赖
1.1 一键安装容器依赖
脚本下载地址:点击下载执行脚本
bash auto_install.sh
1.2 卸载驱动
dnf安装的驱动直接使用
sudo dnf remove nvidia-driver_xxx
2.启动vLLM框架镜像
2.1 下载模型权重
备注:如果已有权重,请忽略2.1节下载步骤,直接跳转2.2小节,下载权重到位置/models/:
1. 安装 Git LFS
sudo dnf install -y git-lfs
2. 已安装的 Git LFS 注册进 Git
sudo git lfs install
3. 下载模型权重到/models/
sudo mkdir -p /models && sudo git clone https://www.modelscope.cn/Qwen/Qwen2.5-7B-Instruct.git /models/Qwen2.5-7B-Instruct
2.2.启动框架
sudo docker run -itd --name vllm_serving --rm --gpus all -p 8000:8000 -v /models/Qwen2.5-7B-Instruct:/models/Qwen2.5-7B-Instruct tencentos/tencentos4-vllm tail -f /dev/null
3.启动推理服务
进入到容器内:
sudo docker exec -it vllm_serving /bin/bash
启动推理服务:
python3 -m vllm.entrypoints.openai.api_server --model /models/Qwen2.5-7B-Instruct/ --served-model-name Qwen2.5-7B-Instruct --max-model-len=2048