Skip to content

基于 OpenCloudOS 的海光 DCU 部署实践

目前, OpenCloudOS 已实现对海光 DCU 驱动和 DTK 的深度适配和原生支持,为使用海光 DCU 用户提供了完整的 RPM 二进制软件包,包括内核级驱动、系统管理工具、计算库及AI框架适配组件。

本文档将指导如何在 OpenCloudOS 上快速完成 DCU 驱动和 DTK 的安装部署,并无缝运行上层AI模型与应用。

一、基础环境要求及说明

1、 支持 TencentOS 及内核版本 :OpenCloudOS 9 版本、6.6内核(含其间各小版本)。

2、 支持的 GPU 设备 :海光K100_AI、海光BW1000

3、 DCU 驱动版本 :6.3.16-V1.1.0a

4、 DTK版本 :25.04.2

5、 环境检查 :该部署流程中,驱动包主要以二进制形式安装,因此需严格按照第二节「前置检查」流程,匹配软硬件系统,确认CPU架构,操作系统以及内核版本是否在列表中。

6、 系统依赖 :DCU 和 DTK 所需依赖清单,请参照附二。请在执行该文档操作前,检查必要依赖是否齐全。

二、前置检查

请执行以下执行脚本,以确认系统环境是否符合要求,点击下载执行脚本

sudo ./hygon-dcu-detection.sh

备注 :关于一键安装脚本详细代码请查看该链接

三、安装海光驱动及 DTK

3.1 安装 OpenCloudOS EPOL源

# 如使用 OpenCloudOS 9系统,请先安装 EPOL extras 软件源
dnf install epol-extras-release

3.2 安装驱动包

# 安装驱动包
dnf install hygon-driver-6.3.16

# 安装完成后需重启
reboot
软件包安装过程中会打印驱动安装详细信息,安装完成后根据提示重启即可。 输入图片说明 备注: 海光 DCU 适配 TencentOS Server 内核驱动的 RPM 包可支持多内核版本。它有若干个ko,会识别 OS 内核版本,因此可自动适配 6.6 内核中的各个不同小版本。基于上述原因,驱动安装过程中耗时相对较长,整个过程需要 2-5 分钟。

3.3 驱动安装验证

安装完成后,根据提示重启系统,重启后即可通过hy-smi命令查看驱动安装结果:

输入图片说明

3.4 安装 DTK 包

dnf install dtk-25.04.2

3.5 DTK 安装验证

可通过rocm-smi命令查看驱动安装结果:

输入图片说明

四、AI 框架安装与验证

4.1 启动 AI 框架(以 vLLM 示例)

docker run -it --network=host --name=vllm-test --privileged --device=/dev/kfd --device=/dev/dri --ipc=host --shm-size=64G --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root --ulimit stack=-1:-1 --ulimit memlock=-1:-1 -v /opt/hyhal:/opt/hyhal:ro -v `pwd`:/mnt -v ~:/model:ro image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.9.2-tencentos4.4-dtk25.04.2-py3.11 bash
输入图片说明

备注:海光官方将在后续逐步扩展适配 OpenCloudOS 的其他 AI 框架。

4.2 运行大模型(以DeepSeek-R1-Distill-Qwen为例)

以本地模型运行为例,本地模型为 DeepSeek-R1-Distill-Qwen-14B

vllm server . --port 8000 --trust-remote-code

4.3 结果展示

curl http://localhost:8000/v1/completions
     -H "Content-Type: application/json"
     -d '{
        "model": ".",
        "prompt": "who are you ?",
        "max_tokens": 20,
        "temperature": 0
    }'
输入图片说明

五、手动安装指南(备用方案)

若驱动程序安装失败,可以从光合开发者社区-资源下载中心下载需要的驱动程序(发布形式为.run包)进行安装。

附录一:软件包清单

文件名 包名
驱动 hygon-driver-6.3.16-1.oc9.x86_64.rpm hygon-driver
DTK dtk-25.04.2-1.oc9.x86_64.rpm dtk

附录二:系统必要依赖

DCU 系统依赖 :cmake、gcc、gcc-c++、rpm-build、bash、coreutils、findutils、tar、sed、gzip、xz、make、automake、 autoconf、 pciutils、 pciutils-devel、 pciutils-libs、 system、 kernel-devel、 kernel-headers。

DTK 系统依赖 :mesa-libGL-devel、libdrm、libdrm-devel、ncurses-devel、sqlite-devel、libcurl、libcurl-devel、perl-File-Which、perl-File-BaseDir、perl-File-Copy-Recursive、perl-File-Listing、perl-Digest、perl-Digest-MD5、perl-Data-Dumper、python3、python3-pip、python3-devel、python3-wheel、java-1.8.0-openjdk、gettext、gettext-devel、protobuf、vim-common、curl、doxygen、graphviz、deltarpm、tcl、environment-modules、policycoreutils-python-utils、texlive、texlive-xtab、texlive-multirow、texlive-sectsty、texlive-tocloft、texlive-adjustbox、libibverbs。

附录三:海光DCU系列驱动+DTK+DAS系统架构

输入图片说明 驱动+DTK(DCU Compute Stack)架构图 输入图片说明 DAS 架构图