Skip to content

TensorFlow大模型部署指南

TensorFlow 是一个端到端的开源机器学习平台,它拥有全面而灵活的工具、库及社区资源生态系统,助力研究人员推动机器学习技术的前沿发展,并使开发者能够轻松构建和部署由机器学习驱动的应用程序。

本文档将展示如何在 OpenCloudOS 9 操作系统上,通过一键安装脚本和容器镜像拉取,快速启动 TensorFlow 框架和相关推理服务。

1.安装容器依赖

一键安装容器依赖

脚本下载地址:点击下载执行脚本

sudo ./auto_install.sh
备注 :关于一键安装脚本详细代码请查看该链接

2.启动 TensorFlow 框架镜像

执行如下命令启动 TensorFlow 框架镜像,此命令会自动从 Dokcer Hub 拉取镜像。

sudo docker run -itd --privileged --gpus all --name=opencloudos9-tensorflow opencloudos/opencloudos9-tensorflow

容器启动后可以通过命令 sudo docker ps 看到已经启动的容器,容器 ID 请以实际为准。

[root@VM-227-31-openlcoudos ~]# docker ps
CONTAINER ID   IMAGE                   COMMAND       CREATED          STATUS          PORTS     NAMES
78ab8e99b4d2   opencloudos/opencloudos9-tensorflow:latest   "/bin/bash"   12 seconds ago   Up 11 seconds             opencloudos9-tensorflow

可以使用以下命令进入此运行中的 Docker 容器: 方法1:使用 docker exec(推荐)

sudo docker exec -it opencloudos9-tensorflow bash
# 或者使用容器ID, 容器 ID 请以实际为准
sudo docker exec -it 78ab8e99b4d2 bash

方法2:使用 docker attach

sudo docker attach opencloudos9-tensorflow

注意:使用 attach 命令时,如果容器中的 bash 会话退出,容器也会停止。

3.启动训练示例

容器的默认工作目录为 /workspace ,在此目录下已存在一个 MNIST 训练示例 python 脚本 tensorflow_demo.py。 下方展示省略了部份提醒用途的日志。

[root@78ab8e99b4d2 workspace]# python tensorflow_demo.py 
...
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
11490434/11490434 ━━━━━━━━━━━━━━━━━━━━ 2s 0us/step  
...
Epoch 1/5
...
1875/1875 ━━━━━━━━━━━━━━━━━━━━ 5s 2ms/step - accuracy: 0.9155 - loss: 0.2914  
...

4.结果展示

该示例包含 5 轮 Epoch,最终结果如下:

...
Epoch 4/5
1875/1875 ━━━━━━━━━━━━━━━━━━━━ 3s 2ms/step - accuracy: 0.9729 - loss: 0.0883  
Epoch 5/5
1875/1875 ━━━━━━━━━━━━━━━━━━━━ 3s 2ms/step - accuracy: 0.9768 - loss: 0.0753  
313/313 - 1s - 4ms/step - accuracy: 0.9798 - loss: 0.0669

5.清理环境

退出容器后,通过如下命令停止运行容器。

# 停止容器但保留容器文件系统
docker stop opencloudos9-tensorflow
# 或者使用容器 ID, 容器 ID 请以实际为准
docker stop 78ab8e99b4d2

若停止容器运行后需要删除容器,请执行如下命令。

# 删除容器
docker rm opencloudos9-tensorflow
# 或者使用容器 ID, 容器 ID 请以实际为准
docker rm 78ab8e99b4d2