当前位置：首页 > news >正文

保姆级教程：Ubuntu系统下bisheng大模型部署全流程（含Docker+Milvus配置）

news 2026/7/23 2:51:58

Ubuntu系统下bisheng大模型部署全流程实战指南

在人工智能技术快速发展的今天，大型语言模型已成为开发者工具箱中不可或缺的一部分。bisheng作为一款性能优异的中文大语言模型，凭借其出色的语义理解和生成能力，正受到越来越多开发者和研究人员的关注。本文将带领您从零开始，在Ubuntu系统中完成bisheng大模型的完整部署流程，涵盖Docker环境配置、Milvus向量数据库集成等关键环节，并提供详尽的排错指南。

1. 环境准备与基础配置

部署bisheng大模型前，确保您的Ubuntu系统版本为20.04 LTS或22.04 LTS，这是经过充分测试的稳定版本。建议使用至少16GB内存和100GB可用存储空间的硬件配置，如果计划运行更大规模的模型，则需要相应增加资源。

首先更新系统软件包并安装必要工具：

sudo apt update && sudo apt upgrade -y sudo apt install -y git curl wget gnupg software-properties-common

对于使用NVIDIA显卡的用户，需要先安装正确的显卡驱动和CUDA工具包。运行以下命令检查显卡状态：

nvidia-smi

如果未显示显卡信息，则需要先安装NVIDIA驱动。建议通过系统自带的"软件和更新"应用中的"附加驱动"选项卡选择专有驱动进行安装。

提示：部署过程中所有命令都需要管理员权限，建议使用sudo -i切换到root用户或为每个命令添加sudo前缀。

2. Docker环境搭建与优化

容器化部署是当前AI应用部署的最佳实践，Docker提供了隔离、可重复的环境，极大简化了依赖管理。我们将从官方源安装最新版Docker Engine和Docker Compose。

2.1 Docker安装与配置

添加Docker官方GPG密钥和软件源：

sudo mkdir -p /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

安装Docker组件：

sudo apt update sudo apt install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

验证安装并配置用户组：

sudo docker run hello-world sudo usermod -aG docker $USER newgrp docker

2.2 Docker性能调优

为获得最佳性能，建议对Docker进行以下配置调整：

存储驱动优化：编辑/etc/docker/daemon.json文件，添加以下内容：

{ "default-runtime": "nvidia", "runtimes": { "nvidia": { "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": [] } }, "data-root": "/mnt/docker-data", "storage-driver": "overlay2" }

资源限制调整：在/etc/sysctl.conf中添加：
```
vm.overcommit_memory=1 vm.max_map_count=262144
```
然后执行sudo sysctl -p使配置生效

重启Docker服务应用更改：

sudo systemctl restart docker

3. bisheng核心服务部署

完成基础环境准备后，我们可以开始部署bisheng大模型的核心组件。bisheng采用微服务架构，各组件通过Docker容器相互协作。

3.1 获取bisheng源代码

克隆官方仓库并进入项目目录：

git clone https://github.com/dataelement/bisheng.git cd bisheng/docker

项目目录结构说明：

bisheng/ ├── docker/ # Docker部署配置 │ ├── docker-compose.yml # 主服务编排文件 │ ├── nginx/ # Web服务器配置 │ └── services/ # 各微服务配置 ├── frontend/ # 前端界面代码 └── backend/ # 后端服务代码

3.2 启动核心服务

使用Docker Compose启动基础服务：

docker compose up -d

此命令将启动以下服务：

服务名称	端口	功能描述
nginx	80	Web服务器和反向代理
backend	3001	核心API服务
frontend	3000	用户界面
redis	6379	缓存数据库
mysql	3306	关系型数据库

验证服务状态：

docker compose ps

所有服务状态应为"running"。如果任何服务启动失败，可以查看特定容器的日志：

docker compose logs -f 服务名

4. Milvus向量数据库集成

bisheng使用Milvus作为向量搜索引擎，用于存储和检索文本嵌入向量。Milvus的高性能索引算法能够快速处理大规模向量相似度计算。

4.1 安装Milvus Standalone

创建专用目录并下载配置文件：

mkdir -p ~/milvus && cd ~/milvus wget https://github.com/milvus-io/milvus/releases/download/v2.3.1/milvus-standalone-docker-compose.yml -O docker-compose.yml

启动Milvus服务：

docker compose up -d

Milvus将启动以下组件：

etcd：分布式键值存储，用于元数据管理
minio：对象存储，用于持久化向量数据
standalone：Milvus主服务

4.2 配置bisheng连接Milvus

编辑bisheng的配置文件bisheng/docker/services/backend/.env，添加Milvus连接信息：

MILVUS_HOST=your_server_ip MILVUS_PORT=19530 MILVUS_USER=root MILVUS_PASSWORD=Milvus

重启backend服务使配置生效：

cd ~/bisheng/docker docker compose restart backend

4.3 验证向量搜索功能

访问bisheng的API接口进行测试：

curl -X POST "http://localhost:3001/api/v1/vector/search" \ -H "Content-Type: application/json" \ -d '{"text": "测试向量搜索", "top_k": 3}'

预期返回包含相似向量的JSON数据。如果遇到连接问题，检查Milvus日志：

docker logs milvus-standalone

5. 模型部署与管理

bisheng支持多种大语言模型的集成，我们将以ChatGLM3-6B为例演示模型部署流程。

5.1 准备模型文件

创建模型存储目录并安装Git LFS：

mkdir -p ~/models && cd ~/models sudo apt install -y git-lfs git lfs install

克隆模型仓库（以ChatGLM3-6B为例）：

git clone https://huggingface.co/THUDM/chatglm3-6b cd chatglm3-6b git lfs pull

注意：模型文件通常较大（数十GB），下载需要较长时间且需要足够的磁盘空间。

5.2 配置bisheng使用本地模型

修改bisheng的模型配置文件bisheng/docker/services/backend/configs/models.yaml：

chatglm3-6b: path: /path/to/your/models/chatglm3-6b device: cuda # 使用GPU加速 precision: fp16 # 半精度模式减少显存占用

挂载模型目录到backend容器，编辑bisheng/docker/docker-compose.yml，在backend服务的volumes部分添加：

volumes: - ~/models:/app/models

重启服务应用更改：

docker compose down && docker compose up -d

6. 系统优化与性能调校

部署完成后，我们可以对系统进行进一步优化以获得更好的性能和稳定性。

6.1 资源配置调整

根据硬件条件调整各服务的资源限制，编辑docker-compose.yml示例：

services: backend: deploy: resources: limits: cpus: '4' memory: 8G reservations: memory: 4G

6.2 网络配置优化

为减少延迟，可以创建自定义网络并调整MTU：

docker network create --driver=bridge --opt com.docker.network.driver.mtu=1400 bisheng-net

然后在docker-compose.yml中将所有服务加入该网络。

6.3 持久化数据管理

确保重要数据持久化存储，配置示例：

volumes: mysql_data: driver: local driver_opts: type: none device: /data/mysql o: bind

7. 常见问题排查指南

在实际部署过程中可能会遇到各种问题，以下是典型问题的解决方案。

7.1 容器启动失败

现象：docker compose up后容器立即退出

排查步骤：

查看容器日志：docker logs <container_id>
检查端口冲突：netstat -tulnp | grep <port>
验证环境变量配置是否正确

7.2 模型加载异常

现象：API返回模型不可用错误

解决方案：

确认模型路径映射正确
检查模型文件完整性：
```
cd /path/to/model git lfs fsck
```
验证CUDA环境：
```
nvcc --version
```

7.3 性能瓶颈分析

使用以下工具监控系统状态：

容器资源监控：
```
docker stats
```
GPU使用情况：
```
nvidia-smi -l 1
```

API响应时间分析：

ab -n 100 -c 10 http://localhost:3001/api/v1/chat

8. 安全加固建议

生产环境部署时，应考虑以下安全措施：

网络隔离：
- 使用内部网络通信
- 限制公网访问端口

认证授权：

# 在backend服务的环境变量中配置 AUTH_ENABLED=true JWT_SECRET=your_strong_secret

定期备份：

数据库备份脚本示例：

docker exec mysql sh -c 'exec mysqldump --all-databases -uroot -p"$MYSQL_ROOT_PASSWORD"' > backup.sql

模型和配置备份方案：

rsync -avz /path/to/models backup_server:/backup/models

日志审计：

# 配置日志轮转 docker run --log-driver=json-file --log-opt max-size=10m --log-opt max-file=3

9. 进阶配置与扩展

根据实际需求，bisheng可以扩展更多功能：

9.1 多模型支持

在models.yaml中配置多个模型：

models: chatglm3-6b: path: /app/models/chatglm3-6b device: cuda llama2-7b: path: /app/models/llama2-7b device: cuda precision: int8 # 量化模型减少显存占用

9.2 自定义插件开发

bisheng支持通过插件扩展功能，开发步骤：

创建插件目录结构：

my_plugin/ ├── __init__.py ├── config.yaml └── main.py

实现插件逻辑后，将其路径添加到配置：
```
plugins: - path: /path/to/my_plugin enabled: true
```

9.3 集群化部署

对于高负载场景，可以考虑：

后端服务水平扩展：
```
docker compose up -d --scale backend=3
```
Milvus分布式部署：参考官方文档配置多个节点
负载均衡：配置Nginx upstream实现流量分发

10. 监控与维护

完善的监控系统有助于及时发现和解决问题：

Prometheus监控配置：

# 在docker-compose.yml中添加 prometheus: image: prom/prometheus ports: - "9090:9090" volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml

Grafana仪表板：
- 导入bisheng专用仪表板模板
- 配置关键指标告警
健康检查端点：
```
curl http://localhost:3001/health
```

自动化更新策略：

使用watchtower自动更新容器：

docker run -d --name watchtower -v /var/run/docker.sock:/var/run/docker.sock containrrr/watchtower --cleanup

配置CI/CD流水线实现滚动更新

查看全文

http://www.jsqmd.com/news/584766/

Netskope 在制造领域，怎么用？

从PX4的FRD到Mavros的FLU：手把手教你正确配置`setpoint_raw/local`话题发布无人机目标点

快速上手nanobot：超轻量级AI助手部署教程，支持多通道聊天

2026年免费切割复合树脂井盖/球墨铸铁井盖/市政井盖口碑好的厂家推荐 - 品牌宣传支持者

龙迅LT9611芯片深度解析：双端口MIPI转HDMI1.4的高效转换方案

2026年比较好的铝箔蒸煮袋/江苏食品蒸煮袋/蒸煮袋深度厂家推荐 - 品牌宣传支持者

30分钟入门OpenClaw：Qwen2.5-VL-7B图文问答机器人搭建

Phi-3-mini-128k-instruct助力Anaconda环境管理：依赖分析与冲突解决建议

韦东山嵌入式Linux驱动开发实战：从零构建LCD显示驱动

城市巡检新助手：利用CYBER-VISION零号协议快速识别道路设施与障碍

Cohesity 在金融服务领域，怎样做数据安全与管理？

Beyond Compare 4 破解版安装避坑指南：从下载到激活的完整流程（附常见问题解决）

NLP核心算法全解析：从基础到实战，掌握自然语言处理关键技术

Qwen3-14B自动化运维：定时备份模型状态+异常自动重启脚本编写

Redis中常见的延迟问题

什么是终端安全防护软件？Trellix 告诉你！

S32K144 LIN通讯：Master与Slave配置实战指南

Omni-Vision Sanctuary运维实战：利用Anaconda管理多版本Python模型环境

OpenClaw数据可视化：Qwen3-32B分析CSV文件并生成图表报告

FLUX.1-dev助力内容创作：快速生成文章配图、海报设计的实用教程

告别纯CPU跑模型！保姆级教程：在Windows 11上用Ollama命令行版榨干你的AMD显卡性能

PaddlePaddle-v3.3企业应用指南：从开发到生产的完整流程

基于LingBot-Depth的Ubuntu20.04安装与配置指南

HY-MT1.5翻译模型部署全攻略：从零到一搭建翻译服务

告别编译失败：Qt 6.6.0交叉编译到ARM平台最常见的5个错误及解决方法（基于gcc-linaro-14.0.0）

实测DeepSeek-OCR：用Python几行代码搞定文档转Markdown，附Windows一键包

OpenClaw高阶玩法：Qwen3.5-9B驱动多设备协同工作流

OpenClaw技能开发：为千问3.5-9B定制专属自动化模块

VB.NET登录界面别只做“样子货”：手把手教你实现记住密码和自动登录功能

肿瘤研究者的福音：手把手教你用cBioPortal快速分析TCGA数据（附实战案例）