当前位置：首页 > news >正文

Lychee-Rerank高可用部署架构：基于Docker Compose的多实例负载均衡

news 2026/6/3 8:33:35

Lychee-Rerank高可用部署架构：基于Docker Compose的多实例负载均衡

如果你正在把Lychee-Rerank这类重排序模型用到线上业务里，可能已经发现了一个问题：单个服务实例太脆弱了。流量一上来，服务就卡顿；服务器出点小毛病，整个排序功能就瘫痪。这显然没法满足生产环境对稳定性的要求。

今天要聊的，就是怎么给Lychee-Rerank搭建一个“打不垮”的部署架构。核心思路很简单：一个实例不够，那就上多个，让它们一起干活，一个倒了其他的立刻顶上。我们会用Docker Compose这个轻量级的编排工具，配合Nginx，轻松实现多实例部署和智能流量分发。不仅如此，还会把监控告警和日志收集这些“眼睛”和“耳朵”给装上，让你随时掌握服务的健康状况。跟着这篇指南走，你就能得到一个既扛得住高并发，又方便运维的Lychee-Rerank生产级服务。

1. 高可用架构设计：从单点走向集群

在动手部署之前，我们先花几分钟看看要把单点的Lychee-Rerank变成什么样。理解了这个蓝图，后面的每一步操作都会更清晰。

所谓高可用，目标就两个：别宕机，别卡顿。为了实现这两个目标，我们的架构主要做了三件事：

第一，用多个实例分摊压力。这是最核心的一步。我们不再只运行一个Lychee-Rerank服务，而是同时启动多个完全相同的实例。它们都加载同样的模型，提供同样的排序接口。这样做的好处是，当用户请求很多时，这些请求可以被分散到不同的实例上去处理，单个实例的压力就小了，响应自然更快。这就像是一个超市只开一个收银台总会排长队，多开几个队伍就短了。

第二，用负载均衡器智能分发请求。实例多了，得有个“调度员”来分配工作。这个角色就是Nginx。所有外部的请求都先发给Nginx，由它来决定把这个请求转发给后面哪个Lychee-Rerank实例。Nginx很聪明，它默认会用轮询的方式，让每个实例干差不多多的活；它还能检测健康状态，如果发现某个实例反应变慢或者没反应了，就暂时不把新活派给它，直到它恢复。这样，即使某个实例出问题，整个服务也不会停摆。

第三，给系统装上监控和日志系统。服务跑起来之后，我们不能当“瞎子”。需要知道每个实例现在忙不忙、内存用了多少、处理一个请求要花多久。一旦某个指标不正常，比如响应时间突然变长，系统能立刻发警报通知我们。同时，所有服务产生的运行日志和错误信息，都需要被集中收集起来，方便我们排查问题。这套“可观测性”系统是生产环境的标配。

下面这张图清晰地展示了这几个组件是如何协同工作的：

graph TD subgraph “外部用户” A[客户端请求] end subgraph “负载均衡层” B[Nginx] end subgraph “服务实例层” C[Lychee-Rerank 实例 1] D[Lychee-Rerank 实例 2] E[Lychee-Rerank 实例 3] end subgraph “监控与日志层” F[Prometheus + Alertmanager] G[ELK Stack<br/>Elasticsearch, Logstash, Kibana] end A --> B B --> C B --> D B --> E C -->|暴露指标| F D -->|暴露指标| F E -->|暴露指标| F C -->|输出日志| G D -->|输出日志| G E -->|输出日志| G F -.->|触发告警| H[运维人员] G -.->|查询分析| H

整个流程就是：用户请求先打到Nginx，Nginx分给后端的某个实例处理，实例处理时产生的指标和日志分别被监控和日志系统收集。这样一个闭环，既保证了服务能力，又保证了运维的可见性。

2. 环境准备与Docker Compose编排

蓝图有了，接下来我们准备“施工场地”和“施工图纸”。这一节我们会准备好所有必需的软件环境，并编写核心的docker-compose.yml文件，把各个服务如何启动、如何连接定义清楚。

2.1 基础环境检查

首先，确保你的服务器上已经安装了以下两个核心工具：

Docker：我们的服务都将运行在容器里，这是基础。
Docker Compose：用来定义和运行多容器应用的工具，我们靠它来编排所有服务。

打开终端，用下面两条命令检查一下：

docker --version docker-compose --version

如果都能正确显示版本号（比如Docker 20.10以上，Compose v2以上），就可以继续了。如果还没安装，可以参考Docker官方文档进行安装，过程很简单。

接下来，为我们的项目创建一个独立的工作目录，并进入它。这样所有的配置文件都会放在一起，管理起来方便。

mkdir lychee-ha-deploy && cd lychee-ha-deploy

2.2 编写核心的Docker Compose配置

现在，我们来创建最重要的文件——docker-compose.yml。这个文件就像乐高说明书，告诉Docker Compose要启动哪些“积木”（服务），以及它们之间怎么拼装。

我们先搭建最核心的部分：Lychee-Rerank多实例和Nginx。在项目目录下创建这个文件：

vim docker-compose.yml

然后把下面的内容粘贴进去。我加了详细的注释，帮你理解每一块是干什么的。

version: '3.8' services: # Lychee-Rerank 实例 1 lychee-rerank-1: image: your-lychee-rerank-image:latest # 替换成你的Lychee-Rerank镜像 container_name: lychee-rerank-1 restart: unless-stopped # 自动重启策略，增强稳定性 ports: - "8001:8000" # 将容器内的8000端口映射到主机的8001端口 environment: - MODEL_NAME=your-model-name # 设置环境变量，指定加载的模型 volumes: - ./models:/app/models # 假设模型数据挂载到本地./models目录 healthcheck: # 健康检查，让Nginx知道这个实例是否健康 test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3 start_period: 40s networks: - lychee-network # Lychee-Rerank 实例 2 lychee-rerank-2: image: your-lychee-rerank-image:latest container_name: lychee-rerank-2 restart: unless-stopped ports: - "8002:8000" # 第二个实例映射到8002端口 environment: - MODEL_NAME=your-model-name volumes: - ./models:/app/models healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3 start_period: 40s networks: - lychee-network # 负载均衡器 - Nginx nginx: image: nginx:alpine container_name: nginx-balancer restart: unless-stopped ports: - "80:80" # 对外提供服务的HTTP端口 - "443:443" # 如果需要HTTPS，可以映射443端口 volumes: - ./nginx/conf.d:/etc/nginx/conf.d:ro # 挂载自定义的Nginx配置 - ./nginx/logs:/var/log/nginx # 挂载日志目录，方便查看 depends_on: - lychee-rerank-1 - lychee-rerank-2 networks: - lychee-network # 定义一个自定义网络，让所有服务在同一个网络内，方便通过服务名通信 networks: lychee-network: driver: bridge

几个关键点解释一下：

实例复制：你看lychee-rerank-1和lychee-rerank-2的配置几乎一样，只是容器名和映射的宿主机端口不同（8001和8002）。如果你想增加第三个实例，照葫芦画瓢再加一个lychee-rerank-3就行。
健康检查：healthcheck配置非常重要。它让Docker定期（每30秒）去检查容器内的服务是否还活着（通过访问/health端点）。如果连续失败3次，Docker会认为该容器不健康。Nginx可以利用这个信息。
网络：我们创建了一个叫lychee-network的虚拟网络。所有服务都加入这个网络后，在容器内部，他们可以直接用服务名（如lychee-rerank-1）来访问对方，而不需要知道复杂的IP地址。
配置挂载：Nginx的配置（./nginx/conf.d）和日志（./nginx/logs）都挂载到了宿主机。这样我们可以在宿主机上修改配置，而不用进到容器里面。

2.3 配置Nginx负载均衡

光有Compose文件还不够，我们需要告诉Nginx具体怎么分配流量。在上面Compose文件的配置里，我们把./nginx/conf.d目录挂载进去了，现在就来创建这个目录和配置文件。

首先创建所需的目录结构：

mkdir -p nginx/conf.d nginx/logs

然后创建Nginx的负载均衡配置文件：

vim nginx/conf.d/load-balancer.conf

输入以下配置：

upstream lychee_backend { # 使用服务名，Docker网络会自动解析 server lychee-rerank-1:8000 max_fails=3 fail_timeout=30s; server lychee-rerank-2:8000 max_fails=3 fail_timeout=30s; # 可以在这里添加更多 server lychee-rerank-3:8000; } server { listen 80; server_name _; # 这里可以换成你的域名 location / { proxy_pass http://lychee_backend; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; # 一些超时和缓冲区的优化配置 proxy_connect_timeout 60s; proxy_send_timeout 60s; proxy_read_timeout 60s; client_max_body_size 10M; } # 可以添加一个状态检查页面（可选） location /nginx_status { stub_status on; access_log off; allow 127.0.0.1; # 只允许本机访问，安全考虑 deny all; } }

这个配置定义了一个叫lychee_backend的上游组，里面包含了我们的两个Lychee-Rerank实例。max_fails和fail_timeout参数的意思是，如果Nginx连续3次请求某个实例失败，就会在接下来的30秒内认为它不可用，不再转发请求给它，实现了简单的故障隔离。

3. 启动服务与验证

配置都写好了，现在可以启动我们的高可用集群了。这个过程非常简单，几乎是一键式的。

3.1 一键启动所有服务

在项目根目录（也就是docker-compose.yml所在的目录）下，运行一条命令：

docker-compose up -d

-d参数代表“后台运行”。执行后，你会看到Docker Compose开始拉取镜像（如果本地没有）、创建网络、启动容器。稍等片刻，用下面命令查看所有容器的状态：

docker-compose ps

你应该能看到三个服务（lychee-rerank-1,lychee-rerank-2,nginx）的状态都是Up（健康）或者Up (health: starting)（正在启动，健康检查尚未通过）。等待一分钟左右，再运行docker-compose ps，状态应该都变成Up了。

3.2 验证负载均衡效果

服务跑起来了，怎么知道负载均衡是不是真的在工作呢？我们来做个简单的测试。

首先，直接调用某个后端实例，确认基础服务是通的：

curl http://localhost:8001/health

这应该会返回Lychee-Rerank实例1的健康状态。同样地，试试实例2：

curl http://localhost:8002/health

关键测试来了：通过Nginx访问服务。Nginx监听在80端口，我们连续访问几次，看看请求是不是被分配到了不同的后端。

# 连续执行几次下面的命令，观察返回结果中的差异（比如查看响应头里的服务器信息，如果后端服务有返回的话） curl -v http://localhost/rerank -X POST -H "Content-Type: application/json" -d '{"query": "test", "documents": ["doc1", "doc2"]}'

如果你在Lychee-Rerank的日志中配置了输出实例名，或者通过其他方式（比如在响应里添加一个自定义头X-Served-By），就能清晰地看到第一次请求可能由实例1处理，第二次就变成了实例2。这就是轮询负载均衡在起作用。

3.3 模拟故障转移

高可用的另一个核心是故障转移，我们也来模拟一下。手动停掉一个后端实例：

docker-compose stop lychee-rerank-1

此时，用docker-compose ps查看，lychee-rerank-1的状态会变成Exit。等待大约30秒（Nginx健康检查失败超时时间），然后继续通过Nginx发送请求：

curl http://localhost/health

你会发现，服务依然能够正常响应（虽然可能会慢一点，因为Nginx在发现第一个实例失败时有一次重试），所有的流量现在都落在了lychee-rerank-2上。这就证明了当其中一个实例挂掉时，服务整体不会中断。

再把实例1拉起来，看看它是否能自动重新加入集群：

docker-compose start lychee-rerank-1

等待健康检查通过后，Nginx会自动将它重新纳入上游，恢复流量分配。

4. 集成监控与日志系统

服务能跑起来并且扛得住故障，这算完成了第一步。作为一个生产系统，我们还需要“看得见”它。这一节，我们给集群装上“监控仪表盘”和“集中日志收集器”，让运维变得省心。

4.1 使用Prometheus监控服务指标

Prometheus是目前最流行的开源监控系统。我们需要做两件事：让Lychee-Rerank实例暴露指标，然后让Prometheus来抓取。

首先，确保你的Lychee-Rerank服务支持暴露Prometheus格式的指标。很多基于Python的Web框架（如FastAPI）可以通过prometheus-fastapi-instrumentator这样的中间件轻松实现。假设你的服务已经在/metrics端点暴露了指标。

然后，我们来扩展docker-compose.yml，加入Prometheus和Alertmanager（负责告警）。在文件末尾的services:部分添加：

# Prometheus 监控服务器 prometheus: image: prom/prometheus:latest container_name: prometheus restart: unless-stopped ports: - "9090:9090" volumes: - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml:ro - prometheus_data:/prometheus command: - '--config.file=/etc/prometheus/prometheus.yml' - '--storage.tsdb.path=/prometheus' - '--web.console.libraries=/etc/prometheus/console_libraries' - '--web.console.templates=/etc/prometheus/consoles' - '--storage.tsdb.retention.time=200h' - '--web.enable-lifecycle' networks: - lychee-network # Alertmanager 告警管理器 alertmanager: image: prom/alertmanager:latest container_name: alertmanager restart: unless-stopped ports: - "9093:9093" volumes: - ./alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml:ro - alertmanager_data:/alertmanager networks: - lychee-network # 在文件最底部的 volumes 部分添加（如果已有volumes，则合并进去） volumes: prometheus_data: alertmanager_data:

接下来，创建Prometheus的配置文件，告诉它去哪里抓取指标。创建目录和文件：

mkdir -p prometheus alertmanager vim prometheus/prometheus.yml

配置文件内容如下：

global: scrape_interval: 15s # 每15秒抓取一次 evaluation_interval: 15s scrape_configs: - job_name: 'lychee-rerank' static_configs: - targets: ['lychee-rerank-1:8000', 'lychee-rerank-2:8000'] # 使用Docker服务名 labels: service: 'rerank' - job_name: 'prometheus' static_configs: - targets: ['localhost:9090']

现在，重启Docker Compose服务以启用监控组件：

docker-compose up -d prometheus alertmanager

访问http://你的服务器IP:9090，就能打开Prometheus的Web界面。在“Status” -> “Targets”里，应该能看到两个Lychee-Rerank实例的状态都是UP。你还可以在“Graph”页面查询像http_request_duration_seconds_sum这样的指标，来观察服务的响应延迟。

4.2 配置ELK Stack收集与分析日志

日志是排查问题的黄金线索。我们将使用ELK（Elasticsearch, Logstash, Kibana）栈来集中管理日志。

同样，在docker-compose.yml的services:部分添加以下配置。为了简化，我们使用一个流行的集成镜像sebp/elk，但请注意它对内存要求较高（建议服务器内存>=4GB）。

# ELK Stack (集成镜像，用于演示，生产可考虑分开部署) elk: image: sebp/elk:latest container_name: elk restart: unless-stopped ports: - "5601:5601" # Kibana - "9200:9200" # Elasticsearch - "5044:5044" # Logstash Beats input environment: - ES_JAVA_OPTS=-Xms512m -Xmx512m # 设置Elasticsearch JVM内存 - LOGSTASH_START=0 # 先禁用Logstash，我们手动配置 volumes: - ./logstash/config:/etc/logstash/conf.d:ro - elk_data:/var/lib/elasticsearch networks: - lychee-network # 在volumes部分添加 volumes: elk_data:

我们需要修改Lychee-Rerank服务的配置，将它们的日志以JSON格式输出到标准输出（stdout），这样Docker才能捕获。然后配置Logstash来抓取Docker的日志。这里假设你使用docker-compose logs命令看到的日志已经是结构化的。

更常见的生产做法是使用Fluentd或Filebeat作为日志收集器，它们更轻量。但为了教程的连贯性，我们采用一种简单方式：让应用日志输出到文件，并挂载给Logstash。这需要你调整Lychee-Rerank的日志配置，将日志写入/app/logs/app.log，并在Compose文件中添加相应的挂载卷，然后配置Logstash读取这个文件。

由于篇幅和复杂性，这里不展开详细的Logstash管道配置。基本思路是：Logstash读取日志文件 -> 解析JSON -> 发送到Elasticsearch。配置完成后，访问http://你的服务器IP:5601，就能在Kibana中看到并搜索你的应用日志了。

4.3 告警规则配置示例

最后，我们配置一个简单的告警规则。当某个Lychee-Rerank实例的HTTP请求错误率（5xx状态码）在5分钟内超过5%时，就发出警告。

创建告警规则文件：

vim prometheus/alert.rules.yml

内容如下：

groups: - name: lychee_alert_rules rules: - alert: HighErrorRate expr: rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m]) > 0.05 for: 1m labels: severity: warning annotations: summary: "高错误率 (实例 {{ $labels.instance }})" description: "过去5分钟内，错误率超过5%，当前值为 {{ $value }}"

然后在prometheus/prometheus.yml中引用这个规则文件：