当前位置：首页 > news >正文

FastAPI+Celery+Pg-vector构建LLM SaaS生产级架构

news 2026/7/31 14:17:43

1. 项目概述：为什么一个LLM SaaS模板需要Celery和Pg-vector？

如果你正在搭建一个面向真实用户的LLM SaaS服务——比如文档智能问答平台、合同条款比对助手、或者客服知识库自动摘要系统——你很快会撞上两个硬骨头：异步任务瓶颈和向量检索延迟。FastAPI本身是异步友好的，但它默认的请求-响应模型在处理大模型推理、长文本嵌入生成、批量RAG索引更新这类耗时操作时，会直接卡死主线程，导致API超时、并发崩盘、用户体验断崖式下跌。这时候，单纯优化模型加载或加个缓存根本不管用——问题不在“快不快”，而在“能不能不阻塞”。

而Pg-vector，不是另一个向量数据库替代品，它是PostgreSQL原生扩展，把向量检索能力直接焊进你已有的关系型数据底座里。这意味着你不用额外维护一套独立的向量数据库集群（比如Qdrant或Weaviate），不用同步用户元数据、权限配置、审计日志到第二套系统，更不用在应用层写一堆胶水代码做双写一致性。所有数据——用户表、对话记录表、文档元数据表、向量嵌入表——都在同一个事务里原子写入，查的时候还能用SQL JOIN关联用户角色、文档状态、访问时间等业务字段。这不是技术炫技，是降低运维复杂度、缩短上线周期、规避数据漂移风险的务实选择。

这个模板的Part 2，就是专门解决这两个生产级刚需：用Celery把耗时任务从FastAPI主线程里彻底剥离，让API秒级响应；用Pg-vector把向量检索无缝集成进现有PostgreSQL架构，避免技术栈分裂。它不教你怎么调参大模型，也不讲LangChain链式编排，而是聚焦在SaaS产品真正上线后每天都要面对的底层工程问题——任务队列怎么不丢、不重、不错乱？向量相似度查询如何在千万级文档中稳定控制在200ms内？权限校验如何在向量检索前就完成，避免越权读取？这些细节，才是决定一个LLM应用是玩具还是产品的分水岭。

我去年带团队落地一个法律文书分析SaaS时，就踩过所有坑：初期用FastAPI内置的BackgroundTasks跑嵌入生成，结果高峰期30个并发就把Uvicorn进程拖垮；后来切到Redis-backed Celery，又因为没配好acks_late=True和reject_on_worker_lost=True，导致一批法律条文索引任务静默失败，客户投诉“搜不到最新修订版”；向量库最初选了独立Qdrant，结果用户删除文档时，要同时删Qdrant里的向量+PostgreSQL里的记录，中间出错就造成数据不一致，审计时被问得哑口无言。这个模板，就是把我们用真金白银买来的教训，全揉进了可复用的代码结构里。

2. 整体架构设计与核心组件选型逻辑

2.1 为什么选Celery而不是其他任务队列？

市面上有RQ、Dramatiq、Huey甚至自研轻量队列，但Celery依然是Python生态中唯一能同时满足LLM SaaS三大刚性需求的方案：企业级可靠性、复杂工作流支持、成熟监控生态。这不是跟风，是经过压测和故障回溯后的理性选择。

首先看可靠性。LLM任务天然具备“高价值、长耗时、不可重放”特性——比如为一份50页PDF生成嵌入向量，可能耗时47秒，期间若Worker崩溃，必须确保任务不丢失、不重复执行、状态可追溯。Celery的acks_late=True参数让Worker在任务执行完成后再确认消费，配合task_acks_on_failure_or_timeout=True，即使进程被OOM Kill，任务也会重回队列；而reject_on_worker_lost=True则防止Worker失联后任务被永久搁置。这些参数组合，在我们实测中将任务丢失率从千分之三压到了零。

其次看工作流。一个完整的RAG流程绝非单步操作：需先解析PDF（异步）、再调用Embedding API（异步）、然后Upsert到Pg-vector（异步）、最后更新文档状态为“已索引”（同步）。Celery的chord（分组+回调）和chain（串行）原语，能用几行代码清晰表达这种依赖关系：

# 先并行处理多个chunk，全部完成后统一写入向量库 workflow = chord( [ embed_chunk.s(chunk_id, text) for chunk_id, text in chunks.items() ], upsert_to_pgvector.s(document_id) ) workflow.apply_async()

而RQ这类轻量队列，要实现同样逻辑得自己写状态机和轮询，开发成本陡增。

最后看监控。Celery Flower提供实时任务面板，能直观看到每个Worker的负载、任务排队时长、失败堆栈；结合Prometheus Exporter，可监控celery_task_runtime_seconds_bucket直方图，当95分位耗时突增到8秒以上，立刻触发告警——这比在日志里grep“timeout”高效十倍。我们曾靠这个指标发现某次OpenAI Embedding API升级后，text-embedding-3-small的P95延迟从1.2秒涨到6.8秒，提前两天定位到上游变更。

提示：模板中Celery Broker选用Redis而非RabbitMQ，不是因为Redis更“先进”，而是因为绝大多数LLM SaaS初期都已部署Redis作缓存，复用同一套实例省去运维两套消息中间件的精力。但务必注意：Redis作为Broker时，需关闭notify-keyspace-events以避免内存泄漏，且maxmemory-policy必须设为noeviction，否则任务消息被驱逐会导致静默失败。

2.2 为什么Pg-vector是向量检索的最优解？

向量数据库选型常陷入“性能幻觉”：看到Qdrant宣称100万向量下P99<50ms，就以为它适合所有场景。但SaaS的真实战场是混合查询——用户搜索“劳动仲裁赔偿标准”，系统不仅要返回最相似的法条向量，还要过滤“仅限北京地区生效”、“状态为‘现行有效’”、“用户权限等级≥3”的文档。此时，Qdrant的纯向量查询必须搭配外部PostgreSQL做二次过滤，一次请求变成“Qdrant查ID → PostgreSQL查元数据 → 应用层JOIN”，网络往返+序列化开销直接吃掉性能优势。

Pg-vector的破局点在于向量与关系数据的同构存储。它通过vector数据类型和<->操作符，让向量距离计算成为SQL的一等公民：

SELECT doc.id, doc.title, doc.jurisdiction, 1 - (doc.embedding <=> %s) as similarity FROM documents doc WHERE doc.status = 'active' AND doc.jurisdiction = 'beijing' AND doc.permission_level <= %s ORDER BY doc.embedding <=> %s LIMIT 10;

这个查询在PostgreSQL 15+中，能利用ivfflat索引（需先CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops)）将向量检索下推到存储层，元数据过滤在索引扫描阶段完成，全程单次SQL执行。我们在200万法律条文向量集上实测：开启ivfflat索引后，混合查询P95稳定在180ms，比Qdrant+PostgreSQL双查快2.3倍。

更重要的是数据一致性。Pg-vector的INSERT/UPDATE/DELETE完全遵循PostgreSQL事务ACID，用户删除文档时，只需一条DELETE FROM documents WHERE id = %s，向量数据和业务数据同步清除，无需担心Qdrant里残留僵尸向量。我们曾因Qdrant同步脚本bug，导致37份已作废的司法解释向量仍可被检索，引发客户合规质疑——这种风险，在Pg-vector架构下从根源上消失。

注意：Pg-vector的ivfflat索引需预设lists参数（聚类数），其经验值为sqrt(n)，其中n为向量总数。例如200万向量，lists应设为1414。设得太小（如100）会导致索引精度暴跌；设得太大（如10000）则索引体积膨胀，内存占用激增。模板中通过pg_stat_all_tables动态采样向量总数，自动生成建索引SQL，避免人工估算失误。

2.3 FastAPI、Celery、Pg-vector的协同边界

三者不是简单拼接，而是有明确职责划分的“铁三角”：

FastAPI：只做三件事——接收HTTP请求、校验JWT Token、发起Celery任务。所有耗时操作（包括数据库写入）都交由Celery Worker异步执行。它的/v1/embed接口返回的不是嵌入向量，而是task_id，前端轮询/v1/task/{id}获取状态。这样Uvicorn进程永远保持轻量，单核CPU可支撑300+ RPS。
Celery Worker：专注执行，不碰HTTP。它加载Embedding模型时使用torch.compile()加速，批处理时启用batch_size=32减少GPU显存碎片；写入Pg-vector前，先用INSERT ... ON CONFLICT DO UPDATE确保幂等性，避免重复嵌入覆盖；所有异常都捕获后转为结构化错误日志，包含document_id、model_name、error_type，方便ELK聚合分析。
Pg-vector：纯粹的数据引擎。它不参与业务逻辑，只响应SQL。模板中所有向量操作都封装在VectorRepository类里，该类继承自BaseRepository，共享连接池和事务管理。关键设计是向量表与业务表物理分离但逻辑强关联：documents表存业务字段，document_embeddings表存document_id外键和embedding向量，通过FOREIGN KEY约束保证引用完整性。这样既避免单表过大影响查询，又确保删除文档时可通过ON DELETE CASCADE自动清理向量。

这种分工让系统具备极强的可测试性：FastAPI单元测试只需Mock Celery的apply_async方法；Celery Worker测试可绕过FastAPI，直接调用embed_document.delay(doc_id)；Pg-vector查询测试用pytest-postgresql启动临时DB，插入测试向量后验证SQL结果。三者解耦，修改任一模块不影响其他模块的CI流水线。

3. 核心模块实现与关键配置详解

3.1 Celery配置：从环境隔离到故障自愈

Celery配置不是堆参数，而是构建一套适应LLM任务特性的运行时契约。模板中的celery_config.py包含五个关键层级：

第一层：Broker与Result Backend隔离

# celery_config.py broker_url = os.getenv("CELERY_BROKER_URL", "redis://localhost:6379/0") result_backend = os.getenv("CELERY_RESULT_BACKEND", "redis://localhost:6379/1")

必须将Broker（任务队列）和Result Backend（结果存储）分到不同Redis DB。原因很实际：Broker需高吞吐低延迟，Result Backend需强一致性防丢失。若共用DB，当Result Backend写入失败触发Redismaxmemory淘汰时，可能误删正在排队的任务消息。我们线上环境强制要求Broker用Redis Cluster，Result Backend用Redis Sentinel，物理隔离。

第二层：Worker资源管控

# celery_config.py worker_concurrency = int(os.getenv("CELERY_WORKER_CONCURRENCY", "2")) worker_prefetch_multiplier = 1 task_acks_late = True reject_on_worker_lost = True

worker_concurrency=2是针对GPU Worker的黄金值。LLM嵌入模型（如bge-m3）单次推理占满1块A10G显存，设为4会导致OOM；设为1则CPU利用率不足30%。prefetch_multiplier=1确保Worker只预取1个任务，避免任务堆积在Worker内存中却无法执行（因GPU满载）。acks_late和reject_on_worker_lost组合，已在2.1节详述其防丢失机制。

第三层：任务路由与队列隔离

# celery_config.py task_routes = { "app.tasks.embed.*": {"queue": "embedding"}, "app.tasks.rag.*": {"queue": "rag_search"}, "app.tasks.cleanup.*": {"queue": "maintenance"}, }

按任务类型划分专用队列，避免慢任务（如cleanup_expired_cache）阻塞快任务（如embed_chunk）。我们曾因未隔离队列，导致凌晨的索引清理任务占满Worker，白天用户上传文档后嵌入任务排队超15分钟——现在embedding队列独享2个Worker，P99排队时长压至200ms内。

第四层：自动重试策略

# celery_config.py task_default_retry_delay = 60 # 首次重试延时60秒 task_max_retries = 3 retry_backoff = True retry_backoff_max = 600 # 最大退避时间10分钟

LLM任务失败常因瞬时网络抖动（调用OpenAI超时）或GPU显存不足（OOM）。retry_backoff=True启用指数退避：第一次失败后等60秒，第二次等120秒，第三次等240秒，避免雪崩式重试压垮下游。max_retries=3是经验阈值——超过3次还失败，大概率是模型服务永久故障或输入数据损坏，应转人工介入。

第五层：监控埋点

# celery_config.py worker_hijack_root_logger = False task_track_started = True

worker_hijack_root_logger=False禁用Celery接管根日志器，确保所有日志经由structlog统一格式化，包含task_id、worker_hostname、duration_ms字段，便于ELK按任务追踪全链路。task_track_started=True让任务状态包含STARTED，前端轮询时可显示“正在处理中”，提升用户体验。

实操心得：Celery Worker启动时，模板会执行celery -A app.celery_worker worker --loglevel=info --pool=prefork。务必用--pool=prefork而非eventlet——后者虽支持异步I/O，但LLM推理是CPU/GPU密集型，prefork的多进程模型更能压榨硬件性能。我们实测prefork在A10G上吞吐量比eventlet高3.2倍。

3.2 Pg-vector集成：从索引构建到混合查询优化

Pg-vector集成的核心矛盾是：既要向量检索快，又要业务过滤准，还要数据写入稳。模板通过三层设计解决：

第一层：向量表结构与索引策略

-- migrations/002_create_vector_table.sql CREATE TABLE document_embeddings ( id SERIAL PRIMARY KEY, document_id INTEGER NOT NULL REFERENCES documents(id) ON DELETE CASCADE, embedding VECTOR(1024) NOT NULL, created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW() ); -- 创建IVFFLAT索引（cosine相似度） CREATE INDEX idx_document_embeddings_ivfflat ON document_embeddings USING ivfflat (embedding vector_cosine_ops) WITH (lists = 1000);

document_embeddings表与documents表通过外键关联，ON DELETE CASCADE确保文档删除时向量自动清理。ivfflat索引的lists=1000针对100万量级向量优化——太少则召回率低，太多则索引体积大。模板在应用启动时自动检测向量总数，动态调整lists值，避免硬编码。

第二层：向量写入的幂等保障

# repositories/vector_repository.py class VectorRepository: async def upsert_embedding( self, document_id: int, embedding: List[float], conn: AsyncConnection ) -> None: stmt = """ INSERT INTO document_embeddings (document_id, embedding) VALUES (%s, %s) ON CONFLICT (document_id) DO UPDATE SET embedding = EXCLUDED.embedding, created_at = NOW(); """ await conn.execute(stmt, (document_id, embedding))

ON CONFLICT (document_id)利用document_id唯一性约束，确保同一文档多次嵌入时只更新不新增。这解决了一个关键场景：用户编辑文档后重新触发嵌入，旧向量必须被覆盖，而非留下历史版本干扰检索。

第三层：混合查询的性能压测

# services/rag_service.py async def search_similar_documents( self, query_embedding: List[float], jurisdiction: str, min_permission: int, limit: int = 10 ) -> List[DocumentSearchResult]: stmt = """ SELECT d.id, d.title, d.content_preview, 1 - (de.embedding <=> %s) as similarity FROM documents d JOIN document_embeddings de ON d.id = de.document_id WHERE d.status = 'active' AND d.jurisdiction = %s AND d.permission_level >= %s ORDER BY de.embedding <=> %s LIMIT %s; """ rows = await self.conn.fetch( stmt, query_embedding, jurisdiction, min_permission, query_embedding, limit ) return [DocumentSearchResult(**r) for r in rows]

此查询的关键优化点有三：

JOIN而非子查询——PostgreSQL优化器对JOIN的执行计划更优；
WHERE条件放在JOIN后，让过滤尽早生效，减少JOIN数据量；
ORDER BY使用<=>操作符，直接调用Pg-vector的向量距离函数，避免应用层计算。

我们在AWS r6i.2xlarge（8核32GB）上压测：200万向量+50万文档元数据，混合查询P95=178ms，P99=245ms，完全满足SaaS SLA要求。

注意事项：Pg-vector的ivfflat索引需定期REFRESH以维持精度。模板中maintenance队列每小时执行一次REFRESH IVFFLAT INDEX idx_document_embeddings_ivfflat，并在索引刷新前自动SET LOCAL ivfflat.probes = 20提高召回率。若跳过此步，长期运行后索引精度会下降15%-20%。

3.3 FastAPI端协同：任务状态管理与安全网关

FastAPI不是Celery的客户端，而是它的“指挥官”。模板中api/v1/tasks.py定义了任务全生命周期管理：

任务提交接口

# api/v1/tasks.py @router.post("/embed", response_model=TaskResponse) async def trigger_embedding( request: EmbedRequest, current_user: User = Depends(get_current_active_user), celery_app: Celery = Depends(get_celery_app) ): # 权限校验：用户只能为自己的文档触发嵌入 if request.document_id not in await get_user_document_ids(current_user.id): raise HTTPException(status_code=403, detail="Forbidden") # 提交Celery任务 task = celery_app.send_task( "app.tasks.embed.embed_document", args=[request.document_id], kwargs={"user_id": current_user.id} ) return TaskResponse(task_id=task.id, status="PENDING")

这里有两个关键设计：

前置权限校验：在调用Celery前，先查get_user_document_ids()确认document_id归属，避免Worker执行时才发现越权——那已浪费GPU资源；
任务元数据注入：kwargs={"user_id": current_user.id}将用户ID传入Worker，Worker后续写入向量时可记录created_by，用于审计。

任务状态轮询接口

# api/v1/tasks.py @router.get("/task/{task_id}", response_model=TaskStatusResponse) async def get_task_status( task_id: str, celery_app: Celery = Depends(get_celery_app) ): task = celery_app.AsyncResult(task_id) if task.state == "PENDING": return TaskStatusResponse(status="PENDING", progress=0) elif task.state == "PROGRESS": return TaskStatusResponse( status="PROCESSING", progress=task.info.get("progress", 0) ) elif task.state == "SUCCESS": return TaskStatusResponse( status="COMPLETED", result=task.result ) else: # FAILURE return TaskStatusResponse( status="FAILED", error=str(task.info.get("exc_message", "Unknown error")) )

AsyncResult对象的state属性是Celery状态机的核心。模板特别处理了PROGRESS状态——Worker可通过self.update_state(state="PROGRESS", meta={"progress": 35})实时上报进度，前端据此渲染进度条。这比单纯返回“RUNNING”更友好。

安全网关设计
所有涉及向量检索的API（如/v1/rag/search）都强制要求X-User-Permission-LevelHeader：

# dependencies/security.py async def require_permission_level( permission_level: int = Header(..., alias="X-User-Permission-Level") ): if permission_level < 1: raise HTTPException(status_code=400, detail="Invalid permission level") return permission_level

此Header由API网关（如Kong或Traefik）在JWT校验后注入，FastAPI层直接信任。这样既避免Worker重复解析JWT，又确保向量查询SQL中d.permission_level >= %s参数来自可信源，杜绝Header伪造漏洞。

实操心得：我们在线上环境发现，当Celery Worker重启时，AsyncResult可能短暂返回PENDING（因Result Backend尚未同步状态）。为此，模板在get_task_status中加入重试逻辑：若首次查到PENDING，等待500ms后重查一次，避免前端误判任务卡死。

4. 生产环境部署与典型问题排查

4.1 Docker Compose部署拓扑与资源分配

模板提供docker-compose.prod.yml，定义了生产级最小可行拓扑：

# docker-compose.prod.yml version: '3.8' services: web: build: . command: uvicorn app.main:app --host 0.0.0.0:8000 --workers 4 environment: - DATABASE_URL=postgresql://user:pass@db:5432/app - CELERY_BROKER_URL=redis://redis-broker:6379/0 - CELERY_RESULT_BACKEND=redis://redis-result:6379/1 depends_on: - db - redis-broker - redis-result worker-embedding: build: . command: celery -A app.celery_worker worker --loglevel=info --queues=embedding --concurrency=2 environment: - DATABASE_URL=postgresql://user:pass@db:5432/app - CELERY_BROKER_URL=redis://redis-broker:6379/0 - CELERY_RESULT_BACKEND=redis://redis-result:6379/1 deploy: resources: limits: memory: 12G devices: - driver: nvidia count: 1 capabilities: [gpu] db: image: postgres:15 environment: - POSTGRES_DB=app - POSTGRES_USER=user - POSTGRES_PASSWORD=pass volumes: - pgdata:/var/lib/postgresql/data command: > postgres -c shared_preload_libraries='vector' -c work_mem='256MB' redis-broker: image: redis:7-alpine command: redis-server --maxmemory 2gb --maxmemory-policy noeviction redis-result: image: redis:7-alpine command: redis-server --maxmemory 1gb --maxmemory-policy allkeys-lru

关键配置说明：

PostgreSQL：shared_preload_libraries='vector'启用Pg-vector扩展；work_mem='256MB'提升ORDER BY向量距离排序的内存，避免落盘排序拖慢查询；
Redis Broker：--maxmemory 2gb+noeviction确保任务消息不被驱逐；
Redis Result Backend：allkeys-lru允许结果过期自动清理，避免磁盘爆满；
Worker GPU限制：devices段明确绑定1块GPU，memory: 12G匹配A10G显存，防止Worker争抢显存。

注意：web服务的--workers 4是基于GIL的合理值。Uvicorn的--workers对应进程数，每个进程单线程处理异步请求。4个进程在8核CPU上可充分利用，再多则进程切换开销反超收益。

4.2 典型问题速查表与根因分析

问题现象	可能根因	排查命令	解决方案
Celery任务长时间显示PENDING	Broker连接失败或队列名不匹配	`celery -A app.celery_worker inspect active_queues`	检查`task_routes`配置，确认Worker启动时指定了正确`--queues`；用`redis-cli -p 6379 KEYS "*"`确认Broker中是否有任务消息
向量检索结果为空，但文档存在	`ivfflat`索引未`REFRESH`或`probes`值过小	`SELECT * FROM pg_indexes WHERE tablename = 'document_embeddings';`	执行`REFRESH IVFFLAT INDEX idx_document_embeddings_ivfflat`；临时提高`probes`：`SET LOCAL ivfflat.probes = 50;`
Worker频繁OOM Killed	`worker_concurrency`设置过高或`batch_size`过大	`dmesg -T \| grep -i "killed process"`	降低`worker_concurrency`至2；在Embedding模型加载时添加`torch.cuda.empty_cache()`
Pg-vector查询变慢（P95 > 500ms）	`document_embeddings`表膨胀或索引失效	`VACUUM ANALYZE document_embeddings;`	定期执行`VACUUM`；检查`pg_stat_all_indexes`中索引`idx_scan`次数，若为0说明索引未被使用
任务结果无法获取，`AsyncResult`报`KeyError`	Result Backend连接失败或`result_backend`配置错误	`celery -A app.celery_worker inspect stats`	确认`CELERY_RESULT_BACKEND`指向正确的Redis DB；检查Redis日志是否有`maxmemory`警告

深度案例：任务静默失败的根因追踪
某次上线后，客户反馈“上传文档后一直显示处理中，但从未完成”。我们按步骤排查：

查celery inspect stats，发现Worker的total任务数远大于successful，差值即为失败数；
查celery inspect active_queues，确认embedding队列有积压；
查Worker日志，发现大量CUDA out of memory错误；
进入Worker容器，执行nvidia-smi，显示GPU显存100%占用；
检查代码，发现embed_chunk任务未设置torch.no_grad()，导致梯度缓存占用显存；
修复：在embed_chunk函数开头添加with torch.no_grad():，并增加torch.cuda.empty_cache()。

此问题暴露了LLM任务调试的特殊性：错误不抛异常，而是静默OOM。模板现已强制所有Embedding任务包裹try/except，捕获torch.cuda.OutOfMemoryError后主动上报retry，避免静默失败。

4.3 性能压测实录与调优参数

我们使用locust对/v1/embed和/v1/rag/search进行压测，目标：100并发下P95 < 2s。

压测环境：

Web服务：4核8GB，Uvicorn 4 workers
Worker：A10G GPU，2 workers
DB：r6i.2xlarge（8核32GB），PostgreSQL 15
数据集：100万法律条文向量（1024维）

初始结果：

/v1/embed：100并发下P95=3.8s，失败率12%
/v1/rag/search：P95=420ms，达标

调优过程：

Web层：将Uvicorn--workers从4调至6，P95降至2.9s（CPU利用率从75%升至88%）；
Worker层：worker_concurrency=2不变，但将embed_chunk的batch_size从16提至32，P95降至2.1s（GPU利用率从65%升至82%，显存占用稳定）；
DB层：work_mem从64MB提至256MB，/v1/rag/searchP95从420ms降至178ms；
最终结果：/v1/embedP95=1.92s，失败率0%；/v1/rag/searchP95=178ms。