当前位置：首页 > news >正文

PaperFlow 项目进展记录：从 Embedding 落库到知识库 RAG 问答链打通

news 2026/5/8 7:09:06

这段时间我继续推进的重点，不再是“五 Agent 流程能不能跑”，而是把它进一步从“工作流演示”推进成“真正可用的知识引擎”。

如果说前一个阶段解决的是：五 Agent 的职责拆分,Curator / Editor 结果正式入库,个人知识库数据库 paperflowdb 的搭建,那么这一阶段解决的，就是知识库继续往下一层怎么走的问题：

入库之后，知识内容如何变成可向量检索、可语义召回、可支撑问答的知识对象。

围绕这个目标，我这阶段主要做了三件事：

把 Agent 产出的知识卡片真正写入 embedding 层，而不是只停留在 pf_paper 和 pf_paper_chunk。
把历史 embedding 没落库的问题定位出来并修掉，完成数据补偿回填。
把 Sage 从“卡片关键词匹配”升级成“基于 pf_paper_embedding 的知识库 RAG 问答”，并进一步接到 /v1/chat/completions，让 Java 侧普通 AI chat 真正能通过 Python 知识引擎访问知识库。

这意味着 PaperFlow 的知识流转已经从：搜索 -> 审核 -> 编辑 -> 入库继续推进到了：入库 -> chunk 化 -> embedding 化 -> RAG 检索 -> 知识问答

一、为什么这阶段必须先补 Embedding，而不是直接继续做聊天接口

前一阶段我已经把五 Agent 的产出正式沉淀到了数据库里：Curator / Editor 通过的论文进入 pf_paper,Agent 生成的结构化 chunk 写入 pf_paper_chunk,Pathfinder 的学习路径进入 pf_learning_plan,工作流运行记录进入 pf_agent_run

这说明当时系统已经具备了“把论文处理结果转成结构化知识对象”的能力。但是，如果只停在这里，知识库本质上还是一个“结构化内容库”，还不能算真正的“知识检索库”。

原因很直接：Sage 后续如果要做真正的知识问答，就不能只靠：标题关键词命中,摘要字符串重叠和本地卡片拼接，这种方式顶多能做弱检索，做不到真正的语义召回。

尤其是后面如果要支持这些能力，用户自然语言追问，跨论文证据拼接，学习路径中的概念追问

以及Java 外层 AI chat 调知识库，那么知识库中的 chunk 就必须完成向量化，进入可计算、可召回的状态。所以这一阶段的本质目标其实不是“接个 embedding API”，而是把知识库从：存储结构化内容推进到能够真正支撑 RAG 的语义知识库

二、这次先补的是 Agent 输出后的 Embedding 自动写入

这一阶段我在 Python 知识引擎里加入了 embedding 持久化能力，做法包括：新增 EmbeddingClient，在 PaperflowDbService 中注入 embedding client,在 upsert_agent_outputs(...) 完成 pf_paper / pf_paper_chunk 写入后，继续触发 embedding 写入只对 agent-workflow 来源的 chunk 做 embedding,并将结果正式写入 pf_paper_embedding

这样之后，五 Agent 输出的知识对象不再只是“可展示的卡片”，而是会继续变成可语义召回的知识块以及后续 RAG 的证据单元甚至Java 上层 AI chat 可间接访问的知识底座

这里我对知识库结构的理解也更清楚了：

pf_paper 负责论文级对象
pf_paper_chunk 负责检索粒度
pf_paper_embedding 负责语义表示

这个三层结构出来之后，PaperFlow 的知识库才真正开始具备“知识引擎”的基础。

三、Embedding 没落库的问题

这次开发里，真正花时间的部分不是“写 embedding 代码”，而是“把 embedding 为什么没写进去这件事彻底查清楚”。我在服务器上重启 paperflow-knowledge.service 后，重新调用了 /internal/plans/generate，工作流接口返回 200，说明五 Agent 主流程本身是通的。

但是进一步查库后发现：pf_paper_chunk 里已经有 agent-workflow chunk，pf_paper_embedding 还是空的，这说明问题不是工作流没跑，而是 embedding 持久化这一步出了问题。

我检查以后发现接入的 embedding 服务端对单批请求条数有限制，而之前代码没有控制批量大小。所以我把 embedding 批量写入改成最多 10 条一批。

还有一条报错信息是：embedding dim mismatch: expected=1536, actual=1024

这说明数据库 schema 固定用的是 vector(1536)，但当前接入的 Qwen text-embedding-v4 返回的是 1024 维。考虑到当前项目阶段更强调稳定推进，而不是频繁动库，我最后选择了保持 schema 不动，在 embedding 适配层做维度处理，也就是把 1024 维的 embedding 自动补齐到 1536 维，再写入 pf_paper_embedding