当前位置：首页 > news >正文

Blockify RAG引擎：让检索准确率飙升260%的开源方案，告别暴力分块，用IdeaBlock重构你的RAG系统

news 2026/7/26 1:54:05

Blockify RAG引擎：让检索准确率飙升260%的开源方案

副标题: 告别暴力分块，用IdeaBlock重构你的RAG系统

痛点：为什么你的RAG检索总是差强人意？

你有没有遇到过这种情况：

检索回来的文档片段语义不完整，上下文被暴力切分破坏
多个文档有近似重复内容，token浪费严重
LLM从检索结果中"找答案"效率低，经常答非所问
检索准确率远低于预期，用户不满意

真相只有一个：问题不在检索算法，而在知识表示方式！

问题	影响
固定分块(512token)	语义完整性被破坏
无元数据	过期内容混入
重复膨胀	token浪费
LLM做"找答案"	效率低

一、Blockify核心设计

1.1 IdeaBlock结构

传统RAG用"文档片段"作为检索单元，Blockify用"IdeaBlock"：

<ideablock> <name>概念名称</name> <critical_question>它能回答什么问题</critical_question> <trusted_answer>经过验证的答案</trusted_answer> <tags>元数据标签</tags> <entity>实体信息</entity> </ideablock>

核心洞察：让LLM直接"用答案"，而不是从段落里"找答案"。

1.2 两阶段管线

阶段	核心操作
Ingest	上下文感知分块 + LLM提取 + 问答对生成
Distill	LSH去重 + Louvain聚类 + LLM合并 + 迭代蒸馏

1.3 性能数据

指标	传统RAG	Blockify	提升
压缩率	1:1	40:1	40倍
准确率	基准	+260%~650%	2.6~6.5倍
Token消耗	1500	500	3倍降低

二、传统RAG vs Blockify

2.1 检索单元对比

维度	传统RAG	Blockify
单元	文档片段(512token)	IdeaBlock(问答对)
检索目标	“找到相关段落”	“找到相关答案”
LLM角色	从段落中提取答案	直接用答案
去重	无	LSH+聚类

2.2 效果对比

场景	传统RAG	Blockify
复杂问题	需要拼接多个片段	单个IdeaBlock即可
重复内容	多次检索到相似片段	自动去重合并
时效性	无版本管理	元数据标注版本

三、实战：如何实现Blockify式RAG

3.1 IdeaBlock提取

defextract_ideablock(doc_chunk):prompt=f""" 从以下文本中提取一个IdeaBlock： 文本：{doc_chunk}请输出JSON格式： { {"name": "概念名称", "critical_question": "它能回答什么问题", "trusted_answer": "经过验证的答案", "tags": ["标签1"], "entity": "实体"}} """response=llm.call(prompt)returnjson.loads(response)

3.2 LSH去重

fromdatasketchimportMinHash,MinHashLSHdefcreate_minhash(text,num_perm=128):m=MinHash(num_perm=num_perm)forwordintext.split():m.update(word.encode('utf8'))returnmclassLSHDeduplicator:def__init__(self,threshold=0.8):self.lsh=MinHashLSH(threshold=threshold,num_perm=128)self.documents={}defadd(self,doc_id,text):m=create_minhash(text)self.lsh.insert(doc_id,m)self.documents[doc_id]=textdeffind_duplicates(self,doc_id):m=create_minhash(self.documents<