当前位置：首页 > news >正文

LLM文本后处理实战：智能JSON提取与文本清洁流水线构建

news 2026/5/15 9:12:01

1. 项目概述：一个为LLM文本处理而生的“瑞士军刀”

如果你和我一样，在日常工作中频繁地与各种大型语言模型（LLM）打交道，无论是调用API进行内容生成，还是处理本地模型产出的海量文本，那你一定对下面这些场景不陌生：从不同模型或不同批次任务中得到的文本输出格式五花八门，有的带Markdown标记，有的夹杂着奇怪的换行和空格；你需要快速提取其中的关键信息，比如JSON结构、代码片段，或者仅仅是干净的纯文本段落；又或者，你需要对一批文本进行初步的质量评估、长度统计，甚至是简单的敏感词过滤。这些看似琐碎的任务，往往会消耗掉我们大量的“胶水代码”编写时间，让本应聚焦于核心逻辑的精力被分散。

thedaviddias/llms-txt-hub这个项目，正是为了解决这些痛点而生的。它不是一个庞大的框架，也不是一个需要复杂配置的中间件，而是一个轻量级、功能集中的Python工具库。你可以把它理解为一个专门为LLM文本后处理打造的“瑞士军刀”。它的核心目标非常明确：提供一套统一、简洁的接口，帮助开发者高效地清洗、转换、分析和提取来自LLM的文本内容。无论你用的是OpenAI的GPT系列、Anthropic的Claude，还是开源的Llama、Mistral，只要最终产出是文本，这个工具就能派上用场。

我在实际集成和使用中发现，它的价值在于将那些我们每次都要重复编写的“脏活累活”标准化了。比如，一个常见的需求是去除LLM回复中可能存在的“As an AI assistant, ...”这类前缀，或者标准化引号、处理无序列表的标记。llms-txt-hub把这些操作封装成了即插即用的函数，让你能用一两行代码完成过去需要正则表达式和字符串处理函数折腾半天的工作。它特别适合数据科学家、AI应用开发者、以及任何需要自动化处理LLM输出流水线的工程师，能显著提升从原始文本到可用数据之间的处理效率。

2. 核心设计理念与架构解析

2.1 为什么需要专门的LLM文本处理工具？

在深入代码之前，我们有必要先探讨一下这个项目存在的根本原因。你可能会问：Python已经有强大的字符串方法（.strip(),.replace()）和re（正则表达式）模块了，为什么还要额外引入一个库？原因在于LLM输出的文本具有其独特的“生态”和复杂性。

首先，非确定性格式。同一个提示词（prompt）发给LLM，每次的回复在格式上可能有细微差别。比如，有时它用“1. 2. 3.”来列举，有时用“-”来列举。一个旨在提取列表项的函数，必须能兼容这些变体。

其次，结构与非结构混合。LLM经常被要求输出结构化数据（如JSON）或代码。但模型可能会在JSON外面包裹上解释性文本（例如：“好的，这是您要的JSON数据：”），或者在代码块前后添加无关的评论。纯手工剥离这些内容既容易出错，又难以维护。

再者，多步骤处理流水线。处理一段LLM文本往往不是单一操作，而是一个流水线：先去除无关前缀/后缀，再清理多余空白字符，接着提取目标结构（如JSON），最后可能还要做个长度校验或关键词检查。自己编写这样的流水线，代码会迅速变得冗长且难以复用。

llms-txt-hub的设计正是基于这些观察。它没有试图做一个“大而全”的自然语言处理（NLP）库，而是精准地聚焦于“LLM输出文本的常见后处理模式”。它的架构是模块化和函数式的，每个函数只做好一件事，并且这些函数可以像乐高积木一样轻松组合，构建出复杂的处理流程。

2.2 核心模块与功能划分

浏览项目的源码结构，可以看到其清晰的功能模块划分，这反映了作者对LLM文本处理场景的深刻理解。主要模块通常包括：

清洁器（Cleaners）：这是最基础也是最常用的模块。包含一系列用于净化文本的函数。
- remove_prefixes: 移除常见的LLM开场白，如“Certainly!”，“Here is the answer:”。
- remove_suffixes: 移除常见的结束语，如“Let me know if you need further assistance.”。
- normalize_whitespace: 将多个连续空格、换行符、制表符标准化为单一空格或合理的换行。
- clean_markdown: 剥离或简化Markdown标记（如**粗体**、# 标题），只保留文本内容。这对于需要将LLM输出用于非Markdown渲染场景非常有用。
提取器（Extractors）：用于从混合文本中抽取出特定格式的内容。
- extract_json: 这是“杀手级”功能。它能从一段可能包含额外文本的字符串中，智能地定位、验证并提取出第一个完整的JSON对象或数组。它内部会处理常见的错误，如尾随逗号、未转义的特殊字符等。
- extract_code_blocks: 识别并提取Markdown代码块（language ...）或缩进代码块中的代码内容。
- extract_list_items: 将各种格式的列表（有序、无序、用“-”、“*”、数字编号）解析为Python列表。
分析器（Analyzers）：提供对文本的快速洞察。
- estimate_token_count: 快速估算文本的token数量（支持OpenAI的tiktoken或近似算法），对于控制API调用成本至关重要。
- contains_keywords: 检查文本是否包含（或不包含）某些关键词，可用于简单的分类或过滤。
- text_quality_heuristics: 提供一些启发式规则来评估文本质量，如检查是否以完整句子结尾、是否存在大量重复字符等。
工具函数（Utilities）：一些通用的辅助函数。
- split_by_length: 按token数或字符数将长文本分割成块，考虑句子边界，避免在单词中间切断。这对于处理超出模型上下文窗口的长文本非常必要。
- batch_process: 提供对文本列表进行批量化处理的便捷方法。

这种模块化设计的好处是依赖清晰、职责单一。你可以只导入需要的那个函数，而不是整个庞大的库。在构建自己的LLM应用管道时，你可以像搭积木一样，从llms-txt-hub中选取合适的“积木”，与你的业务逻辑无缝拼接。

注意：虽然项目提供了丰富的功能，但它并非旨在替代专业的NLP库（如spaCy、NLTK）。对于复杂的实体识别、情感分析、深度语法解析等任务，你仍然需要求助于那些更专业的工具。llms-txt-hub的定位是“轻量级”和“针对性”，它是你工具箱里那个最趁手、最常用的小工具。

3. 关键功能深度解析与实战应用

3.1 智能JSON提取：从混乱文本中拯救结构化数据

这是我在项目中用得最多，也是觉得最省心的功能。让我们通过一个具体场景来看它的威力。

场景：你让LLM根据用户查询生成一个产品配置单，并指定输出为JSON格式。但LLM的回复可能是这样的：

用户想要一台用于视频剪辑的笔记本电脑。根据您的要求，我推荐以下配置： ```json { "cpu": "Intel Core i7-13700H", "gpu": "NVIDIA GeForce RTX 4060", "ram": "32GB DDR5", "storage": "1TB NVMe SSD" }

这个配置能流畅运行Adobe Premiere等软件。

你的目标是得到那个干净的JSON字典，而不是整个回复文本。 **传统做法**：你可能会写一个正则表达式来匹配`{...}`之间的内容。但如果JSON被嵌套在多层引号里，或者文本中有多个花括号（比如代码注释），这个正则就会变得复杂且脆弱。你还需要处理JSON解析错误，并可能要进行多次尝试。 **使用 `llms-txt-hub`**： ```python from llms_txt_hub.extractors import extract_json llm_output = """用户想要一台用于视频剪辑的笔记本电脑。根据您的要求，我推荐以下配置： ```json { "cpu": "Intel Core i7-13700H", "gpu": "NVIDIA GeForce RTX 4060", "ram": "32GB DDR5", "storage": "1TB NVMe SSD" }

这个配置能流畅运行Adobe Premiere等软件。 """

config_data = extract_json(llm_output) print(config_data)

输出: {'cpu': 'Intel Core i7-13700H', 'gpu': 'NVIDIA GeForce RTX 4060', 'ram': '32GB DDR5', 'storage': '1TB NVMe SSD'}

print(type(config_data)) # 输出: <class 'dict'>

**背后的原理与技巧**： `extract_json` 函数内部做了大量工作来保证鲁棒性： 1. **模式匹配**：它不仅仅寻找第一个`{`和最后一个`}`。它会尝试识别JSON的起始和结束边界，包括可能存在的`[`和`]`（对于JSON数组）。 2. **递归验证**：它会尝试解析候选字符串。如果失败（例如因为尾随逗号、未闭合的引号），它会采用启发式方法进行微调，比如尝试平衡大括号、修复常见的格式错误，然后再次尝试解析。这个过程可能会递归进行几次。 3. **容错处理**：如果文本中包含多个JSON-like结构，它会尝试每一个，直到找到一个能成功解析的为止。 4. **返回策略**：默认返回Python字典或列表。你也可以通过参数指定返回原始JSON字符串。 **实操心得**： * **设置`strict=False`**：在大多数情况下，建议将`strict`参数设为`False`。这允许函数进行更多的修复尝试。只有在你知道LLM输出绝对规范时，才使用严格模式。 * **处理多个JSON**：如果一段文本中可能包含多个独立的JSON对象（比如LLM列举了多个选项），`extract_json` 默认返回第一个。如果需要全部提取，你可能需要结合`findall`和循环，或者考虑先按逻辑分割文本。 * **与Pydantic结合**：提取出字典后，我强烈推荐使用Pydantic进行数据验证和类型转换。这能确保数据的结构完全符合你的预期，将运行时错误提前到初始化阶段。 ```python from pydantic import BaseModel class PcConfig(BaseModel): cpu: str gpu: str ram: str storage: str config_dict = extract_json(llm_output) validated_config = PcConfig(**config_dict) # 这里会自动进行类型验证 ``` ### 3.2 文本清洁流水线：构建可复用的处理流程 单一清洁操作往往不够。一个健壮的LLM输出处理流程，通常是一个清洁函数的管道（pipeline）。`llms-txt-hub` 的函数式设计让这种组合变得异常简单。 **场景**：你从多个不同来源（不同模型、不同提示词版本）收集了文本反馈，需要将它们统一清洗成干净的、可用于分析的纯文本。 ```python from llms_txt_hub.cleaners import ( remove_common_prefixes, remove_common_suffixes, normalize_whitespace, clean_markdown ) def my_text_pipeline(text): """一个自定义的文本清洁流水线""" # 步骤1: 移除模型常用的礼貌性前缀/后缀 text = remove_common_prefixes(text) text = remove_common_suffixes(text) # 步骤2: 清理Markdown格式（如果我们不需要它） text = clean_markdown(text, remove_headers=True, remove_emphasis=True) # 步骤3: 标准化所有空白字符（多个空格、换行变单空格，但保留段落分隔） text = normalize_whitespace(text, keep_line_breaks=False) # 步骤4: 可选的自定义规则，例如移除特定的水印 if "[Generated by Model X]" in text: text = text.replace("[Generated by Model X]", "").strip() return text # 批量处理 raw_texts = [...] cleaned_texts = [my_text_pipeline(t) for t in raw_texts]

设计流水线的经验：

顺序很重要：通常先做“删除”（如移除前缀），再做“转换”（如清理Markdown），最后做“规范化”（如标准化空格）。过早规范化空格可能会影响基于特定模式（如代码块）的提取逻辑。
保持幂等性：理想情况下，将同一段文本通过流水线处理两次，应该得到相同的结果。这有助于调试和确保流程稳定。
编写单元测试：为你关键的清洁流水线编写测试，提供一些“脏”的LLM输出样例，断言清洗后的结果。这能有效防止后续代码修改引入回归错误。

3.3 Token估算与文本分块：成本控制与上下文管理的基石

当处理长文档或需要控制API调用成本时，准确估算token数和合理分块是必不可少的。

Token估算：llms-txt-hub的estimate_token_count函数通常支持多种编码方式。对于OpenAI模型，它内部使用tiktoken，这是最准确的方式。对于其他模型，它可能回退到基于单词或字符的近似算法。

from llms_txt_hub.analyzers import estimate_token_count long_text = "这是一段很长的文本..." # 使用OpenAI的cl100k_base编码（GPT-3.5/4使用） token_count = estimate_token_count(long_text, encoding_name="cl100k_base") print(f"预计Token数: {token_count}")

为什么这很重要？因为LLM API的计费是基于token的。在发送请求前进行估算，可以避免意外产生高额费用，也可以预先判断文本是否超出模型的上下文限制。

智能文本分块：简单的按字符数切割会切断单词和句子，导致语义碎片化。split_by_length函数提供了更智能的切割。

from llms_txt_hub.utils import split_by_length document = "这是一个长文档。它包含多个句子。我们需要把它分成小块，每块不能超过100个token。同时要确保切割点在句子边界附近，而不是在单词中间。" chunks = split_by_length( document, max_tokens=100, encoding_name="cl100k_base", # 指定编码以准确计算token overlap_tokens=20, # 块与块之间重叠20个token，防止上下文断裂 split_method="sentence" # 优先在句子边界处切割 ) for i, chunk in enumerate(chunks): print(f"块 {i+1} (长度: {estimate_token_count(chunk)} tokens): {chunk[:50]}...")

关键参数解析：

max_tokens：每个块允许的最大token数。这是硬性限制。
overlap_tokens：重叠的token数。这对于需要保持上下文连贯性的任务（如文档摘要、问答）非常关键。重叠部分确保了信息在块与块之间平滑传递。
split_method：切割策略。“sentence”（句子）是最常用的，“word”（单词）次之，“character”（字符）是最后的选择。库内部会尽可能在指定的边界处切割，如果不行再回退到更细的粒度。

注意：智能分块不是完美的。对于结构非常特殊或句子边界不清晰的文本（如某些代码日志、无标点古文），可能仍需结合自定义规则进行后处理。

4. 集成到实际项目：构建健壮的LLM应用管道

理论说再多，不如看一个贴近实战的例子。假设我们正在构建一个智能客服工单分类系统，LLM负责阅读用户描述并输出分类JSON。

4.1 项目架构与流程设计

我们的流程如下：

接收：从消息队列或API获取原始用户工单文本。
预处理：对用户输入进行基本清洁（去除无关字符、标准化格式）。
LLM调用：构建提示词（Prompt），调用LLM API，请求其以指定JSON格式输出分类结果。
后处理：提取并验证LLM返回的JSON。
验证与落库：将验证后的数据存入数据库或推送到下游服务。

llms-txt-hub将主要在第2步（预处理）和第4步（后处理）发挥核心作用。

4.2 核心代码实现

import json import logging from typing import Optional, Dict, Any from pydantic import BaseModel, ValidationError from llms_txt_hub.cleaners import normalize_whitespace from llms_txt_hub.extractors import extract_json # 1. 定义我们期望的数据结构 class TicketClassification(BaseModel): category: str # e.g., "billing", "technical", "feature_request" urgency: str # e.g., "low", "medium", "high", "critical" summary: str # LLM生成的工单摘要 tags: list[str] = [] # 相关的标签 # 2. 预处理模块 def preprocess_user_input(raw_input: str) -> str: """清洁用户输入的文本""" # 去除首尾空白，合并多余空格和换行（保留段落感） cleaned = normalize_whitespace(raw_input, keep_line_breaks=True) # 这里可以添加更多自定义规则，比如过滤敏感词、纠正明显错别字等 # cleaned = apply_custom_rules(cleaned) return cleaned # 3. 构建提示词 def build_classification_prompt(cleaned_input: str) -> str: prompt_template = """ 你是一个客服工单分类助手。请分析以下用户描述，并严格按照以下JSON格式输出分类结果。 用户描述： ``` {user_input} ``` 请输出JSON： {{ "category": "账单问题 | 技术故障 | 功能建议 | 账户管理 | 其他", "urgency": "low | medium | high | critical", "summary": "对用户问题的简要总结，不超过50字", "tags": ["tag1", "tag2", ...] }} 只输出JSON，不要有任何其他解释。 """ return prompt_template.format(user_input=cleaned_input) # 4. 后处理与验证模块 (核心) def process_llm_response(llm_raw_output: str) -> Optional[TicketClassification]: """ 处理LLM的原始回复，提取、验证并返回结构化的分类数据。 如果失败，返回None并记录错误。 """ try: # 第一步：尝试智能提取JSON extracted_data = extract_json(llm_raw_output, strict=False) if not extracted_data: logging.warning(f"无法从LLM输出中提取JSON。原始输出: {llm_raw_output[:200]}...") return None # 第二步：使用Pydantic进行强验证和类型转换 # 这步会检查字段是否存在、类型是否正确、是否符合预设的枚举值等 classification = TicketClassification(**extracted_data) # 第三步：额外的业务逻辑验证（可选） # 例如，如果urgency是"critical"，但category是"feature_request"，可能不合逻辑 if classification.urgency == "critical" and classification.category == "feature_request": logging.info(f"业务逻辑警告: 功能建议被标记为紧急。数据: {classification.dict()}") # 可以选择降级urgency或记录审计日志 return classification except (json.JSONDecodeError, ValidationError) as e: # 捕获JSON解析失败或数据验证失败的错误 logging.error(f"LLM响应解析/验证失败。错误: {e}。原始输出: {llm_raw_output[:500]}...") return None except Exception as e: # 捕获其他意外错误 logging.exception(f"处理LLM响应时发生未知错误: {e}") return None # 5. 主流程示例 def main_classification_flow(raw_user_ticket: str, call_llm_api_func): """ 主流程：预处理 -> LLM调用 -> 后处理 call_llm_api_func: 一个模拟的调用LLM API的函数 """ # 预处理 clean_input = preprocess_user_input(raw_user_ticket) # 构建提示词并调用LLM prompt = build_classification_prompt(clean_input) llm_raw_response = call_llm_api_func(prompt) # 这里替换成真实的API调用 # 后处理与验证 result = process_llm_response(llm_raw_response) if result: print(f"分类成功！") print(f" 类别: {result.category}") print(f" 紧急度: {result.urgency}") print(f" 摘要: {result.summary}") print(f" 标签: {result.tags}") # 这里可以将result存入数据库或推送到下游队列 return result.dict() # 返回字典形式便于序列化 else: print(f"分类失败，工单需要人工处理。") # 可以触发人工审核流程 return None

4.3 设计考量与最佳实践

在这个集成示例中，有几个关键的设计点值得深入探讨：

1. 分离关注点：我们将预处理、提示词构建、LLM调用、后处理验证清晰地分离开。每个函数职责单一，便于独立测试和维护。llms-txt-hub被用在最合适的环节——文本的“净化”和“提取”。

2. 防御性编程：process_llm_response函数包含了多层错误处理。首先，extract_json本身具有容错性；其次，Pydantic验证提供了强大的数据完整性保障；最后，try...except块捕获了所有预期内的异常。这确保了即使LLM“胡言乱语”或返回了格式错误的JSON，整个系统也不会崩溃，而是优雅地降级（记录错误、转人工处理）。

3. 可观测性：通过logging模块详细记录了成功、警告和错误信息。这对于监控生产环境中LLM的表现、发现提示词（Prompt）的问题、以及审计数据流至关重要。你可以知道失败是因为提取问题、验证问题，还是业务逻辑问题。

4. 可配置性：示例中的TicketClassification模型和提示词模板都是可以轻松替换的。这意味着你可以用同一套处理框架，适配不同的分类任务（如情感分析、意图识别、实体提取），只需修改Pydantic模型和提示词即可。

实操心得：关于提示词（Prompt）工程llms-txt-hub解决了后处理的问题，但前端的提示词设计同样重要。为了获得更稳定、更易解析的LLM输出，在编写提示词时，我总结了几个小技巧：

明确指令：在提示词中明确要求“只输出JSON”、“不要有任何其他解释文字”。使用“```json”代码块包裹示例，能显著提高模型输出规范JSON的概率。
提供示例：在提示词中给出一个或多个清晰的输出示例（Few-shot Learning），让模型模仿格式。
指定模型：如果可能，选择在结构化输出方面表现更好的模型。例如，GPT-4通常比GPT-3.5更擅长遵循复杂的输出格式要求。
后处理兜底：即使提示词写得再好，也要用llms-txt-hub这样的工具做后处理兜底。模型的行为始终存在一定的不确定性。

5. 常见问题、性能考量与扩展方向

5.1 常见问题排查速查表

在实际使用中，你可能会遇到以下问题。这里提供一个快速排查指南：

问题现象	可能原因	解决方案
`extract_json`返回`None`或抛出异常	1. 文本中确实没有有效的JSON结构。 2. JSON格式错误严重，无法自动修复。 3. 文本编码或包含不可见字符。	1. 检查LLM输出，确认其是否按指示输出了JSON。 2. 尝试设置`strict=False`。如果还不行，先用`clean_markdown`或正则表达式预处理文本，移除可能干扰的字符。 3. 打印并检查原始文本的`repr()`，看是否有`\u200b`等零宽字符，用`text.replace(‘\u200b’, ‘’)`清理。
Token估算结果与API返回的usage差异大	1. 使用的编码器（如`tiktoken`）与模型实际使用的编码不匹配。 2. 对于非OpenAI模型，近似算法误差较大。	1. 确保`encoding_name`参数与目标模型匹配（如GPT-4用`cl100k_base`）。 2. 对于其他模型，查阅其官方文档，看是否有官方的tokenizer可用。`llms-txt-hub`的估算仅作参考，应以API返回为准。
`split_by_length`切割点不理想	1. 文本语言特殊（如混合中英文、无标点）。 2.`split_method`设置不合适。	1. 尝试调整`split_method`，比如从`sentence`切换到`word`。 2. 考虑在切割前，用简单的规则对文本进行预分段（如按双换行符`\n\n`分割）。 3. 实现一个自定义的`split_function`传入。
清洁函数改变了需要的格式	例如，`clean_markdown`把代码块的标记也移除了，但你后续需要这些标记。	仔细阅读每个函数的文档，了解其具体行为。对于复杂需求，可以不用库提供的复合函数，而是组合使用更底层的操作，或者编写自己的清洁函数。始终先在测试数据上验证效果。
处理长文本列表时速度慢	纯Python循环处理大量文本，可能成为性能瓶颈。	1. 利用`batch_process`工具函数（如果提供），它可能内部做了一些优化。 2. 考虑使用`concurrent.futures.ThreadPoolExecutor`进行简单的并行处理，特别是当处理过程是CPU密集型时（注意Python的GIL）。 3. 对于超大规模处理，可能需要考虑PyPy或更底层的实现。

5.2 性能考量与优化建议

llms-txt-hub作为Python库，其性能在绝大多数应用场景下是足够的。然而，在处理海量文本或超长文档时，有几点需要注意：

JSON提取的复杂度：extract_json中的递归修复逻辑在极端复杂的错误情况下可能耗时。如果99%的LLM输出都是规整的JSON，可以考虑先尝试快速解析（如json.loads(text)），失败后再回退到extract_json。
Token估算的成本：使用tiktoken进行精确编码是相对较快的，但对于每秒需要处理成千上万次调用的场景，它仍然有开销。如果对token数只有粗略要求（例如，只是判断“很长”或“很短”），可以使用基于字符数的快速估算（len(text) / 4是一个很粗略的经验值）。
内存占用：split_by_length函数在切割长文档时，会生成一个字符串列表。如果原文档极其巨大（如数百MB），一次性加载到内存并切割可能不合适。在这种情况下，可能需要流式读取和处理的方案，这超出了llms-txt-hub当前的设计范畴。

一个简单的性能测试模式：

import time from llms_txt_hub.extractors import extract_json def benchmark_extraction(texts): start = time.time() for text in texts: _ = extract_json(text, strict=False) end = time.time() print(f"处理 {len(texts)} 条文本，耗时 {end-start:.2f} 秒，平均每条 {(end-start)/len(texts)*1000:.2f} 毫秒") # 用你的典型数据测试 sample_texts = [ ... ] # 准备100-1000条典型的LLM回复 benchmark_extraction(sample_texts)

5.3 扩展与定制化

llms-txt-hub提供了很好的基础，但真实项目总有特殊需求。幸运的是，它的模块化设计使得扩展非常容易。

1. 添加自定义清洁规则：假设你的LLM总是在开头加上特定的公司水印“[Acme Corp AI]”，你可以轻松创建一个自定义清洁函数，或者包装现有的函数。

from llms_txt_hub.cleaners import remove_common_prefixes def remove_acme_watermark(text): """移除我们公司特定的AI水印""" watermark = "**[Acme Corp AI]**" if text.startswith(watermark): return text[len(watermark):].lstrip() return text def my_enhanced_cleaner(text): text = remove_acme_watermark(text) text = remove_common_prefixes(text) # 再移除其他通用前缀 # ... 其他清洁步骤 return text

2. 支持新的LLM特定格式：如果某个新的LLM总是以一种奇特的方式输出列表，比如用“=>”作为项目符号，你可以扩展extract_list_items的逻辑，或者创建一个新的提取器。

import re from llms_txt_hub.extractors import extract_list_items # 假设我们想扩展它 def extract_list_items_custom(text, pattern=r'(?:^|\n)=>?\s*(.+)'): """ 提取以 '=>' 或 '->' 开行的列表项。 这是一个简化示例，真实情况需要更健壮的解析。 """ matches = re.findall(pattern, text, re.MULTILINE) return [match.strip() for match in matches if match.strip()]

3. 集成到更复杂的管道中：你可以将llms-txt-hub与langchain、llama_index等更高级的框架结合。例如，在langchain中，你可以创建一个自定义的OutputParser，内部使用llms-txt-hub来处理和验证模型的输出，从而构建出既利用了大框架的链式能力，又具备了稳定后处理的强大管道。

这个项目的魅力在于，它没有过度设计，而是提供了坚实、实用的基础功能。你可以直接使用它来快速解决80%的常见问题，剩下的20%特殊需求，也可以通过其清晰的接口和代码结构进行灵活的扩展。它让开发者能够重新聚焦于LLM应用的核心业务逻辑，而不是陷在文本处理的泥潭里。

查看全文

http://www.jsqmd.com/news/820779/