当前位置：首页 > news >正文

基于大语言模型的PDF文档智能翻译：从原理到工程实践

news 2026/5/14 1:14:29

1. 项目概述：当大语言模型遇上PDF翻译

最近在折腾一个挺有意思的项目，叫poppanda/LLM_PDF_Translator。光看名字，核心功能就很清晰了：一个利用大语言模型（LLM）来翻译PDF文档的工具。这玩意儿听起来简单，不就是把PDF里的文字抽出来，扔给翻译API，再塞回去吗？但真正上手做，你会发现从PDF解析、文本处理、到LLM调用和格式还原，每一步都有不少门道。我自己在本地部署和调试的过程中，踩了不少坑，也积累了一些能让翻译效果更“地道”的经验。如果你也经常需要处理外文技术文档、学术论文或者产品手册，希望有一个能保留原格式、翻译质量又相对可靠的自动化工具，那这个项目的思路和实现细节，或许能给你不少启发。它本质上是一个将传统文档处理流程与前沿AI能力结合的典型应用，特别适合开发者、研究人员或者内容工作者来折腾和定制。

2. 核心架构与工具选型解析

2.1 为什么是“LLM” + “PDF”？

传统的PDF翻译流程，通常是“PDF转Word -> 机器翻译（如谷歌翻译插件）-> 人工校对格式”。这条路子问题很多：格式丢失严重（尤其是复杂的图表、公式、排版）、机器翻译结果生硬（特别是专业术语和长难句）、流程割裂效率低。LLM_PDF_Translator的思路，就是用大语言模型作为翻译引擎的核心，同时深度处理PDF的文档结构。

选择LLM而不是传统机器翻译API（如Google Translate, DeepL），核心优势在于“理解上下文”和“指令跟随”。LLM能更好地把握段落乃至全文的语境，处理一词多义；更重要的是，我们可以通过精心设计的提示词（Prompt），让它按照特定风格（如学术体、技术文档体）翻译，并正确处理专业术语。而PDF解析则是另一个基石，我们需要的不只是提取文字，还要尽可能保留原文的章节结构、列表、强调格式等元信息，这样才能在翻译后尽可能地“原样”输出。

2.2 技术栈拆解与选型理由

这个项目通常涉及几个核心模块，每个模块的选型都直接关系到最终效果：

PDF解析器：这是第一步，也是决定上限的一步。常见的库有PyPDF2,pdfplumber,PyMuPDF。我实测下来，PyMuPDF（又名fitz）在提取文本和位置信息上综合表现最好，尤其是对复杂排版和扫描版PDF（需配合OCR）的支持。pdfplumber在表格提取上更胜一筹。在这个翻译场景下，我们更关注文本流和格式，因此PyMuPDF是更稳妥的选择。
文本分割与预处理：LLM有上下文长度限制（如4K、8K、16K tokens）。我们不能把整本几百页的PDF一次性喂给模型。因此，需要根据语义（如章节、段落）或固定长度对提取的文本进行智能分割。这里可以用langchain的文本分割器，或者更轻量的tiktoken（用于OpenAI模型计数）配合自定义规则。关键是要在“保证语义完整性”和“适应模型窗口”之间找到平衡。我的经验是，优先按“\n\n”分割段落，对于超长段落再按句子或固定token数进行二次分割，并保留分割标记以便后续重组。
大语言模型接口：这是项目的“大脑”。选项包括：
- OpenAI API (GPT系列)：效果最好，尤其是gpt-4，但成本也高，且存在数据出境顾虑。
- 开源模型本地部署：如Qwen、Llama、ChatGLM等，通过Ollama、vLLM或Transformers库调用。数据安全可控，但需要一定的GPU资源，且翻译质量可能略逊于顶尖商用模型。
- 国内大模型API：如智谱、百度文心、月之暗面等，作为折中方案。选型时需权衡翻译质量、成本、速度、数据隐私。对于个人或内部使用，我倾向于使用性能较好的开源模型本地部署；对于质量要求极高的场景，则可能选择GPT-4。
提示词工程：这是提升翻译质量的关键“软技能”。一个基础的翻译提示词可能只要求“将以下文本翻译成中文”。但一个优秀的提示词应该包含：
- 角色设定：例如“你是一位资深的计算机科学文献翻译专家”。
- 翻译要求：保持专业术语准确（可提供术语表）、语言风格（正式/口语）、保留原文的强调格式（如加粗、斜体）。
- 输出格式约束：严格要求只输出翻译后的文本，不添加任何解释。
- 上下文利用：对于分段翻译，可以附带前一段的部分内容作为上下文，保证连贯性。我常用的一个改进版提示词模板是：
```
你是一位专业的科技文档翻译员。请将以下英文段落翻译成流畅、准确的中文。要求： 1. 专业术语保持统一和准确。 2. 语言风格严谨、清晰。 3. 保留原文中任何明显的格式指示，如 **加粗**、*斜体* 或 `代码`。 4. 如果遇到人名、公司名、产品名等专有名词，首次出现时在括号内保留英文原名。 5. 直接输出翻译结果，不要添加任何额外说明。 待翻译文本： {text_segment}
```
翻译后处理与格式重建：将LLM返回的分段翻译结果，按照之前记录的分割标记和原文结构重新组装。如果原文PDF有目录、页眉页脚等，这一步还需要更复杂的逻辑来映射和还原。对于简单的纯文本PDF，输出为一个格式整洁的Markdown或Word文件可能就足够了。对于格式要求高的，可能需要操作PDF库进行原位文本替换，但这非常复杂且容易出错，通常更可行的方案是生成翻译后的新文档。

3. 从零搭建：核心实现步骤详解

3.1 环境准备与依赖安装

首先，我们需要一个干净的Python环境（建议3.9+）。使用venv或conda创建独立环境是个好习惯。核心依赖包如下：

pip install pymupdf # PDF解析 pip install openai # 如果使用OpenAI API # 或者，如果使用本地开源模型 # pip install transformers torch # 或者，使用ollama # pip install ollama pip install tiktoken # 用于文本分割和token计数 pip install python-docx # 用于输出Word文档 pip install markdown # 用于输出Markdown

如果你处理的是扫描版PDF，还需要OCR引擎，pytesseract和pdf2image是常用组合：

pip install pytesseract pdf2image # 同时需要系统安装Tesseract-OCR

3.2 PDF解析与文本提取实战

这里以PyMuPDF为例，展示如何提取文本并保留基础结构信息。

import fitz # PyMuPDF def extract_text_with_structure(pdf_path): """ 提取PDF文本，并尝试保留章节、段落和格式线索。 返回一个结构化的列表，每个元素代表一个文本块及其属性。 """ doc = fitz.open(pdf_path) structured_content = [] for page_num in range(len(doc)): page = doc.load_page(page_num) # 获取页面的文本块，每个块包含文本、矩形坐标、字体信息等 blocks = page.get_text("dict")["blocks"] for block in blocks: if block["type"] == 0: # 文本块 text = "" font_sizes = [] is_bold = False for line in block["lines"]: for span in line["spans"]: text += span["text"] font_sizes.append(span["size"]) # 简单判断粗体：字体名常含'Bold'，或字体标志位 if "bold" in span["font"].lower() or span["flags"] & 2**4: is_bold = True # 清理文本并记录信息 if text.strip(): structured_content.append({ "page": page_num + 1, "text": text.strip(), "font_size": max(font_sizes) if font_sizes else 10, "is_bold": is_bold, "is_paragraph": text.endswith('.') or len(text) > 50 # 简单的段落推断 }) doc.close() return structured_content

这个函数返回的structured_content列表，包含了文本、所在页码、字体大小和是否粗体等信息。字体大小和粗体信息可以用来推断标题（大号+粗体）和正文，为后续的智能分割和格式还原提供依据。

注意：PDF的内部结构千差万别，没有一种解析方法能100%完美。上述方法是一个基础版本。对于特别复杂的排版，可能需要结合page.get_text("text")按顺序提取，再通过正则表达式或启发式规则来划分段落和标题。

3.3 文本分割策略：平衡语义与长度限制

直接按固定长度（如2000字符）分割会切断句子，导致LLM理解困难。我们需要更智能的分割。

import re import tiktoken # 用于GPT模型token计数 def semantic_split(text, max_tokens=1500, model_name="gpt-3.5-turbo"): """ 基于语义的文本分割。 优先按双换行（段落）分割，对于超长段落再按句子分割。 """ # 首先按段落分割 paragraphs = re.split(r'\n\s*\n', text) chunks = [] current_chunk = "" encoder = tiktoken.encoding_for_model(model_name) for para in paragraphs: para = para.strip() if not para: continue # 估算当前段落token数 para_tokens = len(encoder.encode(para)) current_tokens = len(encoder.encode(current_chunk)) if current_chunk else 0 # 如果当前块加上新段落不超限，则合并 if current_tokens + para_tokens <= max_tokens: if current_chunk: current_chunk += "\n\n" + para else: current_chunk = para else: # 如果当前块已有内容，先保存 if current_chunk: chunks.append(current_chunk) current_chunk = "" # 如果单个段落就超长，需要按句子进一步分割 if para_tokens > max_tokens: sentences = re.split(r'(?<=[.!?])\s+', para) # 简单按句子分割 sub_chunk = "" for sent in sentences: sent_tokens = len(encoder.encode(sent)) sub_chunk_tokens = len(encoder.encode(sub_chunk)) if sub_chunk else 0 if sub_chunk_tokens + sent_tokens <= max_tokens: sub_chunk = sub_chunk + " " + sent if sub_chunk else sent else: if sub_chunk: chunks.append(sub_chunk.strip()) sub_chunk = sent if sub_chunk: chunks.append(sub_chunk.strip()) else: # 段落不超长，但当前块已满，新段落作为新块的开始 current_chunk = para # 不要忘记最后一个块 if current_chunk: chunks.append(current_chunk) return chunks

这个分割策略的核心是“段落优先”。它首先保证段落的完整性，只有在段落本身过长时，才退回到按句子分割。同时，它使用tiktoken进行精确的token计数，确保每个分割块都不会超过LLM的上下文限制（这里预留了一些空间给提示词和输出）。

3.4 调用LLM进行翻译：核心逻辑与错误处理

这里以使用OpenAI API为例，展示如何构建一个健壮的翻译函数。

import openai import time from typing import List class PDFTranslator: def __init__(self, api_key, base_url=None, model="gpt-3.5-turbo"): self.client = openai.OpenAI(api_key=api_key, base_url=base_url) self.model = model self.prompt_template = """你是一位专业的科技文档翻译员。请将以下英文段落翻译成流畅、准确的中文。要求： 1. 专业术语保持统一和准确。 2. 语言风格严谨、清晰。 3. 保留原文中任何明显的格式指示，如 **加粗**、*斜体* 或 `代码`。 4. 如果遇到人名、公司名、产品名等专有名词，首次出现时在括号内保留英文原名。 5. 直接输出翻译结果，不要添加任何额外说明。 待翻译文本： {text}""" def translate_chunk(self, text_chunk: str, max_retries: int = 3) -> str: """翻译单个文本块，包含重试机制。""" prompt = self.prompt_template.format(text=text_chunk) for attempt in range(max_retries): try: response = self.client.chat.completions.create( model=self.model, messages=[ {"role": "system", "content": "你是一个专业的翻译助手。"}, {"role": "user", "content": prompt} ], temperature=0.1, # 低温度保证翻译稳定性 max_tokens=len(text_chunk) * 2, # 预留足够输出空间 request_timeout=30 # 设置超时 ) translated_text = response.choices[0].message.content.strip() # 简单清洗：移除可能出现的引号包裹 if translated_text.startswith('"') and translated_text.endswith('"'): translated_text = translated_text[1:-1] return translated_text except openai.RateLimitError: wait_time = 2 ** (attempt + 1) # 指数退避 print(f"速率限制，等待 {wait_time} 秒后重试...") time.sleep(wait_time) except (openai.APITimeoutError, openai.APIConnectionError) as e: print(f"网络错误 (尝试 {attempt+1}/{max_retries}): {e}") if attempt < max_retries - 1: time.sleep(5) else: raise except openai.APIError as e: print(f"OpenAI API错误: {e}") raise # 其他API错误直接抛出 return "" # 所有重试失败 def translate_document(self, text_chunks: List[str]) -> List[str]: """批量翻译文档块。""" translated_chunks = [] total = len(text_chunks) for i, chunk in enumerate(text_chunks): print(f"正在翻译块 {i+1}/{total} (约 {len(chunk)} 字符)...") translated = self.translate_chunk(chunk) translated_chunks.append(translated) # 避免触发速率限制，小规模延迟 time.sleep(0.5) return translated_chunks

这个类封装了翻译的核心逻辑。关键点在于：

错误处理与重试：网络请求不稳定或遇到API速率限制是常事，指数退避重试机制能有效提高成功率。
温度参数：temperature=0.1让模型输出更确定、更稳定，适合翻译任务。
输出清洗：LLM有时会在输出外额外包裹引号或说明文字，简单的清洗能提升结果纯净度。

3.5 结果重组与输出

翻译完成后，我们需要将分散的块重新组合成连贯的文档。如果之前的分割策略做得好（保留了段落标记），重组就相对简单。

def reassemble_document(original_chunks: List[str], translated_chunks: List[str], original_structure: List[dict]): """ 将翻译后的块重组为完整文档。 这里简化处理，直接按顺序拼接。更复杂的实现可以依据 original_structure 还原格式。 """ # 最简单的方式：按块顺序拼接，块之间用双换行连接 full_translated_text = "\n\n".join(translated_chunks) # 进阶：尝试还原一些格式 # 例如，如果 original_structure 中标记了 is_bold，可以在对应翻译文本上添加Markdown加粗 # 这需要将翻译块与原始结构块进行对齐，是一个复杂的对齐问题，通常需要更精细的设计。 return full_translated_text def output_to_file(translated_text: str, output_format: str = "markdown", filename: str = "translated_doc"): """将翻译文本输出为文件。""" if output_format.lower() == "markdown": with open(f"{filename}.md", "w", encoding="utf-8") as f: f.write(translated_text) print(f"Markdown文件已保存: {filename}.md") elif output_format.lower() == "txt": with open(f"{filename}.txt", "w", encoding="utf-8") as f: f.write(translated_text) print(f"文本文件已保存: {filename}.txt") elif output_format.lower() == "docx": from docx import Document doc = Document() # 简单处理，将双换行视为段落分隔 paragraphs = translated_text.split('\n\n') for para in paragraphs: doc.add_paragraph(para) doc.save(f"{filename}.docx") print(f"Word文档已保存: {filename}.docx") else: raise ValueError(f"不支持的输出格式: {output_format}")

目前，格式还原是一个巨大的挑战。上述代码仅实现了最基本的文本输出。一个更高级的实现可能需要：

在解析阶段，不仅提取文本，还提取每个文本块的坐标、样式、所属的页面元素（如标题、正文、图注）。
在翻译后，将翻译文本映射回这些结构元素。
使用像reportlab或python-pptx（对于PPT）这样的库，或者直接操作PDF对象，来重新生成带有格式的文档。这通常超出了个人项目的范畴，需要投入大量工程精力。因此，对于大多数实际应用，输出结构清晰的Markdown或Word文档，已经是很好的折中方案。

4. 避坑指南与性能优化实战

4.1 成本控制：如何用最少的钱办最多的事？

使用商用LLM API，成本是首要考虑因素。这里有几个实战技巧：

选择合适的模型：对于技术文档，gpt-3.5-turbo的性价比通常高于gpt-4，质量足够。仅在翻译文学性、创造性极强或要求极高的法律/医学文本时，才考虑GPT-4。
精准控制Token：
- 精简提示词：去掉提示词中所有不必要的修饰语，用最简洁的语言表达要求。
- 优化文本分割：避免在段落中间切断。一个被切断的段落，LLM需要额外tokens来理解不完整的上下文，可能影响翻译质量并增加成本。确保每个分割块都是语义完整的单元。
- 设置max_tokens：在API调用中合理设置max_tokens参数，略大于输入文本的预期翻译长度即可，避免为未使用的输出tokens付费。
缓存与去重：如果文档中有大量重复内容（如术语表、公司介绍），可以建立简单的缓存字典。在翻译前，先检查当前文本块是否与已翻译过的内容高度相似（例如，使用最小哈希或simhash），如果是，则直接使用缓存结果。
异步与批处理：如果API支持批处理请求（如OpenAI的批处理API），可以将多个小的文本块合并到一个请求中发送，这比逐个请求更高效、更便宜。对于不支持批处理的，可以使用asyncio进行异步并发调用，但要注意并发数不要超过API限制。

4.2 提升翻译质量的“软技巧”

除了模型本身，翻译质量很大程度上取决于我们如何“喂养”它。

构建领域术语表：这是提升专业文档翻译准确性的最有效方法。在翻译开始前，可以手动或自动提取文档中的高频名词、缩写、专业术语，形成一个“术语对照表”。然后将这个表作为系统提示词的一部分，或者附加在每个用户提示词的开头。例如：“请遵循以下术语表进行翻译：API -> 应用程序接口， Kubernetes -> Kubernetes（不翻译）， latency -> 延迟...”。
提供上下文窗口：对于分段翻译，当前段的前一段和后一段（或前几句/后几句）是宝贵的上下文。可以在提示词中加入“上文摘要”和“下文预览”，帮助模型把握叙述逻辑和指代关系。例如：“[上文简述：介绍了微服务架构的优势。] [当前段落] [下文预览：接下来将讨论其面临的挑战。]”。
后处理与一致性检查：LLM翻译不同段落时，对同一个术语可能有不同译法。全部翻译完成后，进行一次全局的“查找与替换”来统一术语是必要的。可以写一个简单的脚本，基于术语表进行自动化替换。
人工校对环节设计：完全自动化的翻译目前还无法达到出版级水准。设计一个高效的人工校对流程至关重要。例如，输出时可以在每个段落旁保留原文作为对照（生成双语对照文档），或者开发一个简单的Web界面，让校对者可以逐段审核和修改。

4.3 处理复杂PDF的挑战与对策

扫描版PDF（图片型）：必须使用OCR。流程变为：PDF -> 图像（pdf2image）-> OCR（pytesseract/Tesseract）-> 文本。Tesseract对于英文效果不错，但中文需要下载额外的语言包。OCR后文本的段落和格式信息几乎全部丢失，需要后期通过空行、缩进等启发式规则重新划分。
包含大量公式和表格：这是当前方案的难点。PyMuPDF可以提取出公式的文本符号（如E=mc^2），但无法保留其二维布局。表格提取可以使用pdfplumber或camelot，提取后可以将其转换为Markdown表格或HTML，在提示词中明确告诉LLM“这是一个表格，请保持表格结构翻译”，LLM有时能很好地处理。但对于复杂公式，更好的方案可能是保留原文，或者寻求专门的公式识别与转换工具。
多栏排版：page.get_text("text”)提取的顺序可能是乱的。需要先使用page.get_text("blocks”)或page.get_text("dict”)获取每个文本块的坐标，然后按照阅读顺序（通常是先上后下，先左后右）对块进行排序，才能得到正确的文本流。

4.4 本地化部署与开源模型调优

如果你选择本地部署开源模型，以下几点是关键：

模型选择：对于翻译任务，优先选择在 multilingual 或 translation 任务上表现好的模型。例如，Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct都是不错的选择。可以在Hugging Face的Open LLM Leaderboard上查看相关排名。
量化与硬件：使用bitsandbytes进行4-bit或8-bit量化，可以大幅降低显存占用，让7B/8B的模型在消费级显卡（如RTX 4060 16G）上流畅运行。
提示词适配：开源模型的提示词格式可能与ChatGPT不同。例如，Llama系列通常需要[INST]和[/INST]标签。务必查阅所选模型的官方文档，使用正确的对话模板。
使用Ollama简化部署：Ollama是一个极其方便的本地大模型运行框架。安装后，一行命令就能拉取和运行模型：ollama run qwen2.5:7b。然后通过其提供的API（类似OpenAI格式）来调用，可以极大降低部署复杂度。

# 使用Ollama API（假设本地Ollama服务运行在11434端口） from openai import OpenAI client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama') # api_key可任意填 response = client.chat.completions.create( model='qwen2.5:7b', # 你本地拉取的模型名 messages=[...], temperature=0.1 )

5. 项目扩展思路与高级应用场景

一个基础的PDF-LLM翻译器跑通后，你可以根据需求将它扩展得更强大、更专用。

5.1 从工具到系统：构建翻译工作流

自动化流水线：结合文件夹监控（如watchdog库），实现“拖入PDF -> 自动翻译 -> 输出结果”的全自动化流程。
图形界面：使用Gradio或Streamlit快速构建一个Web界面，让非技术用户也能轻松上传文件、选择模型、设置参数并下载结果。
集成到知识库：将翻译后的文档，通过嵌入模型向量化，存入ChromaDB或Milvus等向量数据库，构建一个可双语检索的企业知识库。
质量评估模块：引入翻译质量自动评估指标，如BLEU、BERTScore，或者用另一个LLM来给翻译结果打分，自动筛选出低质量片段供人工重点复核。

5.2 面向特定领域的深度定制

学术论文翻译：可以训练或微调模型，使其更熟悉特定学科的术语和表达习惯（如计算机科学的arXiv论文）。提示词中可以加入“请按照中文计算机学术论文的写作风格进行翻译”。
法律合同翻译：法律文本要求极高的准确性和一致性，不能有任何歧义。需要构建非常完善的法律术语库，并且可能需要在提示词中强调“逐字逐句忠实翻译，保留所有法律条款的严谨性”。
文学书籍翻译：这可能是最难的方向，要求译文的“信、达、雅”。需要选择创意写作能力强的模型（如GPT-4），并在提示词中详细规定风格（如“翻译成富有文学色彩的中文，保留原作的比喻和韵律感”）。这通常需要大量的人工干预和后期润色。
实时字幕翻译：虽然本项目处理PDF，但其核心的“分段-翻译”流程可以适配。将视频语音识别（ASR）得到的逐句文本，作为输入流，送入LLM进行实时翻译，再与视频画面合成。这对模型的推理速度提出了极高要求。

5.3 遇到的典型问题与排查记录

在实际操作中，你肯定会遇到各种问题。下面是一个我遇到过的典型问题速查表：

问题现象	可能原因	排查与解决思路
翻译结果包含大量英文未翻译	1. 提示词未强调“翻译成中文”。 2. 文本中包含大量模型无法处理的专有名词（如代码、产品型号）。 3. 模型本身的多语言能力弱。	1. 检查并强化提示词中的目标语言指令。 2. 在预处理阶段，用正则表达式识别并保护可能不需要翻译的文本块（如代码块、URL、特定格式的型号），在翻译后替换回来。 3. 尝试更换或微调模型。
输出格式混乱，丢失所有换行	LLM在输出时忽略了原文的段落结构。	1. 在提示词中明确要求“保留原文的段落结构”。 2. 在输入时，用特殊的标记（如`[PARAGRAPH]`）明确标识段落边界，并要求模型在输出时保留这些标记。
API调用频繁超时或报错	1. 网络不稳定。 2. 请求频率超限。 3. 单次请求文本过长。	1. 实现如前所述的指数退避重试机制。 2. 降低并发请求数，增加请求间隔。 3. 检查并减小`max_tokens`参数，或进一步分割输入文本。
翻译结果前后术语不一致	模型在翻译不同段落时缺乏全局视野。	1. 实施“术语一致性后处理”脚本。 2. 尝试增大上下文窗口，将整个章节一次性翻译（如果长度允许）。 3. 在翻译每个段落时，附带一个本章节已出现术语的简短列表。
本地模型翻译速度极慢	1. 模型过大，硬件跟不上。 2. 未使用量化或GPU加速。	1. 换用更小的模型（如3B、7B参数）。 2. 确保使用了`torch`的GPU版本，并且模型加载到了GPU上。 3. 使用`vLLM`这类高性能推理库，它支持连续批处理和PagedAttention，能极大提升吞吐量。
提取的文本顺序错乱	PDF是多栏或复杂排版。	1. 使用`PyMuPDF`的`get_text(“dict”)`提取带坐标的块。 2. 根据块的Y坐标（行）和X坐标（列）进行排序，模拟阅读顺序。可能需要针对特定类型的PDF编写自定义的排序逻辑。

折腾这个项目的过程中，最大的体会是“没有银弹”。LLM带来了翻译质量的飞跃，但PDF格式的复杂性、专业术语的一致性、成本与效率的平衡，这些老问题依然需要扎实的工程技巧和细致的调优去解决。它不是一个“一键完美”的工具，而是一个强大的“副驾驶”，能将人从机械的初翻工作中解放出来，聚焦于审校和润色。如果你正准备实现类似功能，我的建议是：先从最简单的纯文本PDF开始，打通端到端流程；然后逐步加入格式处理、术语表、错误重试等增强功能；最后再根据你的特定文档类型（论文、手册、合同）去深度定制提示词和后处理逻辑。这个过程本身，就是对AI应用开发的一次绝佳实践。

查看全文

http://www.jsqmd.com/news/812173/