当前位置：首页 > news >正文

终极指南：如何快速扩展LangExtract社区插件生态系统支持AWS Bedrock和LiteLLM

news 2026/5/5 7:50:14

终极指南：如何快速扩展LangExtract社区插件生态系统支持AWS Bedrock和LiteLLM

【免费下载链接】langextractA Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.项目地址: https://gitcode.com/GitHub_Trending/la/langextract

LangExtract是一个功能强大的Python库，能够使用LLM从非结构化文本中提取结构化信息，并提供精确的源定位和交互式可视化功能。本文将详细介绍如何为LangExtract扩展社区插件生态系统，以支持AWS Bedrock和LiteLLM，让你轻松扩展文本提取能力。

为什么需要扩展LangExtract插件生态系统？

随着人工智能技术的快速发展，越来越多的大型语言模型（LLM）服务提供商涌现，如AWS Bedrock和LiteLLM。扩展LangExtract的插件生态系统，能够让用户根据自己的需求选择合适的LLM服务，提高文本提取的灵活性和效率。

LangExtract的交互式可视化功能可以帮助用户更直观地查看提取结果。例如，在医疗文本提取场景中，它能够清晰地标记出药物名称、剂量、频率等关键信息：

准备工作：环境搭建与项目结构

在开始扩展插件之前，首先需要搭建开发环境并了解LangExtract的项目结构。

1. 克隆项目仓库

git clone https://gitcode.com/GitHub_Trending/la/langextract cd langextract

2. 项目结构概览

LangExtract的项目结构清晰，主要包含以下几个关键目录：

langextract/：核心代码目录，包含了LangExtract的主要功能实现
examples/：示例代码目录，包含了各种使用示例和插件开发示例
plugins/：插件目录，用于存放社区开发的各种插件
scripts/：脚本目录，包含了一些实用的工具脚本

其中，examples/custom_provider_plugin/目录提供了一个自定义provider插件的示例，我们可以以此为基础进行扩展。

扩展LangExtract支持AWS Bedrock

AWS Bedrock是一项完全托管的服务，提供了对各种基础模型的访问。下面我们将介绍如何为LangExtract开发一个支持AWS Bedrock的插件。

1. 创建插件骨架

LangExtract提供了一个便捷的脚本create_provider_plugin.py，可以帮助我们快速创建插件骨架。运行以下命令：

python scripts/create_provider_plugin.py AWSBedrockProvider --with-schema

这将在examples/custom_provider_plugin/目录下创建一个名为langextract_provider_awsbedrock的插件目录，包含了基本的插件结构和schema文件。

2. 实现AWS Bedrock Provider

打开langextract_provider_awsbedrock/provider.py文件，我们需要实现AWS Bedrock的具体调用逻辑。以下是关键部分的实现：

# 导入必要的库 import boto3 from langextract.core import base_model from langextract.providers import router @router.register(r'^aws-bedrock') class AWSBedrockProvider(base_model.BaseLanguageModel): def __init__(self, model_id: str = 'anthropic.claude-v2', region_name: str = 'us-east-1', **kwargs): super().__init__() self.model_id = model_id self.region_name = region_name self.client = boto3.client('bedrock-runtime', region_name=region_name, **kwargs) def infer(self, batch_prompts: Sequence[str], **kwargs): # 实现AWS Bedrock API调用逻辑 for prompt in batch_prompts: # 构造请求 request = { "prompt": prompt, "max_tokens_to_sample": kwargs.get('max_tokens', 1000), # 其他参数... } # 调用AWS Bedrock API response = self.client.invoke_model( modelId=self.model_id, body=json.dumps(request) ) # 处理响应 result = json.loads(response['body'].read()) yield [types.ScoredOutput(score=1.0, output=result['completion'])]

3. 配置Schema

编辑langextract_provider_awsbedrock/schema.py文件，定义AWS Bedrock特有的配置参数，如模型ID、区域等。

扩展LangExtract支持LiteLLM

LiteLLM是一个统一的API，支持多种LLM服务。下面我们将介绍如何为LangExtract开发一个支持LiteLLM的插件。

1. 创建插件骨架

同样，使用create_provider_plugin.py脚本创建LiteLLM插件骨架：

python scripts/create_provider_plugin.py LiteLLMProvider --with-schema

2. 实现LiteLLM Provider

打开langextract_provider_litellm/provider.py文件，实现LiteLLM的调用逻辑：

# 导入必要的库 import litellm from langextract.core import base_model from langextract.providers import router @router.register(r'^litellm') class LiteLLMProvider(base_model.BaseLanguageModel): def __init__(self, model_id: str = 'gpt-3.5-turbo', **kwargs): super().__init__() self.model_id = model_id self.kwargs = kwargs def infer(self, batch_prompts: Sequence[str], **kwargs): # 合并默认参数和调用参数 all_kwargs = {**self.kwargs, **kwargs} # 实现LiteLLM API调用逻辑 for prompt in batch_prompts: # 调用LiteLLM API response = litellm.completion( model=self.model_id, messages=[{"role": "user", "content": prompt}], **all_kwargs ) # 处理响应 yield [types.ScoredOutput(score=1.0, output=response.choices[0].message.content)]

3. 测试插件功能

创建测试文件test_litellm_provider.py，编写测试用例验证插件功能：

import langextract as lx def test_litellm_provider(): config = lx.factory.ModelConfig( model_id="gpt-3.5-turbo", provider="LiteLLMProvider" ) model = lx.factory.create_model(config) # 测试简单提取 text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo" schema = lx.schema.EntitySchema( entities=[lx.schema.EntityType(name="character"), lx.schema.EntityType(name="emotion")] ) result = lx.extract(text, schema=schema, model=model) assert len(result.entities) > 0

运行测试，确保插件能够正常工作。

插件注册与使用

完成插件开发后，需要将插件注册到LangExtract中，以便在实际应用中使用。

1. 注册插件

在插件的__init__.py文件中添加注册代码：

from .provider import AWSBedrockProvider, LiteLLMProvider __all__ = ["AWSBedrockProvider", "LiteLLMProvider"]

2. 在项目中使用插件

在实际应用中，可以通过以下方式使用我们开发的插件：

import langextract as lx # 使用AWS Bedrock插件 bedrock_config = lx.factory.ModelConfig( model_id="anthropic.claude-v2", provider="AWSBedrockProvider", region_name="us-east-1" ) bedrock_model = lx.factory.create_model(bedrock_config) # 使用LiteLLM插件 litellm_config = lx.factory.ModelConfig( model_id="gpt-3.5-turbo", provider="LiteLLMProvider" ) litellm_model = lx.factory.create_model(litellm_config) # 提取文本 text = "The patient was prescribed Lisinopril and Metformin last month. He takes the Lisinopril 10mg daily for hypertension, but often misses his Metformin 500mg dose which should be taken twice daily for diabetes." schema = lx.schema.EntitySchema( entities=[ lx.schema.EntityType(name="medication"), lx.schema.EntityType(name="dosage"), lx.schema.EntityType(name="frequency"), lx.schema.EntityType(name="condition") ] ) result = lx.extract(text, schema=schema, model=bedrock_model) print(result)

运行上述代码，你将看到LangExtract使用AWS Bedrock或LiteLLM模型提取出文本中的医疗实体信息，效果如下：