当前位置：首页 > news >正文

.NET Core后端服务集成BERT文本分割模型REST API

news 2026/5/12 20:06:39

.NET Core后端服务集成BERT文本分割模型REST API

如果你是一个C#或.NET开发者，正在为你的Web应用寻找一个智能的文本处理方案，比如自动将长篇文章切分成逻辑清晰的段落，那么这篇文章就是为你准备的。

想象一下，你的应用需要处理用户上传的文档、新闻稿或者产品说明，这些文本往往很长，直接展示给用户或者进行后续分析都不太方便。手动分割？效率太低。用简单的标点符号分割？效果很差，经常把完整的语义切断。这时候，一个能理解语义的文本分割模型就显得尤为重要。

BERT模型在自然语言处理领域已经证明了它的强大，基于它构建的文本分割服务，能够根据上下文语义，智能地将长文本切分成连贯的段落。今天，我们不聊复杂的模型训练，而是聚焦于工程落地：如何在你熟悉的ASP.NET Core Web API项目中，像调用普通服务一样，优雅、可靠地集成这样一个AI能力。

我们将一起完成从设计接口、配置HTTP客户端、实现容错机制，到最终将处理结果存入数据库的完整流程。你会发现，集成AI服务和你平时调用第三方API没有本质区别，只是多了一些确保稳定性的考量。

1. 项目准备与模型服务对接

在开始写代码之前，我们需要明确两端的职责。假设BERT文本分割模型已经部署好，并提供了一个REST API端点，比如http://your-ai-service:5000/predict。它接收一个JSON格式的文本，返回分割后的段落列表。我们的ASP.NET Core应用则作为客户端去调用它。

首先，创建一个新的ASP.NET Core Web API项目，或者在你现有的项目中，我们首先需要定义与AI服务通信的数据契约。

1.1 定义数据模型

在Models文件夹下，创建两个类，分别对应请求和响应。这能让我们的代码更清晰、类型安全。

// Models/TextSegmentationRequest.cs namespace YourProject.Models { public class TextSegmentationRequest { public string Text { get; set; } // 你可以根据需要添加其他参数，如分割粒度、最大长度等 // public int MaxSegmentLength { get; set; } = 500; } } // Models/TextSegmentationResponse.cs namespace YourProject.Models { public class TextSegmentationResponse { public List<string> Segments { get; set; } = new List<string>(); public string? ModelVersion { get; set; } public long ProcessingTimeMs { get; set; } } }

1.2 设计服务接口

接下来，我们定义一个服务接口。这是依赖注入和单元测试的关键，也符合.NET Core的设计模式。

// Services/ITextSegmentationService.cs using YourProject.Models; namespace YourProject.Services { public interface ITextSegmentationService { Task<TextSegmentationResponse> SegmentTextAsync(string text, CancellationToken cancellationToken = default); } }

接口很简单，就是异步接收一段文本，返回分割结果。有了接口，我们就可以实现具体的调用逻辑了。

2. 实现HTTP客户端与容错机制

直接使用HttpClient发送请求很简单，但在生产环境中，我们需要考虑更多：服务可能暂时不可用、响应可能超时、网络可能抖动。这里，我们引入Polly这个强大的.NET弹性和瞬态故障处理库来增强健壮性。

首先，通过NuGet安装必要的包：

Install-Package Microsoft.Extensions.Http.Polly Install-Package Polly.Extensions.Http

2.1 实现具体的服务类

现在，我们来创建接口的实现类。这个类将封装所有与AI服务通信的细节。

// Services/BertTextSegmentationService.cs using System.Net.Http.Json; using Microsoft.Extensions.Logging; using Polly; using Polly.Extensions.Http; using Polly.Timeout; using YourProject.Models; namespace YourProject.Services { public class BertTextSegmentationService : ITextSegmentationService { private readonly HttpClient _httpClient; private readonly ILogger<BertTextSegmentationService> _logger; private readonly IAsyncPolicy<HttpResponseMessage> _resiliencePolicy; public BertTextSegmentationService(HttpClient httpClient, ILogger<BertTextSegmentationService> logger) { _httpClient = httpClient; _logger = logger; // 构建一个组合策略 _resiliencePolicy = Policy.WrapAsync( CreateRetryPolicy(), CreateCircuitBreakerPolicy(), CreateTimeoutPolicy() ); } public async Task<TextSegmentationResponse> SegmentTextAsync(string text, CancellationToken cancellationToken = default) { if (string.IsNullOrWhiteSpace(text)) { return new TextSegmentationResponse { Segments = new List<string> { text } }; } var request = new TextSegmentationRequest { Text = text }; try { // 使用定义好的策略来执行HTTP调用 var response = await _resiliencePolicy.ExecuteAsync(async () => { return await _httpClient.PostAsJsonAsync("predict", request, cancellationToken); }); response.EnsureSuccessStatusCode(); // 确保HTTP状态码是2xx var result = await response.Content.ReadFromJsonAsync<TextSegmentationResponse>(cancellationToken: cancellationToken); return result ?? new TextSegmentationResponse(); } catch (TimeoutRejectedException) { _logger.LogError("请求文本分割服务超时。"); throw new ServiceUnavailableException("AI服务响应超时，请稍后重试。"); } catch (BrokenCircuitException) { _logger.LogError("断路器已打开，文本分割服务暂时不可用。"); throw new ServiceUnavailableException("AI服务暂时不可用，请稍后重试。"); } catch (HttpRequestException ex) { _logger.LogError(ex, "调用文本分割服务时发生网络错误。"); throw new ServiceUnavailableException("无法连接到AI服务。", ex); } catch (Exception ex) { _logger.LogError(ex, "处理文本分割请求时发生未知错误。"); throw; } } // 重试策略：对于特定的HTTP状态码进行重试 private static IAsyncPolicy<HttpResponseMessage> CreateRetryPolicy() { return HttpPolicyExtensions .HandleTransientHttpError() // 处理408, 5xx等 .Or<TimeoutRejectedException>() // 也处理超时 .WaitAndRetryAsync( retryCount: 3, sleepDurationProvider: retryAttempt => TimeSpan.FromSeconds(Math.Pow(2, retryAttempt)), // 指数退避 onRetry: (outcome, timespan, retryAttempt, context) => { // 可以在这里记录日志 }); } // 熔断器策略：失败次数过多时，快速失败，避免雪崩 private static IAsyncPolicy<HttpResponseMessage> CreateCircuitBreakerPolicy() { return HttpPolicyExtensions .HandleTransientHttpError() .Or<TimeoutRejectedException>() .CircuitBreakerAsync( handledEventsAllowedBeforeBreaking: 5, durationOfBreak: TimeSpan.FromSeconds(30) ); } // 超时策略：防止长时间等待 private static AsyncTimeoutPolicy<HttpResponseMessage> CreateTimeoutPolicy() { return Policy.TimeoutAsync<HttpResponseMessage>(TimeSpan.FromSeconds(15)); } } // 自定义异常，便于上层处理 public class ServiceUnavailableException : Exception { public ServiceUnavailableException(string message) : base(message) { } public ServiceUnavailableException(string message, Exception innerException) : base(message, innerException) { } } }

这段代码是核心，它不仅仅发送请求，还通过Polly包裹了重试、熔断和超时策略，使得服务调用具备弹性。

2.2 配置依赖注入和HttpClient

然后，我们需要在Program.cs中配置这个服务。这里我们使用命名客户端，方便管理。

// Program.cs using YourProject.Services; var builder = WebApplication.CreateBuilder(args); // 从配置中读取AI服务地址 var aiServiceBaseUrl = builder.Configuration["AIService:BaseUrl"] ?? "http://localhost:5000"; // 默认值，用于开发 builder.Services.AddHttpClient<ITextSegmentationService, BertTextSegmentationService>(client => { client.BaseAddress = new Uri(aiServiceBaseUrl); client.DefaultRequestHeaders.Add("Accept", "application/json"); // 可以在这里添加认证头，如果AI服务需要的话 // client.DefaultRequestHeaders.Authorization = new AuthenticationHeaderValue("Bearer", "your-api-key"); }) .AddPolicyHandler(provider => // 为这个特定的HttpClient配置默认策略 HttpPolicyExtensions .HandleTransientHttpError() .Or<TimeoutRejectedException>() .WaitAndRetryAsync(2, retryAttempt => TimeSpan.FromSeconds(1))) .AddPolicyHandler(HttpPolicyExtensions.HandleTransientHttpError().CircuitBreakerAsync(5, TimeSpan.FromSeconds(30))); // 其他服务注册... builder.Services.AddControllers(); builder.Services.AddEndpointsApiExplorer(); builder.Services.AddSwaggerGen(); var app = builder.Build(); // 中间件配置... if (app.Environment.IsDevelopment()) { app.UseSwagger(); app.UseSwaggerUI(); } app.UseHttpsRedirection(); app.UseAuthorization(); app.MapControllers(); app.Run();

在appsettings.json中配置服务地址：

{ "AIService": { "BaseUrl": "http://your-ai-service-host:5000" }, // ... 其他配置 }

3. 在控制器中使用与业务结合

服务准备好了，现在就可以在Web API的控制器中像使用普通服务一样调用它了。假设我们有一个处理文章（Article）的控制器。

3.1 创建控制器

// Controllers/ArticlesController.cs using Microsoft.AspNetCore.Mvc; using YourProject.Models; using YourProject.Services; namespace YourProject.Controllers { [ApiController] [Route("api/[controller]")] public class ArticlesController : ControllerBase { private readonly ITextSegmentationService _segmentationService; private readonly ILogger<ArticlesController> _logger; public ArticlesController(ITextSegmentationService segmentationService, ILogger<ArticlesController> logger) { _segmentationService = segmentationService; _logger = logger; } [HttpPost("process")] public async Task<IActionResult> ProcessArticle([FromBody] ArticleProcessingRequest request) { if (request == null || string.IsNullOrWhiteSpace(request.RawContent)) { return BadRequest("文章内容不能为空。"); } try { _logger.LogInformation("开始处理文章，ID: {ArticleId}", request.ArticleId); // 1. 调用AI服务进行文本分割 var segmentationResult = await _segmentationService.SegmentTextAsync(request.RawContent); _logger.LogInformation("文章分割完成，共{SegmentCount}个段落。", segmentationResult.Segments.Count); // 2. 这里可以添加你的业务逻辑，例如： // - 对每个段落进行进一步分析（情感、关键词提取） // - 格式化段落 var processedSegments = segmentationResult.Segments.Select((s, i) => new ArticleSegment { Order = i + 1, Content = s.Trim(), // 可以在这里计算一些元数据，如长度、预估阅读时间等 WordCount = s.Split(' ', StringSplitOptions.RemoveEmptyEntries).Length }).ToList(); // 3. 构建响应 var response = new ArticleProcessingResponse { ArticleId = request.ArticleId, Segments = processedSegments, ModelVersionUsed = segmentationResult.ModelVersion, TotalProcessingTimeMs = segmentationResult.ProcessingTimeMs }; return Ok(response); } catch (ServiceUnavailableException ex) { _logger.LogWarning(ex, "AI服务暂时不可用，文章ID: {ArticleId}", request.ArticleId); // 返回503状态码，表示依赖服务不可用 return StatusCode(503, new { message = ex.Message, articleId = request.ArticleId }); } catch (Exception ex) { _logger.LogError(ex, "处理文章时发生未预期错误，ID: {ArticleId}", request.ArticleId); return StatusCode(500, "内部服务器错误，请稍后重试。"); } } } // 请求和响应的数据模型 public class ArticleProcessingRequest { public int ArticleId { get; set; } public string RawContent { get; set; } = string.Empty; } public class ArticleProcessingResponse { public int ArticleId { get; set; } public List<ArticleSegment> Segments { get; set; } = new List<ArticleSegment>(); public string? ModelVersionUsed { get; set; } public long TotalProcessingTimeMs { get; set; } } public class ArticleSegment { public int Order { get; set; } public string Content { get; set; } = string.Empty; public int WordCount { get; set; } } }

这个控制器动作清晰地展示了业务集成流程：接收原始内容 -> 调用AI服务 -> 处理结果 -> 返回。异常处理也考虑到了AI服务不可用的情况。

4. 与Entity Framework Core和数据库集成

通常，处理后的结果我们需要保存下来。这里演示如何将分割后的段落存入SQL Server数据库。

4.1 定义数据库模型和DbContext

首先，确保安装了EF Core SQL Server包：

Install-Package Microsoft.EntityFrameworkCore.SqlServer

定义实体和DbContext：

// Models/Article.cs using System.ComponentModel.DataAnnotations; namespace YourProject.Models { public class Article { [Key] public int Id { get; set; } [Required] public string Title { get; set; } = string.Empty; public string? OriginalContent { get; set; } // 原始长文本 public DateTime CreatedAt { get; set; } = DateTime.UtcNow; // 导航属性：一篇文章有多个段落 public virtual ICollection<ArticleSegment> Segments { get; set; } = new List<ArticleSegment>(); } public class ArticleSegment { [Key] public int Id { get; set; } [Required] public int ArticleId { get; set; } public int Order { get; set; } // 段落顺序 [Required] public string Content { get; set; } = string.Empty; public int WordCount { get; set; } // 导航属性：段落属于一篇文章 public virtual Article Article { get; set; } = null!; } } // Data/ApplicationDbContext.cs using Microsoft.EntityFrameworkCore; using YourProject.Models; namespace YourProject.Data { public class ApplicationDbContext : DbContext { public ApplicationDbContext(DbContextOptions<ApplicationDbContext> options) : base(options) { } public DbSet<Article> Articles { get; set; } public DbSet<ArticleSegment> ArticleSegments { get; set; } protected override void OnModelCreating(ModelBuilder modelBuilder) { base.OnModelCreating(modelBuilder); // 可以在这里配置关系或索引 modelBuilder.Entity<ArticleSegment>() .HasOne(as => as.Article) .WithMany(a => a.Segments) .HasForeignKey(as => as.ArticleId) .OnDelete(DeleteBehavior.Cascade); // 级联删除 } } }

4.2 在服务中集成数据存储

我们可以创建一个服务来协调AI调用和数据存储。修改或创建一个新的服务，例如ArticleProcessingService。

// Services/IArticleProcessingService.cs using YourProject.Models; namespace YourProject.Services { public interface IArticleProcessingService { Task<ProcessedArticle> ProcessAndSaveArticleAsync(string title, string rawContent, CancellationToken cancellationToken = default); } public class ProcessedArticle { public int ArticleId { get; set; } public string Title { get; set; } = string.Empty; public List<ArticleSegment> Segments { get; set; } = new List<ArticleSegment>(); } } // Services/ArticleProcessingService.cs using Microsoft.EntityFrameworkCore; using YourProject.Data; using YourProject.Models; namespace YourProject.Services { public class ArticleProcessingService : IArticleProcessingService { private readonly ApplicationDbContext _dbContext; private readonly ITextSegmentationService _segmentationService; private readonly ILogger<ArticleProcessingService> _logger; public ArticleProcessingService( ApplicationDbContext dbContext, ITextSegmentationService segmentationService, ILogger<ArticleProcessingService> logger) { _dbContext = dbContext; _segmentationService = segmentationService; _logger = logger; } public async Task<ProcessedArticle> ProcessAndSaveArticleAsync(string title, string rawContent, CancellationToken cancellationToken = default) { using var transaction = await _dbContext.Database.BeginTransactionAsync(cancellationToken); try { // 1. 创建文章记录 var article = new Article { Title = title, OriginalContent = rawContent, CreatedAt = DateTime.UtcNow }; await _dbContext.Articles.AddAsync(article, cancellationToken); await _dbContext.SaveChangesAsync(cancellationToken); // 获取Article Id _logger.LogInformation("已创建文章记录，ID: {ArticleId}", article.Id); // 2. 调用AI服务分割文本 var segmentationResult = await _segmentationService.SegmentTextAsync(rawContent, cancellationToken); // 3. 创建段落记录并关联到文章 var segments = segmentationResult.Segments .Select((content, index) => new ArticleSegment { ArticleId = article.Id, Order = index + 1, Content = content.Trim(), WordCount = content.Split(' ', StringSplitOptions.RemoveEmptyEntries).Length }).ToList(); await _dbContext.ArticleSegments.AddRangeAsync(segments, cancellationToken); await _dbContext.SaveChangesAsync(cancellationToken); // 4. 提交事务 await transaction.CommitAsync(cancellationToken); _logger.LogInformation("文章处理完成，ID: {ArticleId}, 共生成{SegmentCount}个段落。", article.Id, segments.Count); return new ProcessedArticle { ArticleId = article.Id, Title = title, Segments = segments }; } catch (Exception) { await transaction.RollbackAsync(cancellationToken); throw; // 将异常抛给上层处理 } } } }

最后，在Program.cs中注册这个新服务和DbContext：

// Program.cs 中添加 builder.Services.AddDbContext<ApplicationDbContext>(options => options.UseSqlServer(builder.Configuration.GetConnectionString("DefaultConnection"))); builder.Services.AddScoped<IArticleProcessingService, ArticleProcessingService>();

这样，一个完整的、具备企业级健壮性的BERT文本分割服务集成方案就完成了。从定义清晰的接口，到使用HttpClient和Polly实现弹性调用，再到与EF Core结合进行数据持久化，每一步都考虑到了生产环境中的常见问题。

5. 总结与后续思考

整个集成过程走下来，你会发现核心思路并不复杂：就是把AI模型服务当作一个外部API来调用。关键在于，如何让这个调用在.NET Core的生态里变得可靠、可维护。

Polly提供的重试、熔断和超时策略，是确保服务稳定性的基石，它能有效防止因AI服务临时故障导致你的主应用雪崩。依赖注入让服务间的耦合度降低，方便测试和替换。而EF Core则让数据落地变得非常自然。

实际应用中，你还可以考虑更多。比如，为AI服务调用增加监控和指标（使用AppMetrics或OpenTelemetry），这样能直观看到调用成功率、延迟等数据。如果处理的是大量文本，可以考虑引入队列（如Azure Service Bus或RabbitMQ）进行异步处理，避免HTTP请求阻塞太久。对于分割结果，你可能还需要后处理逻辑，比如合并过短的段落，或者根据特定规则（如标题）进行二次调整。

这套方案提供了一个坚实的起点。你可以根据自己项目的具体需求，在这个基础上灵活扩展，无论是处理更复杂的业务逻辑，还是集成更多的AI能力，这条路径都是通的。下次当你需要为你的.NET应用注入一些AI智能时，希望这篇文章能帮你省下一些摸索的时间。