当前位置：首页 > news >正文

Spring Batch生产级骨架：可重试、可监控、可分片的批处理设计

news 2026/6/22 23:31:10

1. 这不是“Hello World”，而是一套企业级批处理的完整骨架

Spring Batch Example——看到这个标题，很多人第一反应是“又一个教你怎么写@Component的入门demo”。但如果你真这么想，接下来踩的坑可能比你写的代码还多。我带过三支后端团队，每年都有至少两个项目在上线前两周，因为对Spring Batch的理解停留在“能跑通示例”层面，导致生产环境出现任务卡死、数据重复、事务不一致、内存溢出等连锁问题。这不是框架的问题，而是我们把“Example”当成了“说明书”，却忽略了它背后整套企业级批处理的设计哲学：可重试、可重启、可监控、可分片、可审计。Spring Batch不是Spring Boot里一个可有可无的starter，它是为解决“每天凌晨三点要处理800万条订单对账数据”这类真实场景而生的重型武器。它不关心你用的是MySQL还是Oracle，也不在意你最终把结果写进Kafka还是HBase，它只专注一件事：在不可靠的基础设施上，交付可靠的数据处理结果。所以，这篇内容不是教你复制粘贴几行代码，而是带你从零开始，亲手搭起一个真正能放进生产环境的Batch骨架——它包含完整的作业定义、健壮的读写器、失败回滚策略、进度持久化、自定义监听器，以及最关键的：如何用最朴素的方式验证它是否真的“稳”。适合刚接触Batch但已熟悉Spring Boot的开发者，也适合那些写过几个Job却总在压测时翻车的中级工程师。你不需要懂JPA底层原理，但得知道为什么ItemReader必须是stateful的；你不用手写Tasklet，但得明白什么时候该用ChunkProcessing，什么时候该切到StepExecutionListener做兜底。这才是“Example”本该有的样子：不是起点，而是你敢签上线承诺书的基准线。

2. 项目整体设计与思路拆解：为什么这个结构能扛住百万级数据

2.1 核心设计原则：拒绝“玩具式”结构，直击生产痛点

很多网上流传的Spring Batch Example，本质是“Spring Boot + Batch Starter + 一个for循环”的变体。它能跑通，但离生产可用差了至少五个维度：状态持久化缺失、错误恢复机制真空、资源隔离形同虚设、监控埋点完全空白、分片能力直接阉割。我们的设计从第一天就锚定这五个靶心。比如，状态持久化——不依赖内存Map或静态变量，而是强制使用JDBC JobRepository，哪怕本地开发也配H2数据库；错误恢复——不是简单catch Exception再throw，而是通过RetryTemplate配置指数退避+熔断阈值，并配合SkipPolicy跳过脏数据；资源隔离——每个Step都明确声明TransactionManager，避免一个Step的事务污染另一个Step；监控埋点——所有关键节点（read/process/write）都注入MeterRegistry，暴露task_execution_time_seconds_count等指标；分片能力——预留PartitionHandler接口，后续只需替换SimpleAsyncTaskExecutor为GridGain或Redis-based PartitionHandler即可横向扩展。这些不是“未来优化项”，而是初始骨架的默认配置。我见过太多团队在Q3才想起加JobRepository，结果发现所有历史执行记录全丢了，连问题复现都做不到。

2.2 架构分层逻辑：为什么把JobConfig和StepConfig彻底分离

新手常犯的错误，是把Job定义、Step定义、ItemReader/Writer全塞进一个@Configuration类里。这看似简洁，实则埋下三大隐患：配置耦合、测试困难、动态调整失能。我们的方案强制分层：JobConfig只负责组装Step链路（job().start(step1()).next(step2())...），StepConfig只负责定义单个Step的读写逻辑（chunk(100).reader(...).processor(...).writer(...)），而具体的Reader/Writer/Processor实现类，则完全独立于配置类。这样做的好处立竿见影：第一，单元测试时，你可以单独Mock一个ItemReader，注入任意测试数据流，无需启动整个Spring上下文；第二，当业务方要求“把订单导入Step的chunkSize从100调到500”，你只需改StepConfig里的参数，其他Step完全不受影响；第三，未来要做灰度发布，比如先让5%的流量走新版本Processor，你只需在StepConfig里加个@ConditionalOnProperty，而不是在JobConfig里写一堆if-else。这种分层不是教条主义，而是我们在线上环境被“一次配置变更引发全量Job失败”教训换来的。记住：Batch的稳定性，始于配置的原子性。

2.3 技术选型依据：为什么坚持用JDBC而非内存JobRepository

Spring Batch官方文档里，JDBC JobRepository被标为“Production Recommended”，但很多教程仍用MapJobRepository演示。这不是偷懒，而是刻意回避一个核心矛盾：内存存储无法保证Job执行状态的跨进程一致性。想象一下：你的Job部署在K8s集群的3个Pod上，某个Step执行到一半Pod被驱逐，新Pod启动后，它怎么知道上一个Pod处理到第几条数据？MapJobRepository的答案是“不知道”，它会从头开始，导致数据重复。而JDBC JobRepository通过数据库的ACID特性，天然解决这个问题——JobInstance、JobExecution、StepExecution、ExecutionContext全部落库，每次Job启动前先查库确认状态，该重启就重启，该继续就继续。我们选H2作为开发环境数据库，不是因为它快，而是它支持嵌入式模式且语法兼容MySQL/PostgreSQL，切换生产库时只需改一行JDBC URL。有人问：“H2不是内存数据库吗？那不还是丢数据？”——错。H2的DB_CLOSE_ON_EXIT=FALSE参数配合AUTO_SERVER=TRUE，能确保进程退出时不删库，且支持多连接。这恰恰证明：选型不是看名字，而是看它如何满足你的约束条件。

3. 核心细节解析与实操要点：从XML时代到Java Config的进化陷阱

3.1 ItemReader的Stateful本质：为什么不能用Lambda表达式初始化

这是90%新手栽跟头的地方。你可能会写出这样的代码：

@Bean public ItemReader<String> reader() { return () -> "data"; // 错！这是无状态的Lambda }

表面看它能编译运行，但Batch框架在Chunk Processing中会反复调用read()方法，而Lambda每次返回都是新对象，框架无法追踪“当前读取位置”。正确的做法是使用ListItemReader或自定义类：

@Bean public ItemReader<String> reader() { List<String> data = Arrays.asList("a", "b", "c"); return new ListItemReader<>(data); // ListItemReader内部维护currentIndex }

更进一步，如果是数据库读取，必须用JdbcCursorItemReader或JdbcPagingItemReader，它们通过PreparedStatement的fetchSize和游标位置实现真正的状态保持。我曾调试过一个线上问题：客户反馈“每天导入数据少了一半”，最后发现是开发用了JdbcTemplate.queryForList()把全量数据加载进内存，再包装成Iterator，结果OOM触发GC，部分数据被回收——这根本不是Batch，这是披着Batch外衣的内存泄漏。记住：Reader的状态，就是Job的生命线。任何绕过框架状态管理的“捷径”，终将付出十倍代价。

3.2 Chunk Processing的事务边界：为什么write()失败会导致整个Chunk回滚

Chunk Processing是Batch的精髓，但它的事务模型常被误解。很多人以为“chunk(100)”只是性能优化，其实它是事务粒度的声明。当你配置chunk(100).reader(r).processor(p).writer(w)，框架实际执行逻辑是：

启动事务
调用reader.read() 100次，缓存到List
对List中每个item调用processor.process()
将处理后的100个item传给writer.write()
若writer抛异常，整个事务回滚，100条数据全部撤销
若成功，提交事务，更新ExecutionContext中的read.count=100

这个设计保证了“要么全成功，要么全失败”，但代价是：writer必须是幂等的，且不能有外部副作用。比如，你不能在writer里发HTTP请求，因为重试时会重复调用。正确姿势是：writer只做数据库写入（利用JDBC事务），外部调用放到StepExecutionListener.afterStep()里，通过JobExecution的status判断是否最终成功。我们有个真实案例：某金融系统在writer里调用风控API，结果网络抖动导致Chunk回滚，但风控API已扣款，最终造成资损。后来改成“先入库标记为PROCESSING，成功后再异步发消息触发风控”，问题根治。这就是Chunk设计的双刃剑：给你强一致性，也要求你严格遵守它的游戏规则。

3.3 ExecutionContext的妙用：如何用它实现“断点续传”而非“从头再来”

ExecutionContext是Batch的隐藏王牌，它像一个随Job/Step生命周期自动存取的Map。新手常把它当普通缓存用，比如存个计数器。但高手用它实现真正的“智能续传”。举个典型场景：处理一个超大Excel文件，每行对应一条用户数据，但某些行格式错误需跳过。如果不用ExecutionContext，跳过100条后，第101条出错，整个Chunk回滚，前面99条白处理。而用ExecutionContext，你可以在Processor里：

public class ValidatingProcessor implements ItemProcessor<String, User> { @Override public User process(String item) throws Exception { try { return parseUser(item); } catch (InvalidFormatException e) { // 记录错误行号到ExecutionContext StepExecution stepExecution = getStepExecution(); ExecutionContext executionContext = stepExecution.getExecutionContext(); int errorCount = executionContext.getInt("error.count", 0); executionContext.put("error.count", errorCount + 1); // 返回null表示跳过此item return null; } } }

这样，即使Chunk失败，ExecutionContext里的error.count依然保留，下次重启时可从日志里看到“已跳过X条错误数据”。更进一步，你可以把lastProcessedRowNumber也存进去，在Reader里读取它作为起始偏移量。这比单纯依赖数据库主键分页更灵活，尤其适合文件类数据源。我们有个ETL项目，用此法将日志解析Job的平均重启时间从47分钟降到23秒——因为不再需要重新扫描GB级日志文件，直接seek到断点位置。

4. 实操过程与核心环节实现：从零搭建可验证的Batch工程

4.1 环境准备与依赖配置：Maven坐标背后的版本博弈

Spring Batch 5.x与Spring Boot 3.x深度绑定，但很多老项目还在用Boot 2.7，这就涉及残酷的版本兼容性问题。我们的实操基于Spring Boot 3.2.0 + Spring Batch 5.0.2，Maven配置如下：

<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-batch</artifactId> <!-- 不要指定version，由parent bom控制 --> </dependency> <dependency> <groupId>com.h2database</groupId> <artifactId>h2</artifactId> <scope>runtime</scope> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jdbc</artifactId> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-validation</artifactId> </dependency> </dependencies>

关键点在于：绝对不要手动指定spring-batch-core的version。因为Boot 3.2.0的bom里已锁定Batch 5.0.2，若你额外引入4.3.x，会导致JobBuilderFactory找不到job()方法——这是典型的二进制不兼容。另外，spring-boot-starter-jdbc必须显式声明，否则H2驱动不会被自动配置。我们曾遇到一个诡异问题：本地IDEA能跑，CI流水线却报No qualifying bean of type 'javax.sql.DataSource'，最后发现是Maven profile里漏了jdbc starter。验证方法很简单：启动应用后访问/actuator/beans，搜索jobRepository，确认类型是JdbcJobRepository而非MapJobRepository。

4.2 Job与Step的完整定义：手写代码而非注解驱动

虽然Spring Batch支持@EnableBatchProcessing，但生产环境强烈建议手写Java Config。原因有三：可调试性、可测试性、可追溯性。注解方式把配置藏在框架深处，出问题时连Bean名都难定位。我们的JobConfig长这样：

@Configuration @EnableBatchProcessing public class BatchConfig { @Autowired private JobBuilderFactory jobBuilderFactory; @Autowired private StepBuilderFactory stepBuilderFactory; @Bean public Job importUserJob() { return jobBuilderFactory.get("importUserJob") .incrementer(new RunIdIncrementer()) // 每次运行生成唯一ID .start(importUserStep()) .on("COMPLETED").to(sendNotificationStep()) // 条件流转 .from(importUserStep()).on("FAILED").to(errorHandlingStep()) .end() .build(); } @Bean public Step importUserStep() { return stepBuilderFactory.get("importUserStep") .<String, User>chunk(50) .reader(flatFileItemReader()) .processor(userProcessor()) .writer(jdbcItemWriter()) .faultTolerant() .retry(Exception.class) .retryLimit(3) .skip(DataIntegrityViolationException.class) .skipLimit(10) .listener(stepExecutionListener()) .build(); } }

注意几个魔鬼细节：RunIdIncrementer确保每次Job执行都有唯一标识，这是审计溯源的基础；on("COMPLETED").to()实现状态机式流转，比硬编码if-else更清晰；faultTolerant()开启容错，没有它retry()和skip()都不生效；skipLimit(10)限制最多跳过10条脏数据，超限直接失败——这是防止“跳过所有数据还声称成功”的安全阀。每行代码都有其存在理由，不是为了炫技，而是为生产环境兜底。

4.3 FlatFileItemReader的深度定制：解析CSV时如何处理引号与换行符

文件导入是最常见场景，但CSV解析的坑深不见底。标准FlatFileItemReader对"John, \"The Ripper\""这种含逗号和引号的字段束手无策。解决方案是组合DelimitedLineTokenizer和DefaultFieldSetFactory：

@Bean public FlatFileItemReader<User> flatFileItemReader() { FlatFileItemReader<User> reader = new FlatFileItemReader<>(); reader.setResource(new ClassPathResource("users.csv")); reader.setLineMapper(new DefaultLineMapper<User>() {{ setLineTokenizer(new DelimitedLineTokenizer() {{ setDelimiter(","); setNames("name", "email", "age"); // 字段名映射 setQuoteCharacter('"'); // 显式指定引号字符 }}); setFieldSetMapper(new BeanWrapperFieldSetMapper<User>() {{ setTargetType(User.class); }}); }}); reader.setLinesToSkip(1); // 跳过表头 return reader; }

关键在setQuoteCharacter('"')——它告诉tokenizer：当遇到"时，内部所有,都不作为分隔符。更狠的招是自定义LineTokenizer，比如处理Windows换行\r\n和Mac换行\r混杂的文件：

public class RobustLineTokenizer implements LineTokenizer { @Override public FieldSet tokenize(String line) { if (line == null) return new GenericFieldSet(new Object[0]); String normalized = line.replace("\r\n", "\n").replace("\r", "\n"); return new DelimitedLineTokenizer(",").tokenize(normalized); } }

我们有个客户数据源，Excel导出的CSV里混着三种换行符，没加这层normalize，Job跑了三天才发现最后10%数据全乱码。记住：数据源永远比你想象的更野蛮，Reader必须比它更狡猾。

4.4 JdbcItemWriter的批量插入优化：为什么setSql()比JdbcTemplate快10倍

JdbcItemWriter默认用JdbcTemplate.update()逐条插入，百万数据时慢如蜗牛。优化核心是启用JDBC批量操作：

@Bean public JdbcItemWriter<User> jdbcItemWriter() { JdbcItemWriter<User> writer = new JdbcItemWriter<>(); writer.setDataSource(dataSource); writer.setSql("INSERT INTO users(name, email, age) VALUES (?, ?, ?)"); writer.setItemPreparedStatementSetter((user, ps) -> { ps.setString(1, user.getName()); ps.setString(2, user.getEmail()); ps.setInt(3, user.getAge()); }); // 关键：启用批量 writer.setAssertUpdates(false); // 关闭影响行数校验，提升速度 return writer; }

原理是：writer会把50个User攒成一批，调用PreparedStatement.executeBatch()，而非50次executeUpdate()。实测对比：处理10万条数据，逐条耗时287秒，批量仅29秒。但要注意setAssertUpdates(false)——它关闭了“检查SQL是否真的影响了预期行数”的校验，因为批量执行时getUpdateCount()返回-2（STATEMENT.EXECUTE_FAILED），校验必失败。这不是偷懒，而是权衡：在已知SQL正确的前提下，用确定性换性能。我们还做了个增强：在writer外层包一层CompositeItemWriter，先写DB，再发Kafka消息，确保DB和消息最终一致。

5. 常见问题与排查技巧实录：那些只有踩过才懂的血泪经验

5.1 经典问题速查表：从现象到根因的快速定位路径

现象	可能根因	排查命令/步骤	解决方案
Job启动后立即报`NoSuchBeanDefinitionException: JobLauncher`	`@EnableBatchProcessing`未生效，或配置类未被ComponentScan扫描	检查配置类是否加了`@Configuration`，确认包路径在`@SpringBootApplication`的scan范围内	在启动类上加`@Import(BatchConfig.class)`强制导入
Step执行中CPU飙升至100%，日志无报错	`ItemReader`返回null后未终止，导致无限循环调用`read()`	在Reader的`read()`方法首行加`log.debug("Reading...")`，观察日志频率	确保Reader在数据耗尽时返回null，且不抛异常
Job执行成功，但数据库无数据写入	`JdbcItemWriter`的`setSql()`未设置，或`ItemPreparedStatementSetter`未正确绑定参数	查看`JdbcItemWriter`的`sql`属性是否为空，调试`setItemPreparedStatementSetter`是否被调用	使用`@Valid`注解在User类上，让Processor抛`ConstraintViolationException`触发skip流程
同一Job多次运行，ExecutionContext中的计数器不累加	`JobRepository`未配置`isolationLevelForCreate`，导致并发创建JobExecution时覆盖	执行`SELECT * FROM BATCH_JOB_EXECUTION_PARAMS WHERE JOB_EXECUTION_ID = ?`，检查参数是否重复	在`JobRepositoryFactoryBean`中设置`setIsolationLevelForCreate("ISOLATION_REPEATABLE_READ")`

这张表来自我们三年内处理的137个Batch线上问题，每一个都是血换来的。比如最后一行，我们曾因没设隔离级别，在高并发场景下出现两个JobExecution共享同一个ExecutionContext，导致计数器错乱。后来在所有生产环境的JobRepository配置里，都强制加上了这行。

5.2 内存溢出（OOM）的终极诊断法：不只是加-Xmx

Batch OOM不是加堆内存就能解决的。根本原因是数据在Chunk内未及时释放。典型场景：Processor里把原始字符串转成超大JSON对象，然后Writer又把它序列化进数据库。解决方案是分层治理：

Reader层：用JdbcPagingItemReader替代JdbcCursorItemReader，通过pageSize=1000控制单次查询量，避免全表扫描加载；
Processor层：禁用Lombok的@Data（它会生成toString()，打印时触发全量对象图遍历），改用@Value；
Writer层：用JdbcBatchItemWriter替代JdbcItemWriter，启用batchSize=100；
JVM层：添加-XX:+UseG1GC -XX:MaxGCPauseMillis=200，G1垃圾收集器对大对象更友好。

我们有个Job，原配置-Xmx4g仍OOM，按上述四步优化后，-Xmx1g稳定运行。关键是：Batch的内存问题，90%出在数据流设计，而非JVM参数。

5.3 “Job stuck in STARTING”故障的隐蔽元凶：数据库锁竞争

Job卡在STARTING状态，日志停在Starting next step，这是最折磨人的故障。表面看是框架卡死，实则是数据库锁住了BATCH_JOB_INSTANCE表。原因通常是：前一个Job执行异常中断，未正常提交JobExecution，导致STATUS='STARTING'的记录一直挂着。解决方案分三步：

紧急止血：执行SQLUPDATE BATCH_JOB_EXECUTION SET STATUS='FAILED', EXIT_CODE='FAILED' WHERE JOB_INSTANCE_ID IN (SELECT JOB_INSTANCE_ID FROM BATCH_JOB_INSTANCE WHERE JOB_NAME='importUserJob' AND VERSION=1) AND STATUS='STARTING';
根治预防：在Job配置里加job().preventRestart()，禁止同一参数的Job重复启动；
长期监控：用Prometheus抓取spring_batch_job_execution_status{job="importUserJob"}指标，当status="STARTING"持续超过5分钟，自动告警。

我们把这个SQL封装成运维脚本，放在/opt/batch-tools/fix-stuck-job.sh里，SRE同学5秒就能执行。技术债不是写完代码就结束，而是把救火流程变成一键操作。

5.4 自定义监听器的实战技巧：如何在afterJob()里安全发邮件

监听器是Batch的神经末梢，但JobExecutionListener.afterJob()常被滥用。最大陷阱是：它在事务提交后执行，但此时数据库连接可能已关闭。如果你在里面调用JdbcTemplate，会报SQLException: Connection closed。正确姿势是：

@Component public class EmailNotificationListener implements JobExecutionListener { @Autowired private JavaMailSender mailSender; @Override public void afterJob(JobExecution jobExecution) { if (jobExecution.getStatus() == BatchStatus.COMPLETED) { // 异步发送，避免阻塞主线程 CompletableFuture.runAsync(() -> sendSuccessEmail(jobExecution)); } } private void sendSuccessEmail(JobExecution jobExecution) { MimeMessage message = mailSender.createMimeMessage(); MimeMessageHelper helper = new MimeMessageHelper(message, true); helper.setTo("ops@company.com"); helper.setSubject("Job Success: " + jobExecution.getJobInstance().getJobName()); helper.setText("Completed at " + jobExecution.getEndTime() + ", processed " + jobExecution.getExecutionContext().get("processed.count")); mailSender.send(message); } }

关键点：CompletableFuture.runAsync()脱离Spring事务上下文，MimeMessageHelper不依赖数据库连接。我们还加了重试机制：若邮件服务器超时，sendSuccessEmail()内部用RetryTemplate重试3次，间隔1秒。这比在beforeJob()里预占资源更优雅——毕竟，通知是锦上添花，不是雪中送炭。

6. 生产就绪 checklist：一份能直接交给运维的核对清单

6.1 配置项安全审查：12项必须确认的参数

JobRepository隔离级别：确认JobRepositoryFactoryBean.setIsolationLevelForCreate("ISOLATION_REPEATABLE_READ")已设置，防止并发Job创建冲突；
数据库连接池：HikariCP的maximumPoolSize≥ 5，避免JobRepository和业务DAO争抢连接；
Chunk size：根据数据大小动态设置，文本文件用50-100，数据库分页用1000-5000；
Retry limit：retryLimit(3)是底线，金融类Job建议retryLimit(5)；
Skip limit：skipLimit(10)防止单条脏数据拖垮全局，但需配套告警；
ExecutionContext序列化：确认JobRepository使用Jackson2ExecutionContextStringSerializer，而非默认的Serializable（后者在JDK版本升级时易反序列化失败）；
日志级别：logging.level.org.springframework.batch=INFO，避免DEBUG日志刷爆磁盘；
Actuator端点：开放/actuator/batch和/actuator/jobs，供运维实时查看Job状态；
JVM参数：-XX:+UseG1GC -XX:MaxGCPauseMillis=200 -Xms2g -Xmx2g，固定堆大小防GC抖动；
数据库索引：为BATCH_JOB_EXECUTION_PARAMS.JOB_EXECUTION_ID和BATCH_STEP_EXECUTION.STEP_EXECUTION_ID建索引；
临时文件清理：System.setProperty("java.io.tmpdir", "/data/batch-tmp")，避免/tmp目录满；
失败告警：配置JobExecutionListener.afterJob()触发企业微信/钉钉机器人，消息模板含jobName、status、exitCode、exitMessage。

这份清单不是摆设。我们把它做成Confluence页面，每次上线前由开发和运维共同签字确认。去年Q4，某次紧急上线漏了第10项索引，导致JobExecution查询耗时从200ms飙到12秒，所幸有第12项告警，15分钟内定位修复。

6.2 性能压测黄金法则：用真实数据模拟而非造数

很多团队压测用Faker生成100万条假数据，结果上线后性能差10倍。因为假数据缺乏真实分布特征：比如订单时间戳集中在1秒内，导致数据库索引失效；用户邮箱域名全是example.com，触发统计信息偏差。我们的压测流程是：

脱敏采样：从生产库抽1%真实数据（用mysqldump --where="id%100=0"）；
特征保留：确保采样数据包含空值、超长字段、特殊字符等边界情况；
混合负载：压测时，Batch Job与核心API服务共用同一数据库，观察锁竞争；
渐进加压：从1000 QPS开始，每5分钟+500 QPS，直到TP99 > 2秒或错误率 > 0.1%；
瓶颈定位：用Arthasthread -n 5看CPU热点，vmtool --action getstatic java.lang.Runtime.getRuntime看内存增长。

去年压测一个对账Job，发现TP99在5000 QPS时突增，用Arthas发现JdbcCursorItemReader的ResultSet.next()占CPU 78%。根源是MySQL未建联合索引，加索引后TP99稳定在300ms内。压测不是证明它能跑，而是证明它在真实世界里不崩。

6.3 灾难恢复演练：如何在5分钟内回滚一个失败的Job

生产环境最怕的不是Job失败，而是失败后不知所措。我们的SOP是：

Step 1（0-60秒）：登录服务器，执行curl http://localhost:8080/actuator/jobs?name=importUserJob，确认最新Execution ID；
Step 2（60-120秒）：查SELECT * FROM BATCH_STEP_EXECUTION WHERE JOB_EXECUTION_ID = ? ORDER BY START_TIME DESC LIMIT 1，看最后Step状态；
Step 3（120-180秒）：若状态为FAILED，执行UPDATE BATCH_JOB_EXECUTION SET STATUS='STOPPED', EXIT_CODE='STOPPED' WHERE JOB_EXECUTION_ID = ?，强制停止；
Step 4（180-240秒）：用JobOperator.restart(jobExecutionId)重启，框架自动从断点继续；
Step 5（240-300秒）：观察/actuator/metrics/spring.batch.job.execution.time指标，确认TPS回归正常。

这套流程写在运维手册第7章，新同事入职第三天就要背熟。技术的终极价值，不是写出多炫的代码，而是让不确定性变得可预测、可掌控。当你能把一个Batch Job的生死握在掌心，才算真正驾驭了它。

我在实际使用中发现，最有效的学习方式不是死磕文档，而是故意制造一个失败场景：比如在Processor里throw new RuntimeException("simulate failure")，然后观察Job如何重试、如何跳过、如何记录错误。这种“主动找虐”的过程，比看十篇教程都管用。毕竟，Spring Batch的智慧，不在它能做什么，而在它教会你如何与失败共处。

查看全文

http://www.jsqmd.com/news/1064194/