当前位置：首页 > news >正文

深入解析：使用Apache POI与Hutool高效提取WPS Excel中的嵌入式图片

news 2026/6/11 12:44:05

1. 为什么需要提取Excel中的嵌入式图片？

在日常工作中，我们经常会遇到需要处理包含图片的Excel文件。比如电商平台的产品数据报表里嵌入了商品图片，财务系统中保存了带有签名的报销单，或者数据分析报告里包含了图表截图。这些图片往往承载着关键的业务信息，但Excel本身并不是一个理想的图片存储和管理工具。

我遇到过这样一个实际案例：某服装品牌需要从3000多份供应商提供的Excel报价单中提取所有服装款式图片，用于搭建在线产品目录。手动一个个打开文件另存图片显然不现实，这时候就需要通过编程方式批量提取。

WPS作为国内广泛使用的办公软件，其生成的Excel文件在图片存储方式上与微软Office略有不同。特别是WPS特有的cellimages.xml文件结构，给开发者带来了额外的解析挑战。这也是为什么我们需要专门研究针对WPS Excel的图片提取方案。

2. 技术选型：为什么是Apache POI+Hutool？

2.1 Apache POI的核心能力

Apache POI是Java生态中最成熟的Office文档处理库，它提供了完整的Excel文件解析能力。在处理图片方面，POI可以：

识别嵌入式图片和浮动图片（如图表、形状中的图片）
获取图片二进制数据
解析图片在单元格中的定位信息
支持各种图片格式（PNG、JPG、GIF等）

但POI在处理WPS特有的文件结构时存在局限，特别是对于cellimages.xml这种非标准结构的解析不够友好。这时候就需要引入辅助工具。

2.2 Hutool的XML处理优势

Hutool是一个Java工具库，它的XML处理模块特别适合处理WPS Excel中的非标准结构：

// Hutool将XML转换为JSON的示例 String xmlContent = "<root><item>value</item></root>"; JSONObject json = XML.toJSONObject(xmlContent);

这种转换方式让我们可以用更直观的JSON格式来操作XML数据，大大简化了复杂结构的解析工作。相比直接使用DOM或SAX解析器，代码可读性和开发效率都有显著提升。

3. 完整实现方案详解

3.1 整体处理流程

我们的解决方案分为三个关键步骤：

文件解压处理：Excel文件本质上是ZIP压缩包，首先需要解压获取内部文件
图片配置解析：重点处理WPS特有的cellimages.xml和对应的rels文件
图片数据提取：结合配置信息从文档中定位并提取实际图片数据

下面是核心代码框架：

public Map<String, XSSFPictureData> getPictures(byte[] data) { try { // 第一步：解析ZIP条目 Map<String, String> config = processZipEntries(data); // 第二步：处理图片数据 Map<String, XSSFPictureData> pictures = processPictures(data, config); // 第三步：获取浮动图片 Workbook workbook = WorkbookFactory.create(new ByteArrayInputStream(data)); Iterator<Sheet> sheets = workbook.sheetIterator(); while(sheets.hasNext()) { pictures.putAll(getFloatingPictures((XSSFSheet)sheets.next())); } return pictures; } catch (IOException e) { log.error("图片提取失败", e); return Collections.emptyMap(); } }

3.2 处理WPS特有结构

WPS将图片配置信息存储在xl/cellimages.xml中，并通过xl/_rels/cellimages.xml.rels建立关联。我们需要特别处理这两种文件：

private Map<String, String> processZipEntries(byte[] data) throws IOException { Map<String, String> config = new HashMap<>(); try (ZipInputStream zis = new ZipInputStream(new ByteArrayInputStream(data))) { ZipEntry entry; while ((entry = zis.getNextEntry()) != null) { String name = entry.getName(); if ("xl/cellimages.xml".equals(name)) { processCellImages(zis, config); } else if ("xl/_rels/cellimages.xml.rels".equals(name)) { processCellImagesRels(zis, config); } zis.closeEntry(); } } return config; }

处理cellimages.xml的关键是解析其中的图片ID与引用关系：

private void processCellImages(InputStream input, Map<String, String> config) { String xml = IOUtils.toString(input, StandardCharsets.UTF_8); JSONObject json = XML.toJSONObject(xml); JSONArray images = json.getJSONObject("etc:cellImages") .getJSONArray("etc:cellImage"); for (int i = 0; i < images.size(); i++) { JSONObject image = images.getJSONObject(i); String name = image.getJSONObject("xdr:nvPicPr") .getJSONObject("xdr:cNvPr") .getStr("name"); String embed = image.getJSONObject("xdr:blipFill") .getJSONObject("a:blip") .getStr("r:embed"); config.put(embed, name); } }

4. 实战技巧与性能优化

4.1 内存优化策略

处理大型Excel文件时，内存管理尤为重要。我总结了几个实用技巧：

使用流式处理：避免一次性加载整个文件到内存

try (ZipInputStream zis = new ZipInputStream(new FileInputStream(file))) { // 流式处理每个ZIP条目 }

及时释放资源：确保所有InputStream和Workbook对象都正确关闭
分批处理：对于特大文件，可以考虑按sheet分批处理

4.2 异常处理经验

在实际项目中，我遇到过各种边界情况：

WPS和MS Office生成的文件结构差异
损坏的图片数据
特殊字符导致的XML解析失败

健壮的异常处理必不可少：

try { // 解析操作 } catch (Exception e) { log.warn("解析图片失败，尝试备用方案", e); // 备用处理逻辑 }

4.3 扩展应用场景

这个方案不仅可以用于图片提取，稍加改造还能实现：

Excel文档中图片的批量替换
图片元数据分析和处理
文档内容合规性检查（如识别不合规图片）

比如我们可以扩展代码，对提取的图片进行自动分类：

pictures.forEach((id, data) -> { String type = determineImageType(data); saveToCategory(type, data); });

5. 完整代码实现与测试

5.1 工具类完整实现

以下是整合所有功能的完整工具类：

@Slf4j public class WPSImageExtractor { private static final String CELL_IMAGES = "xl/cellimages.xml"; private static final String CELL_IMAGES_RELS = "xl/_rels/cellimages.xml.rels"; public static Map<String, byte[]> extractImages(File file) { try { byte[] data = Files.readAllBytes(file.toPath()); Map<String, String> config = parseConfig(data); return extractAllImages(data, config); } catch (Exception e) { log.error("图片提取失败", e); return Collections.emptyMap(); } } private static Map<String, String> parseConfig(byte[] data) throws IOException { Map<String, String> config = new HashMap<>(); try (ZipInputStream zis = new ZipInputStream(new ByteArrayInputStream(data))) { ZipEntry entry; while ((entry = zis.getNextEntry()) != null) { if (CELL_IMAGES.equals(entry.getName())) { processCellImages(zis, config); } else if (CELL_IMAGES_RELS.equals(entry.getName())) { processRels(zis, config); } zis.closeEntry(); } } return config; } // 其他辅助方法... }

5.2 测试用例

建议编写单元测试验证各种情况：

class WPSImageExtractorTest { @Test void testNormalFile() { File testFile = new File("src/test/resources/normal.xlsx"); Map<String, byte[]> images = WPSImageExtractor.extractImages(testFile); assertEquals(3, images.size()); // 验证图片内容 } @Test void testBrokenFile() { File testFile = new File("src/test/resources/corrupted.xlsx"); assertDoesNotThrow(() -> { WPSImageExtractor.extractImages(testFile); }); } }

6. 常见问题解决方案

在实际使用中，开发者常会遇到以下几个典型问题：

问题1：提取的图片顺序混乱

这是因为图片在Excel内部的存储顺序可能与显示顺序不一致。解决方案是在提取时记录位置信息：

String positionKey = sheet.getSheetName() + "-" + anchor.getRow1() + "-" + anchor.getCol1(); images.put(positionKey, imageData);

问题2：部分图片无法识别

WPS有时会使用非标准扩展名。可以尝试添加更多图片格式支持：

private static final Set<String> IMAGE_TYPES = Set.of( "png", "jpg", "jpeg", "gif", "bmp", "wmf", "emf" ); boolean isImage(String contentType) { return IMAGE_TYPES.contains(contentType.toLowerCase()); }

问题3：大文件处理速度慢

可以考虑使用多线程处理不同的sheet：

ExecutorService executor = Executors.newFixedThreadPool(4); List<Future<Map<String, byte[]>>> futures = new ArrayList<>(); for (Sheet sheet : workbook) { futures.add(executor.submit(() -> processSheet((XSSFSheet) sheet) )); }

7. 进阶应用：图片处理流水线

将图片提取功能集成到更大的处理流程中，可以实现更强大的业务功能。比如建立一个完整的图片处理流水线：

提取阶段：从Excel获取原始图片
转换阶段：调整图片大小、格式转换
存储阶段：保存到文件系统或云存储
分析阶段：使用CV算法分析图片内容

示例流水线代码：

public void processPipeline(File excelFile) { // 1. 提取 Map<String, byte[]> rawImages = extractor.extractImages(excelFile); // 2. 转换 Map<String, byte[]> convertedImages = rawImages.entrySet().stream() .collect(Collectors.toMap( Map.Entry::getKey, e -> imageConverter.convert(e.getValue(), "webp") )); // 3. 存储 storageService.batchSave(convertedImages); // 4. 分析 imageAnalysis.analyze(convertedImages.values()); }

这种架构既保持了各阶段的独立性，又能通过组合实现复杂业务需求。我在实际项目中采用类似设计，成功处理了超过10万份Excel文件的图片提取任务。

查看全文

http://www.jsqmd.com/news/637885/