当前位置：首页 > news >正文

用SpringBoot+Jsoup爬取500彩票网双色球数据，手把手教你做个历史中奖查询小工具

news 2026/3/27 1:02:56

基于SpringBoot与Jsoup构建双色球历史数据分析系统

最近在技术社区看到不少开发者对数据采集与分析工具的开发感兴趣，特别是如何将公开数据转化为有价值的应用。作为一个长期关注数据可视化与自动化处理的开发者，我想分享一个实战案例：如何用SpringBoot和Jsoup构建双色球历史数据分析系统。这个项目不仅适合Java开发者学习网页数据采集技术，还能帮助理解如何将原始数据转化为实用的查询服务。

1. 系统架构设计与技术选型

在开始编码前，我们需要明确系统的整体架构。这个项目主要分为三个核心模块：数据采集层、数据处理层和查询服务层。数据采集层负责从公开网站获取原始开奖数据；数据处理层对采集的数据进行清洗和存储；查询服务层则提供RESTful API供前端调用。

技术选型方面，我们选择SpringBoot作为基础框架，它提供了快速开发Web应用的能力。对于网页数据采集，Jsoup是Java生态中最成熟的HTML解析库之一，它提供了类似jQuery的DOM操作API，能够高效地从网页中提取结构化数据。

// 基础项目依赖配置示例 dependencies { implementation 'org.springframework.boot:spring-boot-starter-web' implementation 'org.jsoup:jsoup:1.15.3' implementation 'org.springframework.boot:spring-boot-starter-data-jpa' runtimeOnly 'com.h2database:h2' }

提示：在实际生产环境中，建议使用MySQL或PostgreSQL替代H2数据库，以获得更好的性能和可靠性。

2. 数据采集模块实现细节

数据采集是整个系统的基础，我们需要确保采集的数据准确完整。目标网站通常会有反爬虫机制，因此我们的采集策略需要兼顾效率和合规性。

2.1 网页结构分析与选择器编写

首先，我们需要分析目标网页的HTML结构。使用浏览器开发者工具可以方便地查看元素和CSS选择器。对于双色球开奖数据页面，通常包含期号、开奖日期、红球号码和蓝球号码等信息。

public class LotteryDataCrawler { private static final String BASE_URL = "http://kaijiang.500.com/ssq.shtml"; public List<LotteryData> crawlAllData() throws IOException { Document doc = Jsoup.connect(BASE_URL).get(); Elements periodLinks = doc.select("div.iSelectList a"); List<LotteryData> allData = new ArrayList<>(); for (Element link : periodLinks) { String periodUrl = link.attr("href"); String periodNumber = link.text(); LotteryData data = crawlPeriodData(periodUrl, periodNumber); allData.add(data); } return allData; } private LotteryData crawlPeriodData(String url, String period) throws IOException { Document periodDoc = Jsoup.connect(url).get(); // 实际选择器需要根据目标网页结构调整 Elements redBalls = periodDoc.select("div.ball_box01 ul li.red"); Elements blueBall = periodDoc.select("div.ball_box01 ul li.blue"); LotteryData data = new LotteryData(); data.setPeriod(period); // 设置红球和蓝球数据... return data; } }

2.2 反爬策略应对与性能优化

为了避免被目标网站封禁，我们需要实现以下防护措施：

请求间隔：在连续请求间添加随机延迟（1-3秒）
User-Agent轮换：模拟不同浏览器的请求头
异常处理：对HTTP错误码进行适当处理
代理支持：必要时使用代理IP池

// 带防护措施的请求示例 public Document safeGet(String url) throws IOException, InterruptedException { Thread.sleep(1000 + new Random().nextInt(2000)); // 随机延迟 Connection connection = Jsoup.connect(url) .userAgent(getRandomUserAgent()) .timeout(10000); return connection.get(); } private String getRandomUserAgent() { String[] agents = { "Mozilla/5.0 (Windows NT 10.0; Win64; x64)...", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...", // 更多User-Agent... }; return agents[new Random().nextInt(agents.length)]; }

3. 数据存储与处理方案

采集到的原始数据需要经过清洗和转换才能用于查询服务。我们设计了以下数据处理流程：

数据验证：检查号码格式、期号连续性等
去重处理：避免重复数据入库
格式标准化：统一日期、号码等字段格式
数据补全：如开奖日期可能需从其他字段提取

3.1 数据库设计

我们使用JPA实现数据持久化，主要实体设计如下：

字段名	类型	描述
id	Long	主键ID
period	String	期号
drawDate	Date	开奖日期
red1	Integer	红球1
red2	Integer	红球2
...	...	...
blue	Integer	蓝球

@Entity public class LotteryRecord { @Id @GeneratedValue(strategy = GenerationType.IDENTITY) private Long id; private String period; private Date drawDate; @Column(nullable = false) private Integer red1; // 其他红球字段... @Column(nullable = false) private Integer blue; // getters and setters... }

3.2 批量导入与更新策略

对于历史数据，我们实现批量导入功能；对于新增数据，则采用增量更新策略：

@Service public class LotteryDataService { @Autowired private LotteryRecordRepository repository; @Transactional public void batchImport(List<LotteryData> dataList) { dataList.stream() .map(this::convertToEntity) .forEach(entity -> { if (!repository.existsByPeriod(entity.getPeriod())) { repository.save(entity); } }); } public void updateLatest() throws IOException { List<LotteryData> newData = crawler.crawlLatest(); batchImport(newData); } private LotteryRecord convertToEntity(LotteryData data) { // 转换逻辑... } }

4. 查询服务API设计与实现

查询服务是系统的核心功能，我们需要设计高效、灵活的API来支持各种查询需求。

4.1 基础查询接口

最基本的查询是根据用户输入的号码组合，查找历史中奖记录：

@RestController @RequestMapping("/api/lottery") public class LotteryQueryController { @Autowired private LotteryRecordRepository repository; @GetMapping("/check") public ResponseEntity<?> checkNumbers( @RequestParam String redBalls, @RequestParam Integer blueBall) { List<Integer> reds = Arrays.stream(redBalls.split(",")) .map(Integer::parseInt) .sorted() .collect(Collectors.toList()); List<LotteryRecord> matched = repository.findByNumbers( reds.get(0), reds.get(1), reds.get(2), reds.get(3), reds.get(4), reds.get(5), blueBall); return ResponseEntity.ok(matched); } }

4.2 高级查询功能

除了基础查询，我们还可以实现一些高级功能：

范围查询：查询某时间段内的开奖记录
号码分析：统计某个号码出现的频率
模式识别：查找特定号码模式的历史出现情况

public interface LotteryRecordRepository extends JpaRepository<LotteryRecord, Long> { // 基础查询 @Query("SELECT r FROM LotteryRecord r WHERE " + "r.red1 = ?1 AND r.red2 = ?2 AND r.red3 = ?3 AND " + "r.red4 = ?4 AND r.red5 = ?5 AND r.red6 = ?6 AND " + "r.blue = ?7") List<LotteryRecord> findByNumbers(int red1, int red2, int red3, int red4, int red5, int red6, int blue); // 时间段查询 List<LotteryRecord> findByDrawDateBetween(Date start, Date end); // 号码出现频率统计 @Query("SELECT r.red1 as number, COUNT(r) as count FROM LotteryRecord r GROUP BY r.red1") List<NumberFrequency> countRed1Frequency(); // 其他统计查询... }

5. 前端交互与结果展示

虽然本文主要关注后端实现，但一个完整系统需要友好的前端界面。我们可以使用现代前端框架如Vue.js或React来构建交互界面。

前端主要功能点包括：

号码输入面板：模拟彩票选号界面
查询结果展示：表格形式展示匹配记录
可视化分析：使用图表展示号码频率分布

<!-- 简化的前端代码示例 --> <div class="lottery-interface"> <div class="red-balls"> <h3>选择6个红球 (1-33)</h3> <div class="ball-grid"> <div v-for="n in 33" :key="n" @click="selectRed(n)" :class="{selected: selectedReds.includes(n)}"> {{ n.toString().padStart(2, '0') }} </div> </div> </div> <div class="blue-ball"> <h3>选择1个蓝球 (1-16)</h3> <!-- 类似红球的实现 --> </div> <button @click="checkNumbers">查询历史记录</button> <div class="results" v-if="results.length > 0"> <h3>查询结果</h3> <table> <tr v-for="record in results" :key="record.period"> <td>{{ record.period }}期</td> <td>{{ formatNumbers(record.reds) }}</td> <td>{{ record.blue }}</td> </tr> </table> </div> </div>

6. 系统优化与扩展方向

完成基础功能后，我们可以考虑以下优化和扩展：

6.1 性能优化策略

缓存机制：对频繁查询的结果进行缓存
异步处理：将数据采集任务放入后台队列
索引优化：为常用查询字段添加数据库索引

// 使用Spring Cache实现查询缓存 @Cacheable(value = "lotteryResults", key = "{#reds,#blue}") public List<LotteryRecord> checkNumbers(String reds, Integer blue) { // 查询逻辑... }

6.2 可能的扩展功能

数据导出：支持CSV/Excel格式导出
订阅通知：当特定号码中奖时发送通知
趋势分析：基于历史数据的预测模型

// 数据导出示例 @GetMapping("/export") public void exportData(HttpServletResponse response, @RequestParam(required = false) String start, @RequestParam(required = false) String end) throws IOException { List<LotteryRecord> records = // 查询数据... response.setContentType("text/csv"); response.setHeader("Content-Disposition", "attachment; filename=lottery-data.csv"); try (PrintWriter writer = response.getWriter()) { writer.println("期号,开奖日期,红球1,红球2,...,蓝球"); records.forEach(r -> writer.println(formatAsCsv(r))); } }

在实际开发中，我发现最耗时的部分是网页结构的分析和选择器的调试。不同时期网页结构可能有变化，因此建议将选择器配置化，便于后期维护。另外，对于数据采集任务，添加完善的日志记录非常重要，可以帮助快速定位问题。

查看全文

http://www.jsqmd.com/news/541360/