当前位置：首页 > news >正文

CSP-J/S 第一轮游记

news 2026/7/11 13:36:30

略梦轮琶核心依赖

dependencies {

// Flink核心依赖

implementation 'org.apache.flink:flink_core:1.20.1'

implementation 'org.apache.flink:flink-streaming-java:1.20.1'

implementation 'org.apache.flink:flink-clients:1.20.1'

}

三、SocketWordCount示例详解

1. 功能介绍

SocketWordCount是Flink中的经典示例，它通过Socket接收实时数据流，对数据流中的单词进行计数，并将结果实时输出。这个示例虽然简单，但包含了Flink流处理的核心要素：数据源连接、数据转换、并行处理和结果输出。

2. 完整代码实现

package com.cn.daimajiangxin.flink;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;

import org.apache.flink.api.common.functions.FlatMapFunction;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;

import org.apache.flink.util.Collector;

import java.time.Duration;

public class SocketWordCount {

public static void main(String[] args) throws Exception {

// 1. 创建执行环境

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 启用检查点，确保容错性

env.enableCheckpointing(5000); // 每5秒创建一次检查点

// 设置并行度

env.setParallelism(2);

// 2. 从Socket读取数据

String hostname = "localhost";

int port = 9999;

// 支持命令行参数传入

if (args.length > 0) {

hostname = args[0];

}

if (args.length > 1) {

port = Integer.parseInt(args[1]);

}

DataStream text = env.socketTextStream(

hostname,

port,

"\n", // 行分隔符

0); // 最大重试次数

// 3. 数据转换

DataStream> wordCounts = text

.flatMap(new Tokenizer())

.keyBy(value -> value.f0)

//添加基于处理时间的滚动窗口计算

.window(TumblingProcessingTimeWindows.of(Duration.ofSeconds(5)))

// 使用sum聚合算子

.sum(1);

// 4. 输出结果

wordCounts.print("Word Count");

// 5. 启动作业

env.execute("Socket Word Count");

}

// 可选：使用传统的FlatMapFunction实现方式

public static final class Tokenizer implements FlatMapFunction> {

private static final long serialVersionUID = 1L;

@Override

public void flatMap(String value, Collector> out) {

String[] words = value.toLowerCase().split("\\W+");

for (String word : words) {

if (word.length() > 0) {

out.collect(Tuple2.of(word, 1));

}

3. 代码解析

3.1 执行环境创建

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

env.setParallelism(2);

这段代码创建了Flink的执行环境，并设置了并行度为2。执行环境是所有Flink程序的入口点，它负责管理作业的执行。

3.2 数据源连接

DataStream text = env.socketTextStream(hostname, port);

这里使用socketTextStream方法从Socket连接中读取文本数据。这是Flink提供的一种内置数据源连接器，适用于测试和演示。

3.3 数据转换

DataStream> wordCounts = text

.flatMap(new Tokenizer())

.keyBy(value -> value.f0) // 按单词分组

.sum(1); // 累加计数

数据转换包含三个关键步骤：

分词：使用flatMap操作将每行文本分割成单词，并为每个单词生成(word, 1)的元组

分组：使用keyBy操作按单词进行分组

聚合：使用sum操作对每个单词的计数进行累加

3.4 结果输出

wordCounts.print("Word Count");

使用print方法将结果输出到控制台，这是一种内置的输出方式，非常适合调试和演示。

3.5 作业启动

env.execute("Socket Word Count");

最后，调用execute方法启动作业。注意，Flink程序是惰性执行的，只有调用execute方法才会真正触发计算。

四、Flink并行流处理机制

1. 并行度概念

并行度是指Flink程序中每个算子可以同时执行的任务数量。在SocketWordCount示例中，我们设置了全局并行度为2，这意味着每个算子都会有2个并行实例。

2. 数据流分区策略

Flink支持多种数据流分区策略，包括：

Forward Partitioning：保持数据分区，一个输入分区对应一个输出分区

Shuffle Partitioning：随机将数据分发到下游算子的分区

Rebalance Partitioning：轮询将数据分发到下游算子的分区

Rescale Partitioning：类似于rebalance，但只在本地节点内轮询

Broadcast Partitioning：将数据广播到所有下游分区

Key Group Partitioning：基于键的哈希值确定分区

在SocketWordCount中，keyBy操作使用了Key Group Partitioning策略，确保相同单词的数据被发送到同一个分区进行处理。

3. 并行执行图解

sadmermaid-diagram

这个图清晰地展示了Flink并行执行的流程，包括：

Socket数据源连接

FlatMap操作（并行度为2）及其两个子任务

KeyBy/Sum操作（并行度为2）及其两个子任务

Print输出操作（并行度为2）

五、运行SocketWordCount

1. 准备Socket服务器

在运行SocketWordCount程序之前，我们需要先启动一个Socket服务器作为数据源。以下是几种常用的Socket服务器搭建方法：

1.1 使用netcat工具

Linux/Mac系统：

nc -lk 9999

参数说明：

-l: 表示监听模式，等待连接

-k: 表示保持连接，允许接受多个连接（对持续测试很有用）

9999: 端口号

Windows系统：

Windows有几种获取netcat的方式：

如果安装了Git，可以使用Git Bash：

nc -l -p 9999

如果安装了Windows Subsystem for Linux (WSL)：

nc -lk 9999

参数说明：

-l: 表示监听模式，等待连接

-k: 表示保持连接，允许接受多个连接（对持续测试很有用）

9999: 端口号

1.2 使用Java实现Socket服务端

如果你想使用Java代码来创建一个更可控的Socket服务器，可以参考以下示例：

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.net.ServerSocket;

import java.net.Socket;

public class SimpleSocketServer {

public static void main(String[] args) {

int port = 9999;

try (ServerSocket serverSocket = new ServerSocket(port)) {

System.out.println("Socket服务器已启动，监听端口: " + port);

while (true) {

try (Socket clientSocket = serverSocket.accept();

PrintWriter out = new PrintWriter(clientSocket.getOutputStream(), true);

BufferedReader in = new BufferedReader(new InputStreamReader(System.in))) {

System.out.println("客户端已连接，输入要发送的数据（输入'exit'退出）：");

String inputLine;

while ((inputLine = in.readLine()) != null) {

if (inputLine.equalsIgnoreCase("exit")) {

break;

}

out.println(inputLine);

}

} catch (IOException e) {

System.err.println("客户端连接异常: " + e.getMessage());

}

} catch (IOException e) {

System.err.println("无法启动服务器: " + e.getMessage());

}

这个Java实现的Socket服务器具有以下特点：

启动后持续监听9999端口

接受客户端连接并允许发送数据

支持通过输入'exit'退出当前客户端连接

异常处理更加完善

1.3 测试Socket连接

在启动Socket服务器后，你可以使用以下方法测试连接是否正常：

使用telnet客户端测试：

telnet localhost 9999

使用netcat作为客户端测试：

nc localhost 9999

1.4 常见问题与解决方法

端口被占用：

错误信息：Address already in use或类似提示

解决方法：更换端口号，或使用lsof -i :9999（Linux/Mac）查找占用端口的进程

防火墙阻止：

症状：服务器启动但客户端无法连接

解决方法：检查系统防火墙设置，确保端口9999已开放

权限问题（Linux/Mac）：

症状：普通用户无法绑定低端口（<1024）

解决方法：使用sudo权限或选择1024以上的端口

Windows特殊情况：

如果nc命令不可用，可以使用上述PowerShell脚本或安装第三方netcat工具

确保Windows Defender防火墙允许连接

六、高级特性扩展

1. 添加窗口计算

添加基于处理时间的滚动窗口计算：

import org.apache.flink.api.common.typeinfo.Types;

import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;

DataStream> wordCounts = text

.flatMap(new Tokenizer())

.keyBy(value -> value.f0)

.window(TumblingProcessingTimeWindows.of(Duration.ofSeconds(5)))

.sum(1);

sad20251007145023

七、常见问题与解决方案

1. 连接被拒绝错误

问题：程序抛出Connection refused错误。

解决方案：确保Socket服务器已启动，并且监听在正确的端口上。

2. 结果不符合预期

问题：输出的单词计数结果不符合预期。

解决方案：检查分词逻辑是否正确，确保单词的大小写处理和分隔符使用得当。

3. 性能问题

问题：程序处理速度较慢。

解决方案：调整并行度，增加资源配置，或优化数据转换逻辑。

八、最佳实践

1. 生产环境配置

设置合适的并行度：根据集群资源和任务特性设置并行度

启用检查点：对于生产环境，启用检查点机制确保容错性

配置状态后端：根据数据量大小选择合适的状态后端

2. 代码优化建议

避免使用全局变量：确保函数是无状态的或正确管理状态

合理设置并行度：避免过度并行化导致的资源浪费

九、总结与展望

查看全文

http://www.jsqmd.com/news/461622/

山东一卡通的回收指南：三分钟掌握最简单的回收方法！ - 团团收购物卡回收

heus控制台中创建工作区 .保存工作区配置点击AWS Prometheus工作区ID进入详情，将提取/收集中的配置保存为pro ...

2026年3月超实用远程指南！ToDesk、向日葵、RayLink等全面评测，帮你精准避坑选到宝！

2026年山西地区创驰蓝天太阳能路灯光色和质量怎么样，客户认可度排名 - 工业品网

Flutter 三方库 test_api 的鸿蒙化适配指南 - 实现具备底层测试驱动与自定义匹配器扩展的质量基石架构、支持端侧测试骨架深度定制实战

Flutter 组件 env_reader 适配鸿蒙 HarmonyOS 实战：高性能环境变量治理，构建敏感资产管理与全场景配置一致性治理架构

富格林：谨防交易滋生冻结欺诈

化工厂气体泄漏怎么用AI检测？30张图3D重建气体泄漏场景——美国国家实验室NeRF新研究

三小时玩转Cruise仿真

深聊东来款货架木纹转印机，河北华宜家性价比高的厂家揭秘 - 工业品牌热点

ROS 中的 rosbag

的加密世界权威指南_第一部分

Linux 常用目录及其用途

PWN手的成长之路--int_overflow

盘点舟山资质齐全的工商注册企业，十大排名情况如何 - 工业设备

云原生全球广域网架构深度科普：从单点集中到全域互联

书是一个暗号，人类中的某一些靠这样的暗号，从茫茫人海中认出对方

Mysticbinary

阿里云oss挂载

BeanFactory和FactoryBean区别

DP遍历避坑：索引遍历 vs 长度遍历，该怎么选？

玩泥巴的|mudtools.cn

网站视频下载工具VideoDownloadStudio

分析2026年好用的双碳数字化源头厂家，大连地区哪家口碑好 - 工业品网

初学者必读：快门速度的奥妙与应用指南

抄书 2901️⃣天

先扔个效果图镇楼。板子上电后打开串口助手，发送“0x55“直接回显，实测115200波特率下收发稳定。下面咱们掰开揉碎说代码实现

记录 | 个人开发库推送至PyPi流程梳理（ChatGPT to Markdown 工具发布完整流程）

相关文章：