当前位置: 首页 > news >正文

Spark学习 day6 - 呓语

对数据进行分析
image

1、正常的单词进行单词计数
2、特殊字符统计出现多少个

from pyspark import SparkConf, SparkContext
from pyspark.storagelevel import StorageLevel
from defs import context_jieba
from defs import context_jieba, filter_words, append_words, extract_user_and_word
from operator import add
import reif __name__ == '__main__':conf = SparkConf().setAppName("test").setMaster("local[*]")sc = SparkContext(conf=conf)file_rdd = sc.textFile("../../data/input/accumulator_broadcast_data.txt")abnormal_char = [",", ".", "!", "#", "$", "%"]broadcast = sc.broadcast(abnormal_char)acmlt = sc.accumulator(0)lines_rdd = file_rdd.filter(lambda line: line.strip())data_rdd = lines_rdd.map(lambda line: line.strip())#通过空格切分words_rdd = data_rdd.flatMap(lambda line: re.split("\s+", line))def filter_func(data):global acmltabnormal_chars = broadcast.valueif data in abnormal_chars:acmlt += 1return Falseelse:return Truenormal_words_rdd = words_rdd.filter(filter_func)result_rdd = normal_words_rdd.map(lambda x: (x, 1)).\reduceByKey(lambda a, b: a + b)print("正常单词计数结果:", result_rdd.collect())print("特殊字符数量:", acmlt)
http://www.jsqmd.com/news/347213/

相关文章:

  • YOLO26 改进 - 注意力机制 LRSA局部区域自注意力( Local-Region Self-Attention) 轻量级局部上下文建模弥补长程依赖细节不足 CVPR2025
  • YOLO26 改进 - 注意力机制 DCAFE双坐标注意力:并行坐标注意力 + 双池化融合
  • YOLO26 改进 - C2PSA C2PSA融合EDFFN高效判别频域前馈网络(CVPR 2025):频域筛选机制增强细节感知,优化复杂场景目标检测
  • YOLO26 改进 - C2PSA C2PSA融合MSLA多尺度线性注意力:并行多分支架构融合上下文语义,提升特征判别力 Arxiv2025
  • 网络工程开题报告 游泳馆管理系统
  • 豆包没有广告后台,企业该如何被“看见”?DoubaoAD.com 的差异化实践 - 品牌2025
  • 基于Spring Boot的家政保洁预约系统
  • 如何提升品牌在豆包中的可见性?DoubaoAD.com 的合规实践路径 - 品牌2025
  • 【机械臂路径规划】基于约束的增量拓展随机树CBiRRT算法实现机械臂机器人路径规划附Matlab复现和论文
  • 2026 : OI Exercises
  • MySQL 索引详解:从原理到实战优化
  • 怎样将浏览器真正完全切换到暗色模式?Firefox、Chrome、Edge
  • 价值投资中的择股技巧
  • Swinject 在移动端广告系统中的应用
  • 毕业设计任务书模板基于JSP的商品库存管理系统
  • python: 简单提取PDF文档
  • 梁实秋《沉默》
  • 面壁智能发布 MiniCPM-o 4.5,端侧全双工实时音视频交互;海马爸比推出首款 AI 魔法打印机,语音生图+即时打印丨日报
  • 纯前端驱动:在线 Excel 器具的技术革新与实践专业的方案
  • 本文档将依次阐述门禁CPU卡读卡器、IC卡梯控读头的技术规格、接口定义、通信协议解析、开发指南及故障排查流程,为后续选型的技术细节展开奠定专业基础。保留原始设计参数,未经过简化确保专业人员直接上手用
  • IntelliJ IDEA主题Theme
  • 【相控阵雷达跟踪】多目标跟踪的联合阵列资源分配和发射波束设计方法附Matlab代码
  • 豆包推广怎么做?一份合规、可持续的AI内容布局指南 - 品牌2025
  • 【JPCS出版,有ISSN号,高录用,EI稳检索,福州大学、青岛大学威海创新研究院联合主办,Fellow报告,会议有保障】2026年能源、电力与可持续发展国际学术会议(EESD 2026)
  • Linux:分包上传文件
  • 光谱数据降维和特征选择识别附Matlab代码
  • 【广东工业大学主办,SAE出版,EI快速稳定检索,学术大咖加盟 | 低空经济、交通系统、机器制造、供应链网络、无人机等主题均可投递】 2026年低空经济与技术应用国际学术会议 (LETA 2026)
  • 【悬臂梁挠度问题】基于PINN物理信息神经网络计算一维悬臂梁挠度问题附Python代码
  • 分类数据 EDA 实战:如何发现隐藏的层次结构
  • 别让显示屏拖后腿!汽车/电子/医疗行业都在用的气密检测仪显示屏有哪些隐藏指标? - 浴缸里的巡洋舰