当前位置: 首页 > news >正文

Spark大数据处理:技术、应用与性能优化【1.2】

1.5.3 Spark在⻄班⽛电信的应⽤

⻄班⽛电信(Telefónica,S.A.)是⻄班⽛的⼀家电信公司。这是全球第五⼤固⽹和移动通信运营商。

Telefónica成⽴于1924年。在1997年电信市场⾃由化之前, Telefónica是⻄班⽛唯⼀的电信运营商,⾄今仍占据主要的市场份额(2004年超过75%)。

⻄班⽛电信的数据与⽇俱增,随着数据的增⻓,⽹络安全成为⼀个不可忽视的问题⽽凸显。DDoS攻击、SQL注⼊攻击、⽹站置换、账号盗⽤等⽹络犯罪频繁发⽣。如何通过⼤数据分析,预防⽹络犯罪与正确检测诊断成为迫在眉睫的问题。

传统的应对⽅案是,采⽤中⼼化的数据存储,收集事件、⽇志和警告信息,对数据分析预警,并对⽤户⾏为进⾏审计。但是随着犯罪多样化与数据分析技术越来越复杂,架构已经演变为中⼼架构服务化,并提供早期预警、离线报告、趋势预测、决策⽀持和可视化的⼤数据⽹络安全分析预警策略。

⻄班⽛电信采⽤Stratio公司提供的含有Spark的数据分析解决⽅案构建⾃⾝的⽹络安全数据分析栈,将使⽤的⼤数据系统缩减了⼀半,平台复杂性降低,同时处理性能成倍提升。

整体架构如图1-12所⽰。

在架构图中,最顶层通过Kafka不断收集事件、⽇志、预警等多数据源的信息,形成流数据,完成数据集成的功能。接下来Kafka将处理好的数据传输给Storm,Storm将数据混合与预处理。最后将数据存储进Cassandra、Mongo和HDFS进⾏持久化存储,使⽤Spark进⾏数据分析与预警。

在数据收集阶段:数据源是多样化的,可能来⾃DNS⽇志、⽤户访问IP、社交媒体数据、政府公共数据源等。Kafka到数据源拉取不同数据维度数据。

在数据预处理阶段:通过Storm进⾏数据预处理与规范化。在这个阶段为了能够实时预警,采⽤⽐Spark Streaming实时性更⾼的Storm进⾏处理。

在数据批处理阶段:数据经过预处理阶段之后将存储到Cassandra中持久化。开发⼈员通过Cassandra进⾏⼀些简单的查询和数据报表分析。对于复杂的数据分析,需要使⽤Spark来完成。Spark+Cassandra的架构结合了两个系统的优势。Cassandra的⼆级索引能够加速查询处理。

Spark对机器学习和图计算等复杂数据分析应对⾃如,⼆者组合能够应对常⻅和复杂的数据分析负载。

1.5.4 Spark在淘宝的应⽤

数据挖掘算法有时候需要迭代,每次迭代时间⾮常⻓,这是淘宝选择⼀个更⾼性能计算框架Spark的原因。Spark编程范式更加简洁也是⼀⼤原因。另外,GraphX提供图计算的能⼒也是很重要的。

1.Spark on YARN架构

Spark的计算调度⽅式从Mesos到Standalone,即⾃建Spark计算集群。虽然Standalone⽅式性能与稳定性都得到了提升,但⾃建集群资源少,需要从云梯集群复制数据,不能满⾜数据挖掘与计算团队业务需求[1]。⽽Spark on YARN能让Spark计算模型在云梯YARN集群上运⾏,直接读取云梯上的数据,并充分享受云梯YARN集群丰富的计算资源。图1-13为Spark on YARN的架构。

Spark on YARN架构解析如下。

基于YARN的Spark作业⾸先由客户端⽣成作业信息,提交给ResourceManager,ResourceManager在某⼀NodeManager汇报时把AppMaster分配给NodeManager,NodeManager启动SparkAppMaster, SparkAppMaster启动后初始化作业,然后向ResourceManager申请资源,申请到相应资源后,SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor,SparkExecutor向SparkAppMaster汇报并完成相应的任务。此外,SparkClient会通过AppMaster获取作业运⾏状态。⽬前,淘宝数据挖掘与计算团队通过Spark on YARN已实现MLR、PageRank和JMeans算法,其中MLR已作为⽣产作业运⾏。

2.协作系统

1)Spark Streaming:淘宝在云梯构建基于Spark Streaming的实时流处理框架。Spark Streaming适合处理历史数据和实时数据混合的应⽤需求,能够显著提⾼流数据处理的吞吐量。其对交易数据、⽤户浏览数据等流数据进⾏处理和分析,能够更加精准、快速地发现问题和进⾏预测。

2)GraphX[2]:淘宝将交易记录中的物品和⼈组成⼤规模图。使⽤GraphX对这个⼤图进⾏处理(上亿个节点,⼏⼗亿条边)。GraphX能够和现有的Spark平台⽆缝集成,减少多平台的开发代价。

本节主要介绍了Spark在⼯业界的应⽤。Spark起源于学术界,发展于⼯业界,现在已经成为⼤数据分析不可或缺的计算框架。通过Amazon提供Spark云服务,可以看到Big Data on Cloud已经兴起。Yahoo!很早就开始使⽤Spark,将Spark⽤于⾃⼰的⼴告平台、商品交易数据分析和推荐系统等数据分析领域。同时Yahoo!也积极回馈社区,与社区形成良好的互动。Stratio公司为⻄班⽛电信提供基于Spark+Cassandra+Storm架构的数据分析解决⽅案,实现流数据实时处理与离线数据分析兼顾,通过它们的案例可以看到多系统混合提供多数据计算范式分析平台是未来的⼀个趋势。最后介绍国内淘宝公司的Spark应⽤案例,淘宝是国内较早使⽤Spark的公司,通过Spark进⾏⼤规模机器学、图

http://www.jsqmd.com/news/379611/

相关文章:

  • 有限元模型可视化:两套独立Python代码实现带载荷与纯几何对比
  • 6个提示词,能把混乱的剪辑变成专业策略
  • 26.2.12
  • 完整教程:leetcode算法(112.路径总和)
  • 使用Qwen Code的Skills能力重塑工作流 - yi
  • 大数据ETL工具比较:Sqoop vs Flume vs Kafka
  • Django 中间件
  • temperature定义与使用
  • Google API 教程
  • AI编程工具在高可用架构设计中的应用:从故障注入到灾备方案生成实战
  • 视频转换器HD Video Converter Factory 28.6 便携版
  • XML Schema 复合空元素
  • 2001-2024年上市公司媒体关注度数据+Stata代码
  • 必看!2026年琼海海鲜推荐榜单,探索高性价比家庭聚餐海鲜店与知名夜宵选择
  • 企业AI伦理准则制定中的跨部门协作:AI应用架构师的协调技巧
  • 6大方法教你禁止windows11自动更新,windows自动更新怎么关闭,有效阻止关闭win11更新
  • 把Kindle变成电子表!
  • Turnitin AI率爆表怎么办?揭秘网易有道“学术猹”的官方解决方案 - 品牌观察员小捷
  • Windows优化大师,Windows系统管理工具V9.53绿色优化版,附带实用工具箱,已调整功能优化,windows系统优化管理工具
  • Ruby 条件判断
  • 欧洲医药健康行业招聘数据集:41093条职位记录的全景分析与职业发展应用价值-涵盖了从临床研究、制药销售到医疗器械监管等全产业链的职位信息-人力资源研究、行业发展分析和人才市场预测
  • 法语年鉴数据集-语言学研究、教育资源开发、历史文献分析以及自然语言处理算法训练-深入分析语言演变、教育趋势以及学术内容-法语相关专业的毕业设计
  • 睡前讲一段docker编译镜像的故事
  • 论文降重避坑指南:如何确保 AI 率降至 10% 且不被收录? - 品牌观察员小捷
  • QT UDP网络编程
  • Open-AutoGLM项目实战:在Android设备上构建自动操作与ADB键盘控制
  • 拒绝论文“被收录”风险:2026年最安全的论文降AI率平台深度解析 - 品牌观察员小捷
  • 2026年AIGC痕迹消除与降重实测:为何网易有道“学术猹”能成为行业标杆? - 品牌观察员小捷
  • 《从程序员到CTO沟通说话的力量:技术人有效说服他人的沟通策略与技巧》1
  • 现代C++实现AVL树