当前位置：首页 > news >正文

Spark大数据处理：技术、应用与性能优化【1.2】

news 2026/4/3 9:29:54

1.5.3 Spark在⻄班⽛电信的应⽤

⻄班⽛电信（Telefónica，S.A.）是⻄班⽛的⼀家电信公司。这是全球第五⼤固⽹和移动通信运营商。

Telefónica成⽴于1924年。在1997年电信市场⾃由化之前， Telefónica是⻄班⽛唯⼀的电信运营商，⾄今仍占据主要的市场份额（2004年超过75%）。

⻄班⽛电信的数据与⽇俱增，随着数据的增⻓，⽹络安全成为⼀个不可忽视的问题⽽凸显。DDoS攻击、SQL注⼊攻击、⽹站置换、账号盗⽤等⽹络犯罪频繁发⽣。如何通过⼤数据分析，预防⽹络犯罪与正确检测诊断成为迫在眉睫的问题。

传统的应对⽅案是，采⽤中⼼化的数据存储，收集事件、⽇志和警告信息，对数据分析预警，并对⽤户⾏为进⾏审计。但是随着犯罪多样化与数据分析技术越来越复杂，架构已经演变为中⼼架构服务化，并提供早期预警、离线报告、趋势预测、决策⽀持和可视化的⼤数据⽹络安全分析预警策略。

⻄班⽛电信采⽤Stratio公司提供的含有Spark的数据分析解决⽅案构建⾃⾝的⽹络安全数据分析栈，将使⽤的⼤数据系统缩减了⼀半，平台复杂性降低，同时处理性能成倍提升。

整体架构如图1-12所⽰。

在架构图中，最顶层通过Kafka不断收集事件、⽇志、预警等多数据源的信息，形成流数据，完成数据集成的功能。接下来Kafka将处理好的数据传输给Storm，Storm将数据混合与预处理。最后将数据存储进Cassandra、Mongo和HDFS进⾏持久化存储，使⽤Spark进⾏数据分析与预警。

在数据收集阶段：数据源是多样化的，可能来⾃DNS⽇志、⽤户访问IP、社交媒体数据、政府公共数据源等。Kafka到数据源拉取不同数据维度数据。

在数据预处理阶段：通过Storm进⾏数据预处理与规范化。在这个阶段为了能够实时预警，采⽤⽐Spark Streaming实时性更⾼的Storm进⾏处理。

在数据批处理阶段：数据经过预处理阶段之后将存储到Cassandra中持久化。开发⼈员通过Cassandra进⾏⼀些简单的查询和数据报表分析。对于复杂的数据分析，需要使⽤Spark来完成。Spark+Cassandra的架构结合了两个系统的优势。Cassandra的⼆级索引能够加速查询处理。

Spark对机器学习和图计算等复杂数据分析应对⾃如，⼆者组合能够应对常⻅和复杂的数据分析负载。

1.5.4 Spark在淘宝的应⽤

数据挖掘算法有时候需要迭代，每次迭代时间⾮常⻓，这是淘宝选择⼀个更⾼性能计算框架Spark的原因。Spark编程范式更加简洁也是⼀⼤原因。另外，GraphX提供图计算的能⼒也是很重要的。

1.Spark on YARN架构

Spark的计算调度⽅式从Mesos到Standalone，即⾃建Spark计算集群。虽然Standalone⽅式性能与稳定性都得到了提升，但⾃建集群资源少，需要从云梯集群复制数据，不能满⾜数据挖掘与计算团队业务需求[1]。⽽Spark on YARN能让Spark计算模型在云梯YARN集群上运⾏，直接读取云梯上的数据，并充分享受云梯YARN集群丰富的计算资源。图1-13为Spark on YARN的架构。

Spark on YARN架构解析如下。

基于YARN的Spark作业⾸先由客户端⽣成作业信息，提交给ResourceManager，ResourceManager在某⼀NodeManager汇报时把AppMaster分配给NodeManager，NodeManager启动SparkAppMaster， SparkAppMaster启动后初始化作业，然后向ResourceManager申请资源，申请到相应资源后，SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor，SparkExecutor向SparkAppMaster汇报并完成相应的任务。此外，SparkClient会通过AppMaster获取作业运⾏状态。⽬前，淘宝数据挖掘与计算团队通过Spark on YARN已实现MLR、PageRank和JMeans算法，其中MLR已作为⽣产作业运⾏。

2.协作系统

1）Spark Streaming：淘宝在云梯构建基于Spark Streaming的实时流处理框架。Spark Streaming适合处理历史数据和实时数据混合的应⽤需求，能够显著提⾼流数据处理的吞吐量。其对交易数据、⽤户浏览数据等流数据进⾏处理和分析，能够更加精准、快速地发现问题和进⾏预测。

2）GraphX[2]：淘宝将交易记录中的物品和⼈组成⼤规模图。使⽤GraphX对这个⼤图进⾏处理（上亿个节点，⼏⼗亿条边）。GraphX能够和现有的Spark平台⽆缝集成，减少多平台的开发代价。

本节主要介绍了Spark在⼯业界的应⽤。Spark起源于学术界，发展于⼯业界，现在已经成为⼤数据分析不可或缺的计算框架。通过Amazon提供Spark云服务，可以看到Big Data on Cloud已经兴起。Yahoo！很早就开始使⽤Spark，将Spark⽤于⾃⼰的⼴告平台、商品交易数据分析和推荐系统等数据分析领域。同时Yahoo！也积极回馈社区，与社区形成良好的互动。Stratio公司为⻄班⽛电信提供基于Spark+Cassandra+Storm架构的数据分析解决⽅案，实现流数据实时处理与离线数据分析兼顾，通过它们的案例可以看到多系统混合提供多数据计算范式分析平台是未来的⼀个趋势。最后介绍国内淘宝公司的Spark应⽤案例，淘宝是国内较早使⽤Spark的公司，通过Spark进⾏⼤规模机器学、图

查看全文

http://www.jsqmd.com/news/379611/