当前位置：首页 > news >正文

Spark大数据处理：技术、应用与性能优化【1.9】

news 2026/3/27 6:29:13

4.4.1 通信框架AKKA

Spark在模块间通信使⽤的是AKKA框架。AKKA基于Scala开发，⽤于编写Actor应⽤。Actor模型在并发编程中是⽐较常⻅的⼀种模型。很多开发语⾔都提供了原⽣的Actor模型（Erlang、Scala）。Actors是⼀些包含状态和⾏为的对象。它们通过显式传递消息来进⾏通信，这些消息会被发送到它们的收件箱中（消息队列）。从某种意义上来说，Actor是⾯向对象编程中最严格的实现形式。它们之间可以通过消息来通信。⼀个Actor收到其他Actor的信息后，可以根据需要做出各种响应。通过Scala的强⼤模式匹配功能可以让⽤户⾃定义多样化的消息。Actor建⽴⼀个消息队列，每次收到消息后，放⼊队列，⽽它每次也从队列中取出消息体来处理。通常情况下，这个过程是循环的。让Actor可以时刻接收处理发送来的消息。

注意：⼀个ActorSystem是⼀个重量级的结构。它会分配N个线程。所以对于每⼀个应⽤来说，仅创建⼀个ActorSystem即可。

AKKA Actor树形结构Actors以树形结构组织起来。⼀个Actor可能会把⾃⼰的任务划分成更多更⼩的、利于管理的⼦任务。为了达到这个⽬的，它会开启⾃⼰的⼦Actor，并负责监督这些⼦Actor。关于监督的具体细节就不在这⾥讨论了。我们只需知道⼀点，就是每⼀个Actor都会有⼀个监督者，即创建这些Actor的Actor。

AKKA的优势和特性如下。

1）并⾏和分布式：AKKA在设计时采⽤了异步通信和分布式架构。

2）可靠性：在本地/远程都有监控和恢复机制。

3）⾼性能：在单机环境中每秒可发送50000000个消息。1GB内存中可创建和保持2500000个Actor对象。

4）去中⼼：区别于Master-Slave模式，采取⽆中⼼节点的架构。

5）可扩展性：可以在分布式环境下进⾏Scale out，线性扩充计算能⼒。

可以看到AKKA具有强⼤的并发处理能⼒，在国内，豌⾖荚对AKKA集群做了很有深度的研究和实践，感兴趣的读者可以进⼀步了解。

Spark中并没有充分挖掘AKKA强⼤的并⾏计算能⼒，⽽是将其作为分布式系统中的RPC框架。很多组件封装为Actor，进⾏控制和状态通信。

Spark中的Client、Master和Worker都是⼀个Actor。

例如，Master通过worker.actor！LaunchDriver（driver.id， driver.desc）向Worker节点发送启动Driver命令消息，在Worker节点中通过receive的⽅式响应命令消息。

override def receive = { ……

case LaunchDriver（driverId， driverDesc） => { ……