当前位置: 首页 > news >正文

Jbd8:总结

@

目录
  • 教程地址
  • 1. 框架综述
  • 2. 大数据分析引擎的发展简史
    • 2.1 萌芽阶段(2003-2008)
    • 2.2 快速发展阶段(2009-2014)
    • 2.3 成熟阶段(2015-至今)
    • 2.4 大数据分析引擎发展方向

教程地址

https://github.com/datawhalechina/juicy-bigdata/

1. 框架综述

一般来说,大数据框架在总体上分为存储引擎和计算分析引擎

存储引擎通常用来存储海量数据,而分析引擎通常用来分析海量数据

在这里插入图片描述

2. 大数据分析引擎的发展简史

在这里插入图片描述

值得说明的是,该时间标注的是技术出现的时间。在生产环境中,这些技术得到大量运用的时间要比出现时间晚5-10年左右。

2.1 萌芽阶段(2003-2008)

主要产生了“三驾马车”:

  • MapReduce:

    开源分布式并行计算框架

  • BigTable:

    大型的分布式数据库

  • GFS:

    Google的分布式文件系统

主要意义如下:

  1. MapReduce:

    主要解决可扩展性和容错性问题

    使得我们可以通过使用简单的API,专注于大数据处理

    其缺点是抽象层次太低,不便于工作流的编写

  2. FlumeJava:

    主要解决MapReduce抽象层次太低的问题

    解决单个MapReduce无法满足复杂业务场景的问题

    专注自动优化编写的逻辑管道

2.2 快速发展阶段(2009-2014)

  1. Spark

    1.主要改进是:

     内存计算,提高了速度;引入RDD概念,数据可重放,实现一致性;RDD的抽象概念,使数据流的处理很方便,代码编写简单。
    
    1. 缺点是:

      Spark Streaming的实时计算,是伪实时、mini-batch的

      不能真正覆盖实时应用的场景。

  2. Storm

    1. 主要优点是:

      event级别实时计算

      毫秒级低延迟

      能满足实时需求

    2. 缺点是:

      较低的一致性保;

      无状态;

      不支持SQL。

关于Storm,比较有趣的是,因为Storm的无状态和较低的一致性保证,Storm的作者提出了Lambda架构(即离线计算+实时计算的架构)。而这个思想,在实时计算和离线计算间,也为后面”流批一体“的出现,埋下了种子。

2.3 成熟阶段(2015-至今)

  1. DataFlow

    DataFlow抽象出一个具有足够普遍性和灵活性的模型,通过执行引擎的选择

    转换为延迟程度和处理成本之间的选择

    这也为流批一体的实现提供了理论基础

    论文翻译

  2. Flink

    Flink不同于Spark的批处理(batch processing)

    它主要用于数据的流处理(streaming processing),将输入看做一条stream

    将函数应用到stream上,再进行输出

    Flink的底层是流式处理,其上层也是基于流式处理构建的batch

    通过记录流式处理的start point,以及维护运行过程中的state实现一个窗口的batch处理

2.4 大数据分析引擎发展方向

  1. 改进编程模型

    用更简单的API,写出更复杂的业务处理逻辑;

  2. 提高处理效率

    效率必然是不可缺少的

  3. 扩大解决的问题领域

    一个处理引擎,能够处理更多的业务场景

    意味着更少的维护成本、更少的集群投入、更简单的架构

http://www.jsqmd.com/news/429281/

相关文章:

  • 最短路 - ## 采购特价商品
  • RAG文本分块全攻略(非常详细),七种主流策略从入门到精通,收藏这一篇就够了!
  • LLM-RL训练框架入门基础教程(非常详细),3大流派+6大框架从入门到精通,收藏这一篇就够了!
  • Jbd3:HDFS
  • pikachu靶场——Cross-Site Scripting-4 XSS盲打与过滤(Kali系统)
  • 动态树LCT
  • 多模态大模型 | 利用词嵌入多模态语义知识对齐以增强图片-文本匹配
  • Jbd2:Hadoop
  • 云服务器配置 docker-spark
  • OpenKylin够牛,能远程操作的OpenKylin更牛!
  • go-zero的kafka配置
  • 2026年充电桩厂家全场景选型指南:汽车充电桩/重卡充电桩/船舶充电桩/两轮车充电桩 - 资讯焦点
  • Jbd0:前言 Jbd1:概述
  • 最短路 - ## 邮递员送信
  • 2026海外求职机构哪家成功率高:名企资源+导师实力测评(必看) - 品牌排行榜
  • 2026年2月中国网站建设公司推荐榜:十大靠谱口碑供应商 - 资讯焦点
  • 2026年3月京东E卡回收平台精选榜单|收券宝为何成为行业标杆 - 资讯焦点
  • 2026年3月京东E卡回收平台深度测评|收券宝凭三大优势登顶榜首 - 资讯焦点
  • leetcode172.阶乘后的零
  • RuVector:自学习的高性能矢量数据库 [特殊字符]
  • 2026年3月京东E卡回收平台排行榜TOP5|安全高效首选收券宝 - 资讯焦点
  • 2026年卡券回收平台综合实力排行榜,收券宝稳居榜首 - 资讯焦点
  • LangGraph 实战指南:从零构建一个会“思考”的 AI 智能体
  • C++ 中 构造函数 之二
  • 2026上海家政数字化趋势观察:行业正在从“流量竞争”走向“履约竞争”
  • 2026年工程承包商户外场景电动遮阳帘优质推荐榜 - 资讯焦点
  • Task12:哈希表
  • 2026年高性价比卡券回收平台排行榜,收券宝兼顾实惠与省心 - 资讯焦点
  • C++ 中 构造函数 之一
  • Task11:分治