当前位置: 首页 > news >正文

2025.12.22总结

温习大数据的基本思路是一个电脑解决不了的问题,用多个电脑解决

  1. 核心理念:分而治之
    核心问题:一台电脑(无论多强大)在处理海量数据时会遇到瓶颈:存储装不下、计算算得慢、硬件容易坏。
    基本思路:将巨大的任务(数据和计算)拆分成许多小任务,分发到成百上千台普通的、廉价的电脑(节点)上,让它们并行处理,最后把结果汇总。这就是 “分而治之”​ 。
  2. 如何实现这个思路?(技术三部曲)
    第一步:存得下 - 分布式存储
    不再把数据放在一台电脑的硬盘上,而是切成块,复制多份,分散存储到多台电脑上。这样既突破了单机存储容量限制,又通过冗余实现了容错(几台电脑坏了,数据不丢)。
    代表技术:HDFS、GFS、对象存储。
    第二步:算得快 - 分布式计算
    把计算程序(代码)送到数据所在的节点上去执行,而不是把海量数据搬到一台电脑上计算。这极大地减少了数据移动的开销,实现了“移动计算比移动数据更划算”。
    代表模型:MapReduce、Spark。比如,统计100亿个单词的词频,可以分给1000台电脑,每台统计1亿个,最后汇总。
    第三步:管得好 - 协同与调度
    需要一个“大脑”(调度器)来管理这个庞大的电脑集群:分配任务、监控健康、处理故障、协调资源。
    代表系统:YARN、Kubernetes、集群管理工具。
http://www.jsqmd.com/news/125624/

相关文章:

  • 任务队列满了怎么办?四种线程池拒绝策略
  • 串口通信调试技巧在上位机软件开发中的应用
  • 使用CANoe进行UDS诊断测试的实战案例解析
  • Packet Tracer汉化完整指南:适用于初学者的配置流程
  • 线程池优雅关闭:线程池生命周期管理:四种关闭策略的实战对比
  • 数据库性能优化实战:从工程架构到SQL深度调优的全面指南
  • 要不咱也整个长枪短炮?
  • 数据库性能跃迁之道:工程架构与SQL调优的深度协同
  • 从零开始理解I2S协议工作原理:音频设备入门必看
  • 版本、需求、代码管理制度如何设计
  • 软件工程学习日志2025.12.22
  • 分布式搜索ES面试题精讲:实战案例
  • Babel中实现ES6函数扩展的深度剖析
  • 零基础也能懂的ESP32连接阿里云MQTT讲解
  • PetaLinux内核定制全流程:新手入门必看图文教程
  • 一文说清Vivado下载在Artix-7上的实现方法
  • Elasticsearch日志分析系统部署全流程解析
  • 工业自动化设备PCB布线可制造性设计:DFM实践指南
  • Flutter AR 开发:打造厘米级精度的室内导航应用
  • AD导出Gerber文件与钻孔文件同步输出技巧(操作指南)
  • 优化实验资源分配:Multisim主数据库的教学价值解析:核心要点
  • GlcNAc beta(1-3)GalNAc-alpha-Thr—糖肽研究与治疗的关键糖基化结构单元 CAS号: 126740-76-9
  • 项目超编与人力如何优化处理
  • 小程序springboot新能源汽车4S店试驾平台_i3v8mexl
  • 小程序springboot新能源汽车4S店试驾平台_i3v8mexl
  • 什么样的程序员在35岁以后依然被公司抢着要?
  • 照片修改工具Paint Net
  • 小程序springboot校园外卖美食配送平台 快递员骑手_53sih559
  • 华为OD机试双机位C卷 - 采样过滤 (C++ Python JAVA JS GO)
  • LC.230 | 二叉搜索树中第 K 小的元素 | 树 | 中序遍历计数