【信息科学与工程学】【数据科学】数据科学领域 第十二篇 大数据主要算法01
大数据计算、存储、网络精细化分类列表
一、大数据计算引擎与框架
1.1 批处理计算
| 分类 | 代表系统 | 计算模型 | 数据模型 | 容错机制 | 适用场景 |
|---|---|---|---|---|---|
| MapReduce类 | Apache Hadoop MR | Map-Shuffle-Reduce | 键值对 | 任务重试 | 离线ETL |
| Disco | Map-Reduce | 键值对 | 节点重试 | 科学计算 | |
| DAG类 | Apache Spark | RDD/DAG | 弹性分布式数据集 | 血缘+检查点 | 交互查询 |
| Apache Tez | DAG | 记录流 | 任务重试 | Hive优化 | |
