当前位置: 首页 > news >正文

Doris概述介绍

Doris概述篇

一、前言

Doris由百度大数据部研发,之前叫百度Palo,于2017年开源,2018年贡献到 Apache 社区后,更名为Doris。

二、Doris简介

Apache Doris是一个现代化的基于MPP(大规模并行处理)技术的分析型数据库产品。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。

Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效。

MPP ( Massively Parallel Processing ),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说,MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果 ( 与 Hadoop 相似 )。

三、核心特性

  1. 基于MPP(大规模并行处理)架构的分析型数据库
  2. 性能卓越,PB级别数据毫秒/秒级响应
  3. 支持标准SQL语言,兼容MySQL协议
  4. 向量化执行器
  5. 高效的聚合表技术
  6. 新型预聚合技术Rollup
  7. 高性能、高可用、高可靠
  8. 极简运维,弹性伸缩

四、​​​​​​​​​​​​​​Doris特点

  • 性能卓越

TPC-H、TPC-DS性能领先,性价比高,高并发查询,100台集群可达10w QPS,流式导入单节点50MB/s,小批量导入毫秒延迟

  • 简单易用

高度兼容MySql协议;支持在线表结构变更高度集成,不依赖于外部存储系统

  • 扩展性强

架构优雅,单集群可以水平扩展至200台以上

  • 高可用性

多副本,元数据高可用

五、​​​​​​​​​​​​​​开源OLAP引擎对比

  • OLTPOLAP

OLTP是 Online Transaction Processing 的简称;OLAP 是 OnLine Analytical Processing 的简称

OLTP的查询一般只会访问少量的记录,且大多时候都会利用索引。比如最常见的基于主键的 CRUD 操作

OLAP 的查询一般需要 Scan 大量数据,大多时候只访问部分列,聚合的需求(Sum,Count,Max,Min 等)会多于明细的需求(查询原始的明细数据)

  • HTAP

HTAP 是 Hybrid Transactional(混合事务)/Analytical Processing(分析处理)的简称。

基于创新的计算存储框架,HTAP 数据库能够在一份数据上同时支撑业务系统运行和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。此外,HTAP 基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。

目前,实现 HTAP 的数据库不多,主要有 PingCAP 的 TiDB、阿里云的 HybridDB for MySQL、百度的 BaikalDB 等。其中,TiDB 是国内首家开源的 HTAP 分布式数据库。

  • OLAP分类

MOLAP:通过预计算,提供稳定的切片数据,实现多次查询一次计算,减轻了查询时的计算压力,保证了查询的稳定性,是“空间换时间”的最佳路径。实现了基于Bitmap的去重算法,支持在不同维度下去重指标的实时统计,效率较高。

ROLAP:基于实时的大规模并行计算,对集群的要求较高。MPP引擎的核心是通过将数据分散,以实现CPU、IO、内存资源的分布,来提升并行计算能力。在当前数据存储以磁盘为主的情况下,数据Scan需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经支持Bitmap算法,配合预计算可以很好地解决去重应用场景。

doris是一个ROLAP引擎, 可以满足以下需求

  • 灵活多维分析
  • 明细+聚合
  • 主键更新

对比其他的OLAP系统

  • MOLAP模式的劣势(以Kylin为例
    • 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同的业务场景中,模型的利用率也比较低。
    • 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到DBMS引擎来响应交互,增加了生产的运维成本。
    • 较多的预处理伴随着较高的生产成本。
  • ROLAP模式的优势
    • 应用层模型设计简化,将数据固定在一个稳定的数据粒度即可。比如商家粒度的星形模型,同时复用率也比较高。
    • App层的业务表达可以通过视图进行封装,减少了数据冗余,同时提高了应用的灵活性,降低了运维成本。
    • 同时支持“汇总+明细”。
    • 模型轻量标准化,极大的降低了生产成本。

综上所述,在变化维、非预设维、细粒度统计的应用场景下,使用MPP引擎驱动的ROLAP模式,可以简化模型设计,减少预计算的代价,并通过强大的实时计算能力,可以支撑良好的实时交互体验。

总结:

  • 数据压缩率Clickhouse好
  • ClickHouse单表查询性能优势巨大
  • Join查询两者各有优劣,数据量小情况下Clickhouse好,数据量大Doris好
  • Doris对SQL支持情况要好

六、​​​​​​​​​​​​​​使用场景

上图是整个Doris的具体使用场景,主要是它的接收数据源,以及它的一个整体的模块,还有最后它的一个可视化的呈现。后面会有一张更详细的图去介绍它整个的来源,以及最后可以输出的数据流向。

一般情况下,用户的原始数据,比如日志或者在事务型数据库中的数据,经过流式系统或离线处理后,导入到Doris中以供上层的报表工具或者数据分析师查询使用。

http://www.jsqmd.com/news/1000376/

相关文章:

  • 2026长春甲醛检测方法全攻略:自测仪器与CMA检测对比 - 环保除醛知识库
  • 终极游戏文件解包神器:QuickBMS完整使用指南
  • 2026绍兴新房除甲醛方法对比:实测排名与科学推荐方案 - 环保除醛知识库
  • Navicat Mac版无限重置试用期终极指南:3种简单方法免费使用完整功能
  • LeetCode Hot 100(JS版)
  • OneDrive卸载技术解析:Windows系统深度清理指南
  • 广州闲置包包变现白皮书|门店优劣拆解+避坑实操技巧 - 奢侈品回收评测
  • 如何为logkeys贡献代码:开源键盘记录器开发完全指南
  • 2026年美国留学中介哪个好:五家优选品牌深度解析 - 科技焦点
  • 2026年美国留学中介性价比对比:五家优选品牌深度解析 - 科技焦点
  • Penpot:开源设计工具如何重塑设计与开发的协作范式
  • 易开发终极指南:Android 9.0应用脱壳与界面分析完整教程
  • NocoDB深度解析:企业级开源Airtable替代方案的技术架构与最佳实践
  • 2026南京理查德米勒专项实测:鉴定真伪、估价逻辑、附件影响价格全揭秘 - 奢侈品回收评测
  • 5分钟搞定高效语音识别:Faster-Whisper实战配置指南
  • 从‘弱口令汇编’到实战防御:手把手教你用HashiCorp Vault动态管理那些不能说的秘密
  • 哪个平台的会员每周都有活动,而且真的能免费领到东西?亲测美团会员福利拿到手软 - 资讯焦点
  • 终极硬件限制绕过指南:让旧电脑也能运行最新Windows系统
  • 终极指南:如何零门槛部署AnythingLLM私有知识库系统
  • 5分钟掌握Windows和Office永久激活的完整解决方案
  • 嵌入式开发利器KwikStik:ARM Cortex-M4一体化平台实战解析
  • 人才盘点与干部管理选型指南 - 资讯焦点
  • Flexis QE系列:8位与32位MCU引脚兼容设计及低功耗应用实战
  • 2026年十大隐形车衣品牌横评:从三千到三万,一文看懂怎么选 - 资讯纵览
  • 5分钟快速上手Bayesian:Go语言文本分类实战指南
  • AutoJs6:如何在安卓平台上构建企业级JavaScript自动化解决方案
  • Resemble Enhance:终极AI语音增强工具,5个步骤实现专业级音频处理
  • AI 代理扫描 DN42 致操作员背负 6531.30 美元账单破产,背后意图引人深思
  • 2026温州除甲醛方法哪种有效:七大方案实测数据对比排名 - 环保除醛知识库
  • maubot企业级应用场景:在团队协作中部署智能聊天机器人终极指南