Apache Doris Bucket Shuffle Join 原理及使用

作者: 张家锋

1. 概述

Bucket Shuffle Join 是在 Doris 0.14 版本中正式加入的新功能。旨在为某些 Join 查询提供本地性优化,来减少数据在节点间的传输耗时,来加速查询。 Bucket Shuffle Join 和 Colocate Join的区别在于:Colocate Join是本地计算,不会产生网络传输,而Bucket Shuffle Join是本地性优化,减少网络传输,还是回产生网络传输。

2.名词解释

  • 左表:Join查询时,左边的表。进行Probe操作。可被Join Reorder调整顺序。
  • 右表:Join查询时,右边的表。进行Build操作。可被Join Reorder调整顺序

3.原理

Doris支持的常规分布式Join方式包括了shuffle join 和 broadcast join。这两种join都会导致不小的网络开销:

举个例子,当前存在A表与B表的Join查询,它的Join方式为HashJoin,不同Join类型的开销如下:

  • Broadcast Join: 如果根据数据分布,查询规划出A表有3个执行的HashJoinNode,那么需要将B表全量的发送到3个HashJoinNode,那么它的网络开销是3B,它的内存开销也是3B
  • Shuffle Join: Shuffle Join会将A,B两张表的数据根据哈希计算分散到集群的节点之中,所以它的网络开销为 A + B,内存开销为B

在Doris FE 元数据中保存了 Doris 中每个表的数据分布信息,如果 Join 语句命中了表的数据分布列,我们应该使用数据分布信息来减少join语句的网络与内存开销,这就是Bucket Shuffle Join的思路来源。

image.png

上面的图片展示了Bucket Shuffle Join的工作原理。SQL语句为 A表 join B表,并且join的等值表达式命中了A的数据分布列。而Bucket Shuffle Join会根据A表的数据分布信息,将B表的数据发送到对应的A表的数据存储计算节点。Bucket Shuffle Join开销如下:

  • 网络开销: B < min(3B, A + B)
  • 内存开销: B <= min(3B, B)

可见,相比于Broadcast Join与Shuffle Join, Bucket Shuffle Join有着较为明显的性能优势。减少数据在节点间的传输耗时和Join时的内存开销。相对于Doris原有的Join方式,它有着下面的优点

  • 首先,Bucket-Shuffle-Join降低了网络与内存开销,使一些Join查询具有了更好的性能。尤其是当FE能够执行左表的分区裁剪与桶裁剪时。
  • 其次,同时与Colocate Join不同,它对于表的数据分布方式并没有侵入性,这对于用户来说是透明的。对于表的数据分布没有强制性的要求,不容易导致数据倾斜的问题。
  • 最后,它可以为Join Reorder提供更多可能的优化空间。

4.使用方式

4.1 设置Session变量

将session变量enable_bucket_shuffle_join设置为true,则FE在进行查询规划时就会默认将能够转换为Bucket Shuffle Join的查询自动规划为Bucket Shuffle Join。

set enable_bucket_shuffle_join = true;

在FE进行分布式查询规划时,优先选择的顺序为 Colocate Join -> Bucket Shuffle Join -> Broadcast Join -> Shuffle Join。但是如果用户显式hint了Join的类型,如:

select * from test join [shuffle] baseall on test.k1 = baseall.k1;

则上述的选择优先顺序则不生效。

该session变量在0.14版本默认为true, 而0.13版本需要手动设置为true

注意

1.目前 Bucket Shuffle Join不能像Shuffle Join那样可以显示指定Join方式,只能让执行引擎自动选择,选择的顺序:Colocate Join -> Bucket Shuffle Join -> Broadcast Join -> Shuffle Join。

2.如果显示的指定了Join的方式,上面的选择优先顺序则不生效,按照指定的方式执行

4.2 查看SQL 语句 Join类型

可以通过explain命令来查看Join是否为Bucket Shuffle Join:

| 2:HASH JOIN
| | join op: INNER JOIN (BUCKET_SHUFFLE)
| | hash predicates:
| | colocate: false, reason: table not in the same group
| | equal join conjunct: test.k1 = baseall.k1

在Join类型之中会指明使用的Join方式为:`BUCKET_SHUFFLE`

### 4.3 Bucket Shuffle Join的规划规则

在绝大多数场景之中,用户只需要默认打开seesion变量的开关就可以透明的使用这种Join方式带来的性能提升,但是如果了解Bucket Shuffle Join的规划规则,可以帮助我们利用它写出更加高效的SQL。
- Bucket Shuffle Join只生效于Join条件为`等值`的场景,原因与Colocate Join类似,它们都依赖hash来计算确定的数据分布。
- 在等值Join条件之中包含两张表的分桶列,当左表的分桶列为等值的Join条件时,它有很大概率会被规划为Bucket Shuffle Join。
- 由于不同的数据类型的hash值计算结果不同,所以Bucket Shuffle Join要求左表的分桶列的类型与右表等值join列的类型需要保持一致,否则无法进行对应的规划。
- Bucket Shuffle Join只作用于`Doris原生的OLAP表`,对于ODBC,MySQL,ES等外表,当其作为左表时是无法规划生效的。
- 对于分区表,由于每一个分区的数据分布规则可能不同,所以Bucket Shuffle Join只能保证左表为单分区时生效。所以在SQL执行之中,需要尽量使用`where`条件使分区裁剪的策略能够生效。
- 假如左表为Colocate的表,那么它每个分区的数据分布规则是确定的,Bucket Shuffle Join能在Colocate表上表现更好

## 文章列表
- [获得Apache Doris社区之星](https://www.oomspot.com/post/huodeapachedorisshequzhixing)
- [自己写的一个BI可视化系统(支持Apache Doris)](https://www.oomspot.com/post/zijixiedeyigebikeshihuaxitongzhichiapachedoris)
- [神仙打架海底捞火了](https://www.oomspot.com/post/shenxiandajiahaidilaohuole)
- [数据治理方案](https://www.oomspot.com/post/shujuzhilifangan)
- [怎么进行数据仓库分层设计及设计规范](https://www.oomspot.com/post/zenmejinxingshujucangkufencengshejijishejiguifan)
- [实现通过Flink Mysql CDC结合Apache doris flink connector实现数据实时入库](https://www.oomspot.com/post/shixiantongguoflinkmysqlcdcjieheapachedorisflinkco)
- [如何构建公司的数据指标体系](https://www.oomspot.com/post/ruhegoujiangongsideshujuzhibiaotixi)
- [基于Apache-doris怎么构建数据中台(四)-数据接入系统](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaisishujujie)
- [基于Apache-doris怎么构建数据中台(六)-数据服务](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtailiushujufu)
- [基于Apache-doris怎么构建数据中台(八)-数仓管理](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaibashucangg)
- [基于Apache-doris怎么构建数据中台(五)-数据质量](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaiwushujuzhi)
- [基于Apache doris怎么构建数据中台(二)-数据中台建设内容](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaiershujuzho)
- [基于Apache doris怎么构建数据中台(九)-数据安全](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaijiushujuan)
- [基于Apache doris怎么构建数据中台(三)-数据资产管理](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaisanshujuzi)
- [基于Apache doris怎么构建数据中台(一)-什么是数据中台](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaiyishenmesh)
- [基于Apache Doris怎么构建数据中台(七)-数据指标管理](https://www.oomspot.com/post/jiyuapachedoriszenmegoujianshujuzhongtaiqishujuzhi)
- [参与开源两年来的感悟](https://www.oomspot.com/post/canyukaiyuanliangnianlaideganwu)
- [元数据管理系统](https://www.oomspot.com/post/yuanshujuguanlixitong)
- [使用supervisor实现Apache Doris进程自动拉起](https://www.oomspot.com/post/shiyongsupervisorshixianapachedorisjinchengzidongl)
- [使用Grafana监控Apache Doris](https://www.oomspot.com/post/shiyonggrafanajiankongapachedoris)
- [link 使用 SQL 读取 Kafka 利用Doris Flink Connector写入到Doris表中](https://www.oomspot.com/post/linkshiyongsqlduqukafkaliyongdorisflinkconnectorxi)
- [[Doris 社区的访谈]一个人可能走得更快,但一群人会走得更远](https://www.oomspot.com/post/dorisshequdefangtanyigerenkenengzoudegengkuaidanyi)
- [Doris Grafana监控指标介绍](https://www.oomspot.com/post/dorisgrafanajiankongzhibiaojieshao)
- [Apache doris架构及组件介绍](https://www.oomspot.com/post/apachedorisjiagoujizujianjieshao)
- [Apache doris 错误代码说明](https://www.oomspot.com/post/apachedoriscuowudaimashuoming)
- [Apache doris 使用过程中常见问题汇总](https://www.oomspot.com/post/apachedorisshiyongguochengzhongchangjianwentihuizo)
- [Apache doris ODBC外表使用方式](https://www.oomspot.com/post/apachedorisodbcwaibiaoshiyongfangshi)
- [Apache doris ODBC mysql外表注意事项](https://www.oomspot.com/post/apachedorisodbcmysqlwaibiaozhuyishixiang)
- [Apache doris FE使用ProxySQL实现负载均衡](https://www.oomspot.com/post/apachedorisfeshiyongproxysqlshixianfuzaijunheng)
- [Apache doris Datax DorisWriter扩展使用方法](https://www.oomspot.com/post/apachedorisdataxdoriswriterkuozhanshiyongfangfa)
- [Apache doris BE配置参数说明](https://www.oomspot.com/post/apachedorisbepeizhicanshushuoming)
- [Apache Doris数据模型](https://www.oomspot.com/post/apachedorisshujumoxing)
- [Apache Doris数据备份及恢复](https://www.oomspot.com/post/apachedorisshujubeifenjihuifu)
- [Apache Doris常见问题答疑(二)](https://www.oomspot.com/post/apachedorischangjianwentidayier)
- [Apache Doris常见问题答疑(一)](https://www.oomspot.com/post/apachedorischangjianwentidayiyi)
- [Apache Doris安装部署](https://www.oomspot.com/post/apachedorisanzhuangbushu)
- [Apache Doris在蜀海供应链数仓建设中的实践](https://www.oomspot.com/post/apachedoriszaishuhaigongyinglianshucangjianshezhon)
- [Apache Doris关系模型与数据划分](https://www.oomspot.com/post/apachedorisguanximoxingyushujuhuafen)
- [Apache Doris 环境安装部署](https://www.oomspot.com/post/apachedorishuanjinganzhuangbushu)
- [Apache Doris 物化视图介绍](https://www.oomspot.com/post/apachedoriswuhuashitujieshao)
- [Apache Doris 数据更新操作](https://www.oomspot.com/post/apachedorisshujugengxincaozuo)
- [Apache Doris 数据导出](https://www.oomspot.com/post/apachedorisshujudaochu)
- [Apache Doris 数据导入总览](https://www.oomspot.com/post/apachedorisshujudaoruzonglan)
- [Apache Doris 数据导入之INSERT](https://www.oomspot.com/post/apachedorisshujudaoruzhiinsert)
- [Apache Doris 排序键及ShortKey Index ](https://www.oomspot.com/post/apachedorispaixujianjishortkeyindex)
- [Apache Doris 实战指南](https://www.oomspot.com/post/apachedorisshizhanzhinan)
- [Apache Doris 升级手册](https://www.oomspot.com/post/apachedorisshengjishouce)
- [Apache Doris 动态分区介绍及使用方法](https://www.oomspot.com/post/apachedorisdongtaifenqujieshaojishiyongfangfa)
- [Apache Doris 删除数据恢复](https://www.oomspot.com/post/apachedorisshanchushujuhuifu)
- [Apache Doris 元数据恢复](https://www.oomspot.com/post/apachedorisyuanshujuhuifu)
- [Apache Doris sequence介绍及使用方法](https://www.oomspot.com/post/apachedorissequencejieshaojishiyongfangfa)
- [Apache Doris fe配置参数说明](https://www.oomspot.com/post/apachedorisfepeizhicanshushuoming)
- [Apache Doris Windows下fe开发环境搭建](https://www.oomspot.com/post/apachedoriswindowsxiafekaifahuanjingdajian)
- [Apache Doris Stream Load数据导入](https://www.oomspot.com/post/apachedorisstreamloadshujudaoru)
- [Apache Doris Stream Load使用示例](https://www.oomspot.com/post/apachedorisstreamloadshiyongshili)
- [Apache Doris Spark Connector设计方案](https://www.oomspot.com/post/apachedorissparkconnectorshejifangan)
- [Apache Doris SQL日志审计](https://www.oomspot.com/post/apachedorissqlrizhishenji)
- [Apache Doris RuntimeFilter 原理及使用](https://www.oomspot.com/post/apachedorisruntimefilteryuanlijishiyong)
- [Apache Doris Routine Load数据导入使用方法](https://www.oomspot.com/post/apachedorisroutineloadshujudaorushiyongfangfa)
- [Apache Doris On ElasticSearche](https://www.oomspot.com/post/apachedorisonelasticsearche)
- [Apache Doris Flink Connector设计方案](https://www.oomspot.com/post/apachedorisflinkconnectorshejifangan)
- [Apache Doris FE 元数据故障运维](https://www.oomspot.com/post/apachedorisfeyuanshujuguzhangyunwei)
- [Apache Doris Colocate Join 原理及使用](https://www.oomspot.com/post/apachedoriscolocatejoinyuanlijishiyong)
- [Apache Doris Bucket Shuffle Join 原理及使用](https://www.oomspot.com/post/apachedorisbucketshufflejoinyuanlijishiyong)
- [Apache Doris Broker数据导入](https://www.oomspot.com/post/apachedorisbrokershujudaoru)
- [Apache Doris Binlog load使用方法](https://www.oomspot.com/post/apachedorisbinlogloadshiyongfangfa)
- [Apache Doris BE 开发环境搭建](https://www.oomspot.com/post/apachedorisbekaifahuanjingdajian)
- [Apache DORIS安装使用测试报告](https://www.oomspot.com/post/apachedorisanzhuangshiyongceshibaogao)

更多推荐

更多
  • Pulsar消息队列-一套高可用实时消息系统实现 实时消息【即时通信】系统,有群聊和单聊两种方式,其形态异于消息队列:1 大量的 group 信息变动,群聊形式的即时通信系统在正常服务形态下,瞬时可能有大量用户登入登出。2 ...
  • Pulsar消息队列-Pulsar对比Kafka笔记 很多人查看 Pulsar 之前可能对 Kafka 很熟悉,参照上图可见二者内部结构的区别,Pulsar 和 Kafka 都是以 Topic 描述一个基本的数据集合,Topic 数据又分为若干 Partition,即对数据进行逻辑上的 ...
  • Pulsar消息队列-对 2017 年一套 IM 系统的反思 信系统的开发,前前后后参与或者主导了六七个 IM 系统的研发。上一次开发的 IM 系统的时间点还是 2018 年,关于该系统的详细描述见 [一套高可用实时消息系统实现][1] ...
  • Apache APISIX文档-快速入门指南-如何构建 Apache APISIX 如何构建 Apache APISIX,步骤1:安装 Apache APISIX,步骤2:安装 etcd,步骤3:管理 Apache APISIX 服务,步骤4:运行测试案例,步骤5:修改 Admin API key,步骤6:为 Apac
  • Apache APISIX文档-快速入门指南-快速入门指南 快速入门指南,概述,前提条件,第一步:安装 Apache APISIX,第二步:创建路由,第三步:验证,进阶操作,工作原理,创建上游服务Upstream,绑定路由与上游服务,添加身份验证,为路由添加前缀,APISIX Dashboard
  • Apache APISIX文档-架构设计-APISIX APISIX,软件架构,插件加载流程,插件内部结构,配置 APISIX,插件加载流程,比如指定 APISIX 默认监听端口为 8000,并且设置 etcd 地址为 http://foo:2379, 其他配置保持默认。在 ...
  • Apache APISIX文档-架构设计-Service Service 是某类 API 的抽象(也可以理解为一组 Route 的抽象)。它通常与上游服务抽象是一一对应的,Route 与 Service 之间,通常是 N:1 的关系,参看下图。不同 Route 规则同时绑定到一个 Service ...
  • Apache APISIX文档-架构设计-Plugin Config 如果你想要复用一组通用的插件配置,你可以把它们提取成一个 Plugin config,并绑定到对应的路由上。举个例子,你可以这么做:创建 Plugin config,如果这个路由已经配置了 plugins,那么 Plugin config ...
  • Apache APISIX文档-架构设计-Debug Mode 注意:在 APISIX 2.10 之前,开启基本调试模式曾经是设置 conf/config.yaml 中的 apisix.enable_debug 为 true。设置 conf/debug.yaml 中的选项,开启高级调试模式。由于 ...
  • Apache APISIX文档-架构设计-Consumer 如上图所示,作为 API 网关,需要知道 API Consumer(消费方)具体是谁,这样就可以对不同 API Consumer 配置不同规则。授权认证:比如有 [key-auth] 等。获取 consumer_...
  • 近期文章

    更多
    文章目录

      推荐作者

      更多