Spark中的JOIN机制

作者

首页»
业界新闻»
新闻资讯»
Spark中的JOIN机制

发布时间:2024-07-17 20:40

阅读量:1

Spark中的JOIN机制

1、Hash Join概述

Apache Spark共提供了五种JOIN机制，其中常用的有三种：Shuffle Hash Join、Broadcast Hash Join及Sort Merge Join，它们都基于Hash Join，只不过需要在Hash Join前后进行Shuffle、Broadcast或Sort

实际上，Hash Join算法来自于传统数据库，而Shuffle、Broadcast和Sort是大数据（数据仓库）在分布式场景下两者结合的产物。因此，我们也说大数据（数据仓库）是由传统数据库发展而来的

通常情况下，Hash Join使用两个表中较小的表在内存中建立以Join Key为Key的哈希/散列表（Hash Table），然后扫描较大的表，同样对大表Join Key进行Hash后探测哈希/散列表，找出与哈希/散列表匹配的行

Hash Join主要分为两个阶段：建立阶段（Build Phase）和探测阶段（Probe Phase）

Bulid Phase：较小的表被构建成以Join Key为Key的Hash Table，较小的表也称Build Table
Probe Phase：扫描较大表的行并计算Join Key的哈希值，与Build Table哈希表比对，若相同则进行JOIN

值得注意的是，Hash Join适用于较小的表完全可以放于内存的情况，如果表较大，无法构造在内存中，则优化器会将它分成若干个Partition，将不能放入内存的部分写入磁盘，此时会多一个写的代价，I/O性能差

Apache Spark将参与JOIN的两张表抽象为流式遍历表（StreamIter）和查找表（BuildIter），通常StreamIter为大表，BuildIter为小表，这是由Spark根据JOIN策略自动决定的。对于每条来自StreamIter的记录，都要去BuildIter中查找匹配的记录