Was ist MAP Side Join in Spark?
Was ist MAP Side Join in Spark?
Anonim

Kartenseite verbinden ist ein Prozess, bei dem schließt sich an zwischen zwei Tabellen werden im Karte Phase ohne Beteiligung der Reduce-Phase. Karte-Seite verbindet ermöglicht, dass eine Tabelle in den Speicher geladen wird, um eine sehr schnelle beitreten komplett in einem Mapper ausgeführt und das auch ohne beides nutzen zu müssen Karte und Phasen reduzieren.

Wissen Sie auch, was MAP-Side-Join und Side-Join-Hive reduzieren?

Kartenseite verbinden wird normalerweise verwendet, wenn ein Datensatz groß und der andere Datensatz klein ist. Während die Seitenverbindung reduzieren kann beitreten sowohl die großen Datensätze. Die Kartenseite verbinden ist schneller, da nicht gewartet werden muss, bis alle Mapper fertig sind, wie im Fall von Reduzierstück. Somit Seitenverbindung reduzieren ist langsamer.

Was sind die Vorteile der Verwendung von MAP-Side Join? Vorteile der Verwendung von Map Side Join: Karte-seitlich beitreten hilft dabei, die Kosten, die für das Sortieren und Zusammenführen im Shuffle anfallen, zu minimieren und Stufen zu reduzieren. Karte-seitlich beitreten hilft auch bei der Verbesserung der Leistung der Aufgabe, indem die Zeit zum Beenden der Aufgabe verkürzt wird.

Anschließend stellt sich die Frage, was ist Broadcast Join in Spark?

Funke SQL verwendet Broadcast beitreten (auch bekannt) übertragen hash beitreten) statt hash beitreten optimieren beitreten Abfragen, wenn die Größe der einseitigen Daten kleiner ist Funke. Es kann vermeiden, dass alle Daten der großen Tabelle über das Netzwerk gesendet werden.

Was ist ein Broadcast-Join?

Übertragung tritt bei sind eine großartige Möglichkeit, Daten, die in relativ kleinen Single-Source-of-Truth-Datendateien gespeichert sind, an große DataFrames anzufügen. DataFrames bis zu 2 GB können übertragen werden, sodass eine Datendatei mit Zehntausenden oder sogar Hunderttausenden von Zeilen a übertragen Kandidat.

Beliebt nach Thema