Was ist RDD in Scala?
Was ist RDD in Scala?

Video: Was ist RDD in Scala?

Video: Was ist RDD in Scala?
Video: RDD in Spark 2024, November
Anonim

Belastbare verteilte Datasets ( RDD ) ist eine grundlegende Datenstruktur von Spark. Es ist eine unveränderliche verteilte Sammlung von Objekten. RDDs kann jede Art von Python, Java oder. enthalten Scala Objekte, einschließlich benutzerdefinierter Klassen. Formal ein RDD ist eine schreibgeschützte, partitionierte Sammlung von Datensätzen.

Die Frage ist auch, was ist der Unterschied zwischen RDD und DataFrame?

RDD – RDD ist eine verteilte Sammlung von Datenelementen, die auf viele Maschinen verteilt sind in dem Cluster. RDDs sind eine Menge von Java- oder Scala-Objekten, die Daten darstellen. Datenrahmen - EIN Datenrahmen ist eine verteilte Sammlung von Daten, die in benannte Spalten organisiert sind. Es ist konzeptionell gleich einer Tabelle in einem relationale Datenbank.

Außerdem, wie wird RDD verteilt? Robust Verteilt Datensätze ( RDDs ) Sie sind ein verteilt Sammlung von Objekten, die im Arbeitsspeicher oder auf Festplatten verschiedener Maschinen eines Clusters gespeichert sind. Ein einzelnes RDD kann in mehrere logische Partitionen unterteilt werden, sodass diese Partitionen auf verschiedenen Maschinen eines Clusters gespeichert und verarbeitet werden können.

Wie funktioniert Funken-RDD?

RDDs in Funke haben eine Sammlung von Datensätzen, die Partitionen enthalten. RDDs in Funke sind in kleine logische Datenblöcke unterteilt, die als Partitionen bezeichnet werden. Wenn eine Aktion ausgeführt wird, wird pro Partition eine Aufgabe gestartet. Partitionen in RDDs sind die Grundeinheiten der Parallelität.

Was ist schneller RDD oder DataFrame?

RDD - Beim Ausführen einfacher Gruppierungs- und Aggregationsoperationen RDD API ist langsamer. Datenrahmen - Bei der Durchführung explorativer Analysen, Erstellung aggregierter Statistiken zu Daten, Datenrahmen sind Schneller . RDD - Wenn Sie Transformationen und Aktionen auf niedriger Ebene wünschen, verwenden wir RDDs . Auch wenn wir Abstraktionen auf hoher Ebene benötigen, verwenden wir RDDs.

Empfohlen: