Inhaltsverzeichnis:

Was ist PySpark sammeln?
Was ist PySpark sammeln?

Video: Was ist PySpark sammeln?

Video: Was ist PySpark sammeln?
Video: data2day 2016 – Heiko Spindler: Maschinelles Lernen im Umfeld von Big Data mit Apache Spark 2024, November
Anonim

Sammeln (Aktion) - Gibt alle Elemente des Datensatzes als Array an das Treiberprogramm zurück. Dies ist normalerweise nach einem Filter oder einer anderen Operation nützlich, die eine ausreichend kleine Teilmenge der Daten zurückgibt.

Was ist also PySpark?

PySpark Programmierung. PySpark ist die Zusammenarbeit von Apache Spark und Python. Apache Spark ist ein Open-Source-Cluster-Computing-Framework, das auf Geschwindigkeit, Benutzerfreundlichkeit und Streaming-Analyse basiert, während Python eine allgemeine Programmiersprache auf hoher Ebene ist.

Und was ist Karte in PySpark? Funke Karte Transformation. EIN Karte ist eine Transformationsoperation in Apache Spark. Es gilt für jedes Element von RDD und gibt das Ergebnis als neues RDD zurück. Karte wandelt ein RDD der Länge N in ein anderes RDD der Länge N um. Die Eingabe- und Ausgabe-RDDs haben typischerweise die gleiche Anzahl von Datensätzen.

Was ist also SparkContext in PySpark?

PySpark - SparkContext . Anzeige. SparkContext ist der Einstiegspunkt zu jedem Funke Funktionalität. Wenn wir irgendwelche laufen Funke Anwendung startet ein Treiberprogramm, das die Hauptfunktion hat und Ihr SparkContext wird hier initiiert. Das Treiberprogramm führt dann die Operationen innerhalb der Executors auf Worker-Knoten aus.

Wie überprüfe ich die PySpark-Version?

2 Antworten

  1. Öffnen Sie das Spark-Shell-Terminal und geben Sie den Befehl ein.
  2. sc.version Oder spark-submit --version.
  3. Der einfachste Weg ist, einfach "spark-shell" in der Befehlszeile zu starten. Es wird angezeigt.
  4. aktuelle aktive Version von Spark.

Empfohlen: