Inhaltsverzeichnis:

Wie erstelle ich einen PySpark DataFrame aus einer Liste?
Wie erstelle ich einen PySpark DataFrame aus einer Liste?

Video: Wie erstelle ich einen PySpark DataFrame aus einer Liste?

Video: Wie erstelle ich einen PySpark DataFrame aus einer Liste?
Video: Convert DataFrame Column values to List | PySpark 2024, Kann
Anonim

Ich folge diesen Schritten, um einen DataFrame aus einer Liste von Tupeln zu erstellen:

  1. Schaffen ein aufführen von Tupeln. Jedes Tupel enthält den Namen einer Person mit Alter.
  2. Schaffen ein RDD von der aufführen Oben.
  3. Konvertieren jedes Tupel zu einer Reihe.
  4. Schaffen ein Datenrahmen indem Sie createDataFrame auf RDD mit Hilfe von sqlContext anwenden.

Wie konvertieren Sie einen DataFrame in eine Liste in Python, wenn Sie dies im Auge behalten?

  1. Schritt 1: Konvertieren Sie den Dataframe mit DataFrame.to_numpy() in ein verschachteltes Numpy-Array, d. h.
  2. Schritt 2: Konvertieren Sie das 2D-Numpy-Array in eine Liste von Listen.
  3. Schritt 1: Transponieren Sie den Datenrahmen, um Zeilen als Spalten und Spalten als Zeilen zu konvertieren.
  4. Schritt 2: Konvertieren Sie den Dataframe mit DataFrame.to_numpy() in ein verschachteltes Numpy-Array

Was ist außerdem ein Spark-DataFrame? EIN Spark-DataFrame ist eine verteilte Sammlung von Daten, die in benannten Spalten organisiert ist und Operationen zum Filtern, Gruppieren oder Berechnen von Aggregaten bereitstellt und mit. verwendet werden kann Funke SQL. Datenrahmen kann aus strukturierten Datendateien, vorhandenen RDDs, Tabellen in Hive oder externen Datenbanken erstellt werden.

Wissen Sie auch, was PySpark SQL ist?

Spark-SQL ist ein Funke Modul zur strukturierten Datenverarbeitung. Es bietet eine Programmierabstraktion namens DataFrames und kann auch als verteiltes SQL Abfrage-Engine. Es ermöglicht, dass unveränderte Hadoop Hive-Abfragen in vorhandenen Bereitstellungen und Daten bis zu 100-mal schneller ausgeführt werden.

Sind Spark-DataFrames unveränderlich?

In Funke du kannst nicht - Datenrahmen sind unveränderlich . Du solltest benutzen.

Empfohlen: