Inhaltsverzeichnis:

Kann ich Python auf Hadoop ausführen?
Kann ich Python auf Hadoop ausführen?

Video: Kann ich Python auf Hadoop ausführen?

Video: Kann ich Python auf Hadoop ausführen?
Video: Map Reduce einfach erklärt - Was ist die Idee von Apache Spark, Flink & Hadoop? 2024, Kann
Anonim

Mit der Wahl zwischen Programmiersprachen wie Java, Scala und Python zum Hadoop Ökosystem, das die meisten Entwickler verwenden Python aufgrund seiner unterstützenden Bibliotheken für Datenanalyseaufgaben. Hadoop Streaming ermöglicht dem Benutzer das Erstellen und ausführen Ordnen/Reduzieren Sie Jobs mit einem beliebigen Skript oder einer ausführbaren Datei als Mapper oder/und Reducer zu.

Ebenso wird gefragt, wie Python eine Verbindung zu Hadoop herstellt.

Verbinden von Hadoop HDFS mit Python

  1. Schritt 1: Stellen Sie sicher, dass Hadoop HDFS ordnungsgemäß funktioniert. Öffnen Sie die Terminal-/Eingabeaufforderung und überprüfen Sie, ob HDFS funktioniert, indem Sie die folgenden Befehle verwenden: start-dfs.sh.
  2. Schritt 2: Installieren Sie die libhdfs3-Bibliothek.
  3. Schritt 3: Installieren Sie die hdfs3-Bibliothek.
  4. Schritt 4: Überprüfen Sie, ob die Verbindung mit HDFS erfolgreich ist.

Was ist Hadoop in Python? Python ist eine universelle Programmiersprache, die für fast alles in der Programmierwelt verwendet werden kann. Hadoop ist ein in Java geschriebenes Big-Data-Framework, um mit riesigen Datenmengen umzugehen. Es gibt zahlreiche Online-Institute, die Hadoop mit Python Kurse wie: Analytixlabs. Edureka.

Anschließend stellt sich die Frage, wie ich ein Python MapReduce-Programm in Hadoop ausführen kann.

Schreiben eines Hadoop MapReduce-Programms in Python

  1. Motivation.
  2. Was wir tun wollen.
  3. Voraussetzungen.
  4. Python MapReduce-Code. Kartenschritt: mapper.py. Schritt reduzieren: Reducer.py.
  5. Ausführen des Python-Codes auf Hadoop. Beispiel-Eingabedaten herunterladen. Kopieren Sie lokale Beispieldaten in HDFS.
  6. Verbesserter Mapper- und Reducer-Code: Verwendung von Python-Iteratoren und -Generatoren. mapper.py. reduzierer.py.

Was ist Hadoop Streaming-Jar?

Hadoop Distribution bietet ein Java-Dienstprogramm namens Hadoop-Streaming . Es ist verpackt in a Krug Datei. Mit Hadoop-Streaming , können wir Map Reduce-Jobs mit einem ausführbaren Skript erstellen und ausführen. Hadoop-Streaming ist ein Dienstprogramm, das mit Hadoop Verteilung. Es kann verwendet werden, um Programme für die Big-Data-Analyse auszuführen.

Empfohlen: