Was ist das Problem mit kleinen Dateien in Hadoop?
Was ist das Problem mit kleinen Dateien in Hadoop?

Video: Was ist das Problem mit kleinen Dateien in Hadoop?

Video: Was ist das Problem mit kleinen Dateien in Hadoop?
Video: Map Reduce einfach erklärt - Was ist die Idee von Apache Spark, Flink & Hadoop? 2024, November
Anonim

1) Problem mit kleinen Dateien in HDFS : Viele lagern kleine Dateien die sind extrem kleiner als die Blockgröße nicht effizient gehandhabt werden kann HDFS . Durchlesen kleine Dateien beinhalten viele Suchvorgänge und viele Sprünge zwischen Datenknoten zu Datenknoten, was wiederum eine ineffiziente Datenverarbeitung ist.

Welche Dateien behandeln außerdem Probleme mit kleinen Dateien in Hadoop?

1) HAR ( Hadoop Archiv) Dateien wurde eingeführt Umgang mit kleinen Dateiproblemen . HAR hat eine Ebene darüber eingeführt HDFS , die Schnittstelle für Datei zugreifen. Verwenden von Hadoop Archivbefehl, HAR Dateien erstellt werden, die a Karte verkleinern Job zu packen Dateien in archiviert werden kleiner Anzahl von HDFS-Dateien.

Kann ich außerdem mehrere Dateien in HDFS mit unterschiedlichen Blockgrößen verwenden? Standard Größe von Block ist 64 MB groß. Sie kann ändern Sie es je nach Ihren Anforderungen. Kommen wir zu deiner Frage ja du kann mehrere Dateien erstellen durch Variieren Blockgrößen aber in Echtzeit das Wille die Produktion nicht begünstigen.

Außerdem, warum verarbeitet HDFS kleine Dateien nicht optimal?

Probleme mit kleine Dateien und HDFS Jeden Datei , Verzeichnis und Block in HDFS ist als ein Objekt im Speicher des Namensknotens dargestellt, von denen jeder als Faustregel 150 Byte belegt. Außerdem, HDFS ist nicht auf einen effizienten Zugriff ausgerichtet kleine Dateien : es ist hauptsächlich für den Streaming-Zugriff großer Dateien.

Warum ist Hadoop langsam?

Langsam Verarbeitungsgeschwindigkeit Diese Festplattensuche braucht Zeit, wodurch der gesamte Prozess sehr langsam . Wenn Hadoop verarbeitet Daten in kleinen Mengen, es ist sehr langsam verhältnismäßig. Es ist ideal für große Datensätze. Wie Hadoop hat eine Batch-Verarbeitungs-Engine im Kern, seine Geschwindigkeit für die Echtzeitverarbeitung ist geringer.

Empfohlen: