Wie wird die Datenlokalisierung in Hadoop erreicht?
Wie wird die Datenlokalisierung in Hadoop erreicht?

Video: Wie wird die Datenlokalisierung in Hadoop erreicht?

Video: Wie wird die Datenlokalisierung in Hadoop erreicht?
Video: Data Security Law und PIPL: Auswirkungen und Lösungen für ausländische Unternehmen 2024, Kann
Anonim

Datenlokalisierung in Hadoop . Nehmen Sie das Beispiel Wordcount Beispiel, wo die meisten Wörter für 5 Lacs oder öfter wiederholt wurden. In diesem Fall hat jede Mapper-Ausgabe nach der Mapper-Phase Wörter im Bereich von 5 Lacs. Dieser vollständige Vorgang zum Speichern der Mapper-Ausgabe in LFS wird als Datenlokalisierung.

Vor diesem Hintergrund: Was ist Datenlokalisierung in Hadoop?

Das Konzept von Daten Ort in Hadoop-Daten Ort in Karte verkleinern bezieht sich auf die Fähigkeit, die Berechnung in die Nähe des tatsächlichen Daten befindet sich auf dem Knoten, anstatt sich groß zu bewegen Daten zur Berechnung. Dies minimiert die Netzwerküberlastung und erhöht den Gesamtdurchsatz des Systems.

Und wie werden Big Data gespeichert? Die meisten Leute verbinden HDFS oder Hadoop Distributed File System automatisch mit Hadoop Daten Lagerhäuser. HDFS speichert Informationen in Clustern, die aus kleineren Blöcken bestehen. Diese Blöcke sind gelagert im physischen Bereich vor Ort Lagerung Einheiten wie interne Festplattenlaufwerke.

Wie werden Daten in Hadoop gespeichert?

Auf einen Hadoop Cluster, der Daten innerhalb von HDFS und das MapReduce-System sind auf jeder Maschine im Cluster untergebracht. Daten ist gelagert in Daten Blöcke auf den DataNodes. HDFS repliziert diese Daten Blöcke, normalerweise 128 MB groß, und verteilt sie so, dass sie auf mehrere Knoten im Cluster repliziert werden.

Wie werden Dateien in HDFS gespeichert?

HDFS entlarvt a Datei Systemnamensraum und ermöglicht die Speicherung von Benutzerdaten gelagert in Dateien . Intern, a Datei ist in einen oder mehrere Blöcke aufgeteilt und diese Blöcke sind gelagert in einem Satz von DataNodes. Der NameNode wird ausgeführt Datei System-Namespace-Operationen wie Öffnen, Schließen und Umbenennen Dateien und Verzeichnisse.

Empfohlen: