Inhaltsverzeichnis:

Welche verschiedenen Dateiformate gibt es in Hadoop?
Welche verschiedenen Dateiformate gibt es in Hadoop?

Video: Welche verschiedenen Dateiformate gibt es in Hadoop?

Video: Welche verschiedenen Dateiformate gibt es in Hadoop?
Video: Was sind die verschiedenen Big-Data-Dateiformate? HDFS, JSON und andere 2024, November
Anonim

Zum Glück für Sie hat sich die Big-Data-Community im Wesentlichen auf drei optimierte Dateiformate zur Verwendung in Hadoop Cluster: Optimized Row Columnar (ORC), Avro und Parquet.

Anschließend kann man sich auch fragen, welche verschiedenen Arten von Datenformaten gibt es?

Dort sind drei Arten von Daten Kartierung und GIS Datenformate . Jeder Typ wird anders gehandhabt.

Datenformattypen

  • Dateibasiert – Shapefiles, Microstation Design Files (DGN), GeoTIFF-Bilder.
  • Verzeichnisbasiert – ESRI ArcInfo Coverages, US Census TIGER.
  • Datenbankverbindungen - PostGIS, ESRI ArcSDE, MySQL.

Welches Dateiformat ist außerdem am besten in Hive? RCFile ist zeilenspaltig Datei Format . Dies ist eine andere Form von Hive-Dateiformat die hohe Komprimierungsraten auf Zeilenebene bietet. Wenn Sie mehrere Zeilen gleichzeitig ausführen müssen, können Sie RCFile verwenden Format.

Was sind unter Berücksichtigung dieser Tatsachen die gängigen Eingabeformate in Hadoop?

InputFormat erstellt Inputsplit

  • Die gängigsten Eingabeformate sind:
  • FileInputFormat- Es ist die Basisklasse für alle dateibasierten Eingabeformate.
  • TextInputFormat - Dies ist das Standard-InputFormat von MapReduce.
  • KeyValueTextInputFormat- Es ähnelt TextInputFormat.
  • Folgen Sie dem Link, um mehr über InputFormat in Hadoop zu erfahren.

Was ist das Orc-Dateiformat in Hadoop?

ORC-Dateiformat Die optimierte Zeilenspalte ( ORC ) Datei Format bietet eine hocheffiziente Möglichkeit zum Speichern von Hive-Daten. Es wurde entwickelt, um die Einschränkungen der anderen Hive zu überwinden Dateiformate . Verwenden von ORC-Dateien verbessert die Leistung beim Lesen, Schreiben und Verarbeiten von Daten durch Hive.

Empfohlen: