Inhaltsverzeichnis:

Wie kann ich meine Sqoop-Leistung verbessern?
Wie kann ich meine Sqoop-Leistung verbessern?

Video: Wie kann ich meine Sqoop-Leistung verbessern?

Video: Wie kann ich meine Sqoop-Leistung verbessern?
Video: Sqoop Import and Export data from RDMBS and HDFS 2024, November
Anonim

Optimieren Leistung , einstellen das Anzahl der Map-Aufgaben auf einen Wert kleiner als das maximale Anzahl von Verbindungen, die das Datenbank unterstützt. Steuerung das Menge an Parallelität, die Sqoop verwendet, um Daten zu übertragen ist das Hauptweg zur Kontrolle das aufladen Ihre Datenbank.

Was passiert entsprechend, wenn sqoop zwischen einem Prozess fehlschlägt?

Ein typisches Sqoop Job, der Daten aus einer Quelldatenbank in HDFS aufnimmt, kopiert die Daten in ein Zielverzeichnis. Die kopierte Datei wird gelöscht wenn sqoop fehlschlägt ohne abzuschließen.

Man kann sich auch fragen, wie erreicht man Parallelität in sqoop? Steuerung Parallelität . Sqoop importiert Daten parallel aus den meisten Datenbankquellen. Sie können die Anzahl der Map-Tasks (parallele Prozesse) angeben, die zum Ausführen des Imports verwendet werden sollen, indem Sie das Argument -m oder --num-mappers verwenden. Jedes dieser Argumente nimmt einen ganzzahligen Wert an, der dem Grad von entspricht Parallelität zu beschäftigen

Wie verbessere ich folglich meine Hive-Abfrageleistung?

Unten finden Sie eine Liste von Praktiken, die wir befolgen können, um Hive-Abfragen zu optimieren

  1. Aktivieren Sie die Komprimierung in Hive.
  2. Verknüpfungen optimieren.
  3. Vermeiden Sie die globale Sortierung in Hive.
  4. Aktivieren Sie die Tez-Ausführungs-Engine.
  5. Optimieren Sie den LIMIT-Operator.
  6. Aktivieren Sie die parallele Ausführung.
  7. Aktivieren Sie den strengen Mapreduce-Modus.
  8. Single Reduce für Multi Group BY.

Wie funktioniert Sqoop-Split?

Es kann verwendet werden, um die Importleistung zu verbessern, indem eine größere Parallelität erreicht wird. Sqoop schafft teilt sich auf basierend auf Werten in einer bestimmten Spalte der Tabelle, die durch -- Teilt -by vom Benutzer über den Importbefehl. Wenn sie nicht verfügbar ist, wird der Primärschlüssel der Eingabetabelle verwendet, um die teilt sich auf.

Empfohlen: