Was ist die Datenverarbeitungs-Engine hinter Amazon Elastic MapReduce?
Was ist die Datenverarbeitungs-Engine hinter Amazon Elastic MapReduce?

Video: Was ist die Datenverarbeitungs-Engine hinter Amazon Elastic MapReduce?

Video: Was ist die Datenverarbeitungs-Engine hinter Amazon Elastic MapReduce?
Video: The Disco MapReduce Framework 2024, Kann
Anonim

Amazon EMR verwendet Apache Hadoop als verteiltes Datenverarbeitungs-Engine . Hadoop ist ein Open-Source-Java-Software-Framework, das Daten -intensive verteilte Anwendungen, die auf großen Clustern ausgeführt werden von handelsübliche Hardware.

Was ist außerdem Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) ist ein Amazon Webservices ( AWS ) Tool für die Verarbeitung und Analyse von Big Data. Amazon EMR verarbeitet Big Data in einem Hadoop-Cluster virtueller Server auf Amazon Elastic Computing-Cloud ( EC2 ) und Amazonas Einfacher Speicherservice ( S3 ).

Wird Amazon EMR außerdem vollständig verwaltet? Es ist ein vollständig verwaltet Data Lake-Dienst, der die Datenspeicherung von den Computing-Ressourcen entkoppeln kann und stattdessen Compute-Cluster skalierbar macht, bei Bedarf zur Verfügung steht und die Möglichkeit bietet, dass mehrere Cluster gleichzeitig auf dieselben Datasets zugreifen können.

Man kann sich auch fragen, wie funktioniert AWS EMR?

Im Allgemeinen, wenn Sie Daten in Amazon EMR , die Eingabe sind Daten, die als Dateien in Ihrem gewählten zugrunde liegenden Dateisystem gespeichert sind, wie z Amazonas S3 oder HDFS. Diese Daten gehen von einem Schritt zum nächsten in der Verarbeitungssequenz. Im letzten Schritt werden die Ausgabedaten an einen angegebenen Ort geschrieben, z. B. an Amazonas S3-Eimer.

Was ist der Unterschied zwischen ec2 und EMR?

nicht wie EMR , EC2 kategorisiert Slave-Knoten nicht in Kern- und Aufgabenknoten. Dies erhöht das Risiko, HDFS-Daten zu verlieren, falls ein Knoten entfernt/verloren geht. EC2 verwendet Apache-Bibliotheken (s3a), um auf Daten auf s3 zuzugreifen. Auf der anderen Seite, EMR verwendet AWS-proprietären Code, um schnelleren Zugriff auf s3 zu haben.

Empfohlen: