apache hadoop yarn tutorial
Συστατικά Hadoop - MapReduce With Hadoop YARN:
Στο προηγούμενο σεμινάριό μας για το στοιχείο Hadoop, μάθαμε για το Hadoop MapReduce και τον Μηχανισμό Επεξεργασίας όπως INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING και FINAL RESULT.
Σε αυτό το σεμινάριο θα διερευνήσουμε:
- Πώς λειτουργεί το Map Reduce με το YARN;
- Ροή εργασιών εφαρμογής του Hadoop YARN.
=> Ρίξτε μια ματιά στον οδηγό για αρχάριους BigData εδώ.
Τι θα μάθετε:
Μείωση χάρτη με Hadoop YARN
Ας καταλάβουμε πώς το MapReduce χρησιμοποιεί το YARN για την εκτέλεση των εργασιών μέσω του συμπλέγματος Hadoop. Αλλά προτού προχωρήσουμε, το πρώτο ερώτημα που έρχεται στο μυαλό μας είναι ποια είναι η πλήρης μορφή του YARN; Ή τι σημαίνει το YARN;
ΝΗΜΑ που σημαίνει Ένας ακόμη διαπραγματευτής πόρων.
Είναι αυτός που κατανέμει τους πόρους για διάφορες εργασίες που πρέπει να εκτελεστούν μέσω του συμπλέγματος Hadoop. Παρουσιάστηκε στο Hadoop 2.0.
Μέχρι το Hadoop 1.0 MapReduce ήταν το μόνο πλαίσιο ή η μόνη μονάδα επεξεργασίας που μπορεί να εκτελέσει πάνω από το Hadoop Cluster. Ωστόσο, στο Hadoop 2.0 YARN εισήχθη και χρησιμοποιώντας αυτό, είμαστε σε θέση να προχωρήσουμε και πέρα από το MapReduce.
Όπως μπορείτε να δείτε στο διάγραμμα, έχουμε HDFS στο κάτω μέρος, έχουμε YARN και χρησιμοποιώντας το YARN, πολλά πλαίσια είναι σε θέση να συνδέσουν και να χρησιμοποιήσουν HDFS. Έτσι, ακόμη και το MapReduce χρησιμοποιείται για σύνδεση χρησιμοποιώντας το YARN για το αίτημα των πόρων και μόνο τότε μπορεί να εκτελέσει την εργασία μέσω HDFS, δηλαδή Hadoop Cluster.
Ομοίως; Οι SPARK, STORM και άλλες μηχανές αναζήτησης μπορούν να συνδεθούν σε HDFS. HBase που είναι μια βάση δεδομένων No SQL μπορεί επίσης να τη συνδέσει. Έτσι, οι εφαρμογές του HDFS έγιναν τεράστιες, επειδή το YARN μπόρεσε να ανοίξει το Gate για άλλα πλαίσια και άλλα εργαλεία ανάλυσης Bigdata.
Ποια είναι η διαφορά μεταξύ του MapReduce Version1 (MRv1) και του MapReduce Version2 (MRv2);
Το MRv1 ήταν ουσιαστικά ένα μέρος του πλαισίου Hadoop 1 και με το Hadoop 2 YARN ήρθε στην εικόνα και το MapReduce αναβαθμίστηκε σε MRv2 με αρκετές αλλαγές στις τάξεις. Τα μαθήματα ενημερώθηκαν, ωστόσο, η σύνταξη της σύνταξης του προγράμματος MapReduce παραμένει η ίδια.
Σε αυτό το σενάριο, το MapReduce συνδέεται τώρα με το YARN για τον άξονα του HDFS.
Μαζί με το YARN, το Resource Manager και το Node Manager είναι οι νέοι δαίμονες που εισήχθησαν στο Hadoop Cluster.
Προηγουμένως ήταν το Job Tracker και το Task Tracker. Ωστόσο, καταργήθηκαν από το Hadoop 2.0, και το Resource Manager & Node Manager εισήχθη μαζί με το YARN στο πλαίσιο Hadoop.
Hadoop 2.x Daemons
Ας ρίξουμε μια γρήγορη ματιά στους νεοαποκτηθέντες Daemons στο Hadoop 2.0 που εκτελούν τα στοιχεία, δηλαδή αποθήκευση και επεξεργασία.
ποιοι είναι οι καλοί ιστότοποι για να παρακολουθήσετε το anime
Στο σεμινάριο HDFS, καταλάβαμε λεπτομερώς το Daemon, δηλαδή το NameNode και το DataNode. Σε αυτό το σεμινάριο, θα κατανοήσουμε πώς λειτουργούν οι Resource Manager και Node Manager στο Hadoop 2.x Cluster για τη διαχείριση της επεξεργασίας και των εργασιών που πρέπει να εκτελεστούν στο Hadoop Cluster.
Λοιπόν, τι είναι ο Διαχειριστής πόρων; Το Resource Manager είναι το Master Daemons που τρέχει στο Master Machine ή στο NameNode που είναι μηχανή υψηλού επιπέδου. Το Node Manager, από την άλλη πλευρά, είναι ο Daemon που τρέχει σε Slave Machines ή στο DataNodes ή μαζί με τη διαδικασία DataNode.
Hadoop 2.x MapReduce YARN Components
Ας εξερευνήσουμε τα άλλα στοιχεία του YARN παρακάτω.
- Πελάτης: Είναι μια μονάδα που υποβάλλει τη διεπαφή γραμμής εντολών τύπου Job (CLI) και ο πελάτης θα μπορούσε να είναι μια εφαρμογή JAVA.
- Διαχειριστής πόρων: Είναι ένας κύριος δαίμονας στον οποίο υποβάλλονται όλες οι εργασίες από τον πελάτη και είναι αυτός που εκχωρεί όλους τους πόρους επιπέδου συμπλέγματος για την εκτέλεση μιας συγκεκριμένης εργασίας. Τρέχει σε ένα μηχάνημα υψηλής τεχνολογίας που διαθέτει υλικό καλής ποιότητας και καλή διαμόρφωση, καθώς είναι το Master Machine που πρέπει να διαχειρίζεται τα πάντα πάνω από το σύμπλεγμα.
- Διαχειριστής κόμβων : Είναι ένας Slave Daemon που τρέχει στα Slave Machines ή στο DataNode, οπότε κάθε Slave Machine έχει έναν Node Manager σε λειτουργία. Παρακολουθεί τους πόρους συγκεκριμένου DataNode, το Resource Manager διαχειρίζεται τους πόρους συμπλέγματος και το Node Manager διαχειρίζεται τους πόρους DataNode.
- Διακομιστής ιστορικού εργασίας: Είναι η μονάδα για να παρακολουθείτε όλες τις εργασίες που έχουν εκτελεστεί μέσω του συμπλέγματος ή έχουν υποβληθεί στο σύμπλεγμα. Παρακολουθεί επίσης την κατάσταση και διατηρεί επίσης τα αρχεία καταγραφής κάθε εκτέλεσης που έγινε στο Hadoop Cluster.
- Master εφαρμογή : Είναι ένα στοιχείο που εκτελείται μέσω Node Machine, Slave Machine και δημιουργείται από έναν Διαχειριστή πόρων για την εκτέλεση και τη διαχείριση μιας εργασίας. Είναι αυτός που διαπραγματεύεται τους πόρους από τον Διαχειριστή πόρων και τελικά συντονίζεται με τον Διαχειριστή κόμβων για την εκτέλεση της εργασίας.
- Δοχείο: Δημιουργείται από τον ίδιο τον Διαχειριστή κόμβων που έχει εκχωρηθεί από τον Διαχειριστή πόρων και όλες οι εργασίες εκτελούνται τελικά εντός του κοντέινερ.
Ροή εργασίας YARN
Όπως φαίνεται στο παραπάνω διάγραμμα, υπάρχει ένα Διαχειριστής πόρων στην οποία υποβάλλονται όλες οι εργασίες και υπάρχει ένα σύμπλεγμα στο οποίο υπάρχουν Slave Machines, και σε κάθε Slave Machine, υπάρχει ένα Διαχειριστής κόμβων τρέξιμο.
Διαχειριστής πόρων έχει δύο συστατικά, δηλαδή Χρονοδιάγραμμα και Διαχείριση εφαρμογών.
Ποια είναι η διαφορά μεταξύ του Master Application και του Application Manager;
Διαχείριση εφαρμογών είναι ένα συστατικό του Διαχειριστής πόρων που εξασφαλίζει ότι κάθε εργασία εκτελείται και ένα Master εφαρμογή δημιουργείται για αυτό. Master εφαρμογή, από την άλλη πλευρά, είναι κάποιος που εκτελεί την εργασία και ζητά όλους τους πόρους που απαιτούνται για εκτέλεση.
Ας υποθέσουμε ότι η εργασία υποβάλλεται στο Διαχειριστής πόρων , μόλις υποβληθεί η εργασία Χρονοδιάγραμμα προγραμματίζει την εργασία. Μόλις το Χρονοδιάγραμμα προγραμματίζει την εργασία που θα εκτελεστεί Διαχείριση εφαρμογών θα δημιουργήσει ένα Δοχείο σε ένα από τα Κωδικοί δεδομένων , και μέσα σε αυτό Δοχείο, ο Master εφαρμογή θα ξεκινήσει.
Αυτό Master εφαρμογή τότε θα εγγραφεί στο Διαχειριστής πόρων και ζητήστε ένα Δοχείο για την εκτέλεση της εργασίας. Μόλις το Δοχείο κατανέμεται, το Master εφαρμογή θα συνδεθεί τώρα με το Διαχειριστής κόμβων και ζητήστε να ξεκινήσει το Δοχείο .
Όπως μπορούμε να δούμε, το Master εφαρμογή διατέθηκε στο DataNodes Δ και ΕΙΝΑΙ , και τώρα αυτό Master εφαρμογή ζήτησε το Διαχειριστής κόμβων για να ξεκινήσετε το Εμπορευματοκιβώτια του DataNode Δ και DataNode Ε .
Μόλις το Εμπορευματοκιβώτια ξεκίνησαν, το Master εφαρμογή θα εκτελέσει την εργασία εντός του Δοχείο και το αποτέλεσμα θα σταλεί πίσω στο Πελάτης .
Ροή εφαρμογής
Ας το καταλάβουμε με λίγο διαδοχικό τρόπο.
Στο παρακάτω διάγραμμα, έχουμε τέσσερα στοιχεία. Το πρώτο είναι το Πελάτης, το δεύτερο είναι Διαχειριστής πόρων , το τρίτο είναι Διαχειριστής κόμβων και η τέταρτη γραμμή περιέχει Master εφαρμογή .
Ας δούμε πώς εκτελούνται αυτά τα βήματα μεταξύ τους.
Το πρώτο βήμα είναι το Πελάτης που υποβάλλει την εργασία στο Διαχειριστής πόρων , στο δεύτερο βήμα το Διαχειριστής πόρων διαθέτει Δοχείο για να ξεκινήσετε το Master εφαρμογή στο Μηχανήματα σκλάβων ; το τρίτο βήμα είναι το Master εφαρμογή εγγραφεί στο Διαχειριστής πόρων .
Μόλις εγγραφεί, ζητά το Δοχείο για την εκτέλεση της εργασίας, δηλαδή το τέταρτο βήμα. Στο πέμπτο βήμα, το Master εφαρμογή ειδοποιεί το Διαχειριστής κόμβων στο οποίο το Δοχείο πρέπει να ξεκινήσει.
Στο βήμα έξι, μόλις το Διαχειριστής κόμβων έχει ξεκινήσει το Εμπορευματοκιβώτια, ο Master εφαρμογή θα εκτελέσει τον κώδικα εντός αυτών Εμπορευματοκιβώτια .
Τέλος, στο έβδομο βήμα, το Πελάτης επικοινωνεί με το Διαχειριστής πόρων ή το Master εφαρμογή για παρακολούθηση της κατάστασης της εφαρμογής.
Στο τέλος, το Master εφαρμογή θα καταργήσει την εγγραφή του από το Διαχειριστής πόρων και το αποτέλεσμα επιστρέφεται στο Πελάτης . Αυτή είναι λοιπόν μια απλή διαδοχική ροή του πώς εκτελείται ένα πρόγραμμα MapReduce χρησιμοποιώντας το πλαίσιο YARN.
συμπέρασμα
Έτσι, σε αυτό το σεμινάριο, μάθαμε τους ακόλουθους δείκτες:
- ΝΗΜΑ που σημαίνει Ένας ακόμη διαπραγματευτής πόρων.
- Το YARN κυκλοφόρησε στο Hadoop 2.0
- Το Resource Manager και το Node Manager εισήχθησαν μαζί με το YARN στο πλαίσιο Hadoop.
- YARN Components όπως Client, Resource Manager, Node Manager, Job History Server, Application Master και Container.
Στο επερχόμενο σεμινάριο, θα συζητήσουμε τις τεχνικές δοκιμών του BigData και τις προκλήσεις που αντιμετωπίζει το BigData Testing. Θα μάθουμε επίσης πώς να ξεπεράσουμε αυτές τις προκλήσεις και τυχόν τρόπους παράκαμψης για να κάνουμε το BigData Testing εύκολο.
=> Επισκεφθείτε εδώ για να μάθετε BigData από το μηδέν.
Συνιστώμενη ανάγνωση
- Τι είναι το Hadoop; Tutorial Apache Hadoop για αρχάριους
- 20+ MongoDB Tutorial για αρχάριους: Δωρεάν μαθήματα MongoDB
- Εκμάθηση έκλειψης σε βάθος για αρχάριους
- Εκμάθηση Python για αρχάριους (ΔΩΡΕΑΝ Κατάρτιση Python)
- Big Data Tutorial για αρχάριους | Τι είναι τα Big Data;
- Εκπαιδευτικό πρόγραμμα LoadRunner για αρχάριους (δωρεάν μάθημα 8 ημερών σε βάθος)
- Tutoop MapReduce Tutorial με παραδείγματα | Τι είναι το MapReduce;
- Καλύτερη δωρεάν σειρά C # Tutorial: Ο απόλυτος οδηγός C # για αρχάριους