top 29 data engineer interview questions
Λίστα με τις πιο συχνές ερωτήσεις συνέντευξης μηχανικού δεδομένων και απαντήσεις που θα σας βοηθήσουν να προετοιμαστείτε για την προσεχή συνέντευξη:
Σήμερα, η μηχανική δεδομένων είναι το πιο περιζήτητο πεδίο μετά την ανάπτυξη λογισμικού και έχει γίνει μια από τις ταχύτερα αναπτυσσόμενες επιλογές εργασίας στον κόσμο. Οι ερωτηθέντες θέλουν τους καλύτερους μηχανικούς δεδομένων για την ομάδα τους και γι 'αυτό τείνουν να συνεντεύγουν διεξοδικά τους υποψηφίους. Ψάχνουν για ορισμένες δεξιότητες και γνώσεις. Έτσι, πρέπει να είστε προετοιμασμένοι αναλόγως για να ανταποκριθείτε στις προσδοκίες τους.
Τι θα μάθετε:
- Ευθύνες ενός Μηχανικού Δεδομένων
- Δεξιότητες ενός Μηχανικού Δεδομένων
- Συχνές ερωτήσεις συνέντευξης μηχανικού δεδομένων
- συμπέρασμα
Ευθύνες ενός Μηχανικού Δεδομένων
Οι ευθύνες περιλαμβάνουν:
- Για τον χειρισμό και την εποπτεία των δεδομένων εντός της εταιρείας.
- Διατηρήστε και χειριστείτε το σύστημα πηγής δεδομένων και τις περιοχές στάσης.
- Απλοποιήστε τον καθαρισμό δεδομένων μαζί με την επακόλουθη δημιουργία και βελτιώνοντας την επανάληψη των δεδομένων.
- Διαθέστε και εκτελέστε τόσο τη μετατροπή δεδομένων όσο και τη διαδικασία ETL.
- Εξαγωγή και εκτέλεση ad-hoc δημιουργίας ερωτημάτων δεδομένων.
Δεξιότητες ενός Μηχανικού Δεδομένων
Με τα προσόντα, χρειάζεστε επίσης ορισμένες δεξιότητες. Και οι δύο είναι ζωτικής σημασίας όταν προετοιμάζεστε για τη θέση ενός μηχανικού δεδομένων. Εδώ, παραθέτουμε τις κορυφαίες 5 δεξιότητες, χωρίς ιδιαίτερη σειρά, ότι θα πρέπει να γίνετε επιτυχημένος μηχανικός δεδομένων.
- Δεξιότητες στην οπτικοποίηση δεδομένων.
- Python και SQL.
- Γνώση μοντελοποίησης δεδομένων τόσο για τα Big Data όσο και για την αποθήκευση δεδομένων
- Μαθηματικά
- Τεχνογνωσία στο ETL
- Μεγάλη εμπειρία χώρου δεδομένων
Επομένως, πρέπει να εργαστείτε για να βελτιώσετε αυτά τα σετ δεξιοτήτων προτού αρχίσετε να προετοιμάζεστε για τη συνέντευξη. Και όταν έχετε γυαλίσει τις δεξιότητές σας, ακολουθούν μερικές ερωτήσεις συνέντευξης που μπορείτε να προετοιμάσετε για να κάνετε τους συνεντευξιανούς να σας ειδοποιήσουν και να σας προσλάβουν επίσης.
Συχνές ερωτήσεις συνέντευξης μηχανικού δεδομένων
Γενικές ερωτήσεις συνέντευξης
Ε # 1) Γιατί μελετήσατε τη μηχανική δεδομένων;
Απάντηση: Αυτή η ερώτηση στοχεύει να μάθει για την εκπαίδευση, την εργασιακή εμπειρία και το ιστορικό σας. Θα μπορούσε να ήταν μια φυσική επιλογή για τη συνέχιση του πτυχίου Πληροφοριακών Συστημάτων ή Πληροφορικής. Ή, ίσως έχετε εργαστεί σε ένα παρόμοιο πεδίο, ή μπορεί να κάνετε μετάβαση από έναν εντελώς διαφορετικό χώρο εργασίας.
Όποια κι αν είναι η ιστορία σας, μην κρατήσετε καθυστερημένα ή μην αποφύγετε. Και ενώ μοιράζεστε, συνεχίστε να επισημαίνετε τις δεξιότητες που έχετε μάθει στην πορεία και την εξαιρετική δουλειά που έχετε κάνει.
Ωστόσο, μην ξεκινήσετε την αφήγηση. Ξεκινήστε με το εκπαιδευτικό σας υπόβαθρο λίγο και, στη συνέχεια, φτάστε στο σημείο όταν ξέρατε ότι θέλετε να γίνετε μηχανικός δεδομένων. Και μετά προχωρήστε πώς φτάνετε εδώ.
Ε # 2) Ποιο είναι το πιο δύσκολο πράγμα για να είσαι μηχανικός δεδομένων σύμφωνα με εσάς;
Απάντηση: Πρέπει να απαντήσετε σε αυτήν την ερώτηση με ειλικρίνεια. Δεν είναι εύκολη η κάθε πτυχή όλων των θέσεων εργασίας και ο συνεντεύκτης σας το γνωρίζει. Ο στόχος αυτής της ερώτησης δεν είναι να εντοπίσετε την αδυναμία σας αλλά να μάθετε πώς εργάζεστε σε πράγματα που δυσκολεύεστε να αντιμετωπίσετε.
Μπορείτε να πείτε κάτι σαν, «Ως μηχανικός δεδομένων, δυσκολεύομαι να ολοκληρώσω το αίτημα όλων των τμημάτων μιας εταιρείας όπου τα περισσότερα από αυτά συχνά αντιμετωπίζουν αντικρουόμενες απαιτήσεις. Έτσι, συχνά το βρίσκω δύσκολο να τα ισορροπήσω ανάλογα.
Αλλά μου έδωσε μια πολύτιμη εικόνα για τη λειτουργία των τμημάτων και τον ρόλο που διαδραματίζουν στη συνολική δομή της εταιρείας. ' Και αυτό είναι μόνο ένα παράδειγμα. Μπορείτε και πρέπει να θέσετε την άποψή σας.
Ερώτηση # 3) Πείτε μας ένα περιστατικό στο οποίο έπρεπε να συγκεντρώσετε δεδομένα από διάφορες πηγές, αλλά αντιμετωπίσατε απροσδόκητα προβλήματα και πώς τα επιλύσατε;
Απάντηση: Αυτή η ερώτηση είναι μια ευκαιρία για να δείξετε τις δεξιότητές σας στην επίλυση προβλημάτων και πώς προσαρμόζεστε στις ξαφνικές αλλαγές του σχεδίου. Η ερώτηση θα μπορούσε να αντιμετωπιστεί γενικά ή συγκεκριμένα με το πλαίσιο της μηχανικής δεδομένων. Εάν δεν έχετε περάσει από μια τέτοια εμπειρία, μπορείτε να δώσετε μια υποθετική απάντηση.
Ακολουθεί ένα δείγμα απάντησης: «Στην προηγούμενη εταιρεία franchise, εγώ και η ομάδα μου έπρεπε να συλλέξουμε δεδομένα από διάφορες τοποθεσίες και συστήματα. Αλλά ένα από τα franchise άλλαξε το σύστημά του χωρίς να μας δώσει προηγούμενη ειδοποίηση. Αυτό είχε ως αποτέλεσμα λίγα ζητήματα για τη συλλογή και επεξεργασία δεδομένων.
Για να το επιλύσουμε αυτό, έπρεπε να βρούμε μια γρήγορη βραχυπρόθεσμη λύση για να εισάγουμε τα απαραίτητα δεδομένα στο σύστημα της εταιρείας. Και μετά από αυτό, έχουμε αναπτύξει μια μακροπρόθεσμη λύση για να αποτρέψουμε την εμφάνιση τέτοιων ζητημάτων. '
Q # 4) Πώς διαφέρει η δουλειά ενός μηχανικού δεδομένων από εκείνη ενός αρχιτέκτονα δεδομένων;
Απάντηση: Αυτή η ερώτηση έχει σκοπό να ελέγξει αν καταλαβαίνετε ότι υπάρχουν διαφορές εντός της ομάδας μιας αποθήκης δεδομένων. Δεν μπορείτε να κάνετε λάθος με την απάντηση. Οι ευθύνες και των δύο αλληλεπικαλύπτονται ή ποικίλουν ανάλογα με το τι χρειάζεται το τμήμα συντήρησης της βάσης δεδομένων ή η εταιρεία.
Μπορείτε να πείτε ότι «σύμφωνα με την εμπειρία μου, η διαφορά μεταξύ των ρόλων ενός μηχανικού δεδομένων και ενός αρχιτέκτονα δεδομένων ποικίλλει από εταιρεία σε εταιρεία. Αν και συνεργάζονται πολύ στενά, υπάρχουν διαφορές στις γενικές τους ευθύνες.
Η διαχείριση των διακομιστών και η οικοδόμηση της αρχιτεκτονικής του συστήματος δεδομένων μιας εταιρείας είναι ευθύνη ενός αρχιτέκτονα δεδομένων. Και το έργο ενός μηχανικού δεδομένων είναι να δοκιμάσει και να διατηρήσει αυτήν την αρχιτεκτονική. Μαζί με αυτό, εμείς, οι μηχανικοί δεδομένων, διασφαλίζουμε ότι τα δεδομένα που διατίθενται στους αναλυτές είναι υψηλής ποιότητας και αξιόπιστα. '
Ερωτήσεις τεχνικής συνέντευξης
Ε # 5) Ποια είναι τα τέσσερα V του Big Data;
(εικόνα πηγή )
Απάντηση:
Τα τέσσερα V του Big Data είναι:
- Το πρώτο V είναι Ταχύτητα που αναφέρεται στο ρυθμό με τον οποίο δημιουργούνται Big Data με την πάροδο του χρόνου. Έτσι, μπορεί να θεωρηθεί ότι αναλύει τα δεδομένα.
- Το δεύτερο V είναι το Ποικιλία διαφόρων μορφών Big Data, είτε εντός εικόνων, αρχείων καταγραφής, αρχείων πολυμέσων και ηχογραφήσεων.
- Το τρίτο V είναι το Ενταση ΗΧΟΥ των δεδομένων. Θα μπορούσε να είναι ο αριθμός των χρηστών, ο αριθμός πινάκων, το μέγεθος των δεδομένων ή ο αριθμός των εγγραφών.
- Το τέταρτο V είναι Φιλαλήθεια σχετίζονται με την αβεβαιότητα ή τη βεβαιότητα των δεδομένων. Με άλλους όρους, αποφασίζει πόσο σίγουροι μπορείτε να είστε σχετικά με την ακρίβεια των δεδομένων.
Q # 6) Πώς διαφέρουν τα δομημένα δεδομένα από τα μη δομημένα δεδομένα;
Απάντηση: Ο παρακάτω πίνακας εξηγεί τις διαφορές:
Δομημένα δεδομένα | Μη δομημένα δεδομένα | |
---|---|---|
7) | Τα συγκεντρωτικά δεδομένα περιέχονται σε μία μόνο ιδιότητα. | Τα δεδομένα χωρίζονται σε διαφορετικούς πίνακες διαστάσεων. |
1) | Μπορεί να αποθηκευτεί σε MS Access, Oracle, SQL Server και σε άλλα παρόμοια παραδοσιακά συστήματα βάσεων δεδομένων. | Δεν μπορεί να αποθηκευτεί σε ένα παραδοσιακό σύστημα βάσης δεδομένων. |
δύο) | Μπορεί να αποθηκευτεί σε διαφορετικές στήλες και σειρές. | Δεν μπορεί να αποθηκευτεί σε σειρές και στήλες. |
3) | Ένα παράδειγμα δομημένων δεδομένων είναι οι διαδικτυακές συναλλαγές εφαρμογών. | Παραδείγματα μη δομημένων δεδομένων είναι Tweets, αναζητήσεις Google, επισημάνσεις 'μου αρέσει' στο Facebook κ.λπ. |
4) | Μπορεί να οριστεί εύκολα στο μοντέλο δεδομένων. | Δεν μπορεί να οριστεί σύμφωνα με το μοντέλο δεδομένων. |
5) | Έρχεται με ένα σταθερό μέγεθος και περιεχόμενο. | Έρχεται σε διάφορα μεγέθη και περιεχόμενο. |
Q # 7) Με ποια εργαλεία ETL γνωρίζετε;
Απάντηση: Ονομάστε όλα τα εργαλεία ETL με τα οποία έχετε εργαστεί. Μπορείτε να πείτε, 'Έχω συνεργαστεί με τη διαχείριση δεδομένων SAS, την IBM Infosphere και τις υπηρεσίες δεδομένων SAP. Αλλά το προτιμώ μου είναι το PowerCenter από την Informatica. Είναι αποτελεσματικό, έχει πολύ υψηλή απόδοση και είναι ευέλικτο. Εν ολίγοις, έχει όλες τις σημαντικές ιδιότητες ενός καλού εργαλείου ETL.
Διευθύνουν ομαλά τις επιχειρηματικές λειτουργίες δεδομένων και εγγυώνται την πρόσβαση στα δεδομένα ακόμα και όταν υπάρχουν αλλαγές στην επιχείρηση ή στη δομή της. ' Βεβαιωθείτε ότι μιλάτε μόνο για αυτά με τα οποία έχετε εργαστεί και για αυτά που σας αρέσει να εργάζεστε. Ή, θα μπορούσε να ολοκληρώσει τη συνέντευξή σας αργότερα.
Q # 8) Πείτε μας για τα σχήματα σχεδίασης της μοντελοποίησης δεδομένων.
Απάντηση: Η μοντελοποίηση δεδομένων συνοδεύεται από δύο τύπους σχεδίων σχεδίασης.
Εξηγούνται ως εξής:
- Το πρώτο είναι το Πρόγραμμα αστεριών , το οποίο χωρίζεται σε δύο μέρη - τον πίνακα γεγονότων και τον πίνακα διαστάσεων. Εδώ, και οι δύο πίνακες είναι συνδεδεμένοι. Το σχήμα αστεριού είναι το απλούστερο στυλ σχήματος δεδομένων και προσεγγίζεται επίσης ευρύτερα. Ονομάζεται έτσι επειδή η δομή του μοιάζει με ένα αστέρι.
- Το δεύτερο είναι το Σχέδιο νιφάδας χιονιού που είναι η επέκταση του σχήματος αστεριών. Προσθέτει πρόσθετες διαστάσεις και ονομάζεται νιφάδα χιονιού επειδή η δομή του μοιάζει με εκείνη της νιφάδας χιονιού.
Q # 9) Ποια είναι η διαφορά μεταξύ του σχήματος Star και του σχήματος Snowflake;
(εικόνα πηγή )
Απάντηση: Ο παρακάτω πίνακας εξηγεί τις διαφορές:
Πρόγραμμα αστεριών | Σχέδιο νιφάδας χιονιού | |
---|---|---|
1) | Ο πίνακας διαστάσεων περιέχει τις ιεραρχίες για τις διαστάσεις. | Υπάρχουν ξεχωριστοί πίνακες για ιεραρχίες. |
δύο) | Εδώ οι πίνακες διαστάσεων περιβάλλουν έναν πίνακα γεγονότων. | Οι πίνακες διαστάσεων περιβάλλουν έναν πίνακα γεγονότων και στη συνέχεια περικλείονται περαιτέρω από πίνακες διαστάσεων. |
3) | Ένας πίνακας γεγονότων και οποιοσδήποτε πίνακας διαστάσεων συνδέονται με μία μόνο ένωση. | Για την ανάκτηση των δεδομένων, απαιτούνται πολλές συνδέσεις. |
4) | Έρχεται με έναν απλό σχεδιασμό DB. | Έχει πολύπλοκο σχεδιασμό DB. |
5) | Λειτουργεί καλά ακόμη και με αποδιαμορφωμένα ερωτήματα και δομές δεδομένων. | Λειτουργεί μόνο με την ομαλοποιημένη δομή δεδομένων. |
6) | Απόλυση δεδομένων - υψηλή. | Απόλυση δεδομένων - πολύ χαμηλή. |
8) | Ταχύτερη επεξεργασία κύβου. | Η σύνθετη σύνδεση επιβραδύνει την επεξεργασία κύβου. |
Q # 10) Ποια είναι η διαφορά μεταξύ της αποθήκης δεδομένων και της λειτουργικής βάσης δεδομένων;
Απάντηση: Ο παρακάτω πίνακας εξηγεί τις διαφορές:
Αποθήκη δεδομένων | Λειτουργική βάση δεδομένων | |
---|---|---|
7) | Υποστηρίζει μια χούφτα OLTP όπως ταυτόχρονα πελάτες. | Υποστηρίζει πολλούς ταυτόχρονους πελάτες. |
1) | Αυτά έχουν σχεδιαστεί για να υποστηρίζουν την αναλυτική επεξεργασία μεγάλου όγκου. | Αυτά υποστηρίζουν την επεξεργασία συναλλαγών μεγάλου όγκου. |
δύο) | Τα ιστορικά δεδομένα επηρεάζουν μια αποθήκη δεδομένων. | Τα τρέχοντα δεδομένα επηρεάζουν τη λειτουργική βάση δεδομένων. |
3) | Νέα, μη πτητικά δεδομένα προστίθενται τακτικά, αλλά παραμένουν σπάνια άλλαξαν. | Τα δεδομένα ενημερώνονται τακτικά με την ανάγκη. |
4) | Έχει σχεδιαστεί για την ανάλυση επιχειρηματικών μέτρων ανά χαρακτηριστικά, περιοχές θεμάτων και κατηγορίες. | Έχει σχεδιαστεί για επεξεργασία σε πραγματικό χρόνο και επιχειρηματικές συναλλαγές. |
5) | Βελτιστοποιημένο για μεγάλα φορτία και σύνθετα ερωτήματα που έχουν πρόσβαση σε πολλές σειρές σε κάθε τραπέζι. | Βελτιστοποιημένο για ένα απλό σύνολο συναλλαγών, όπως ανάκτηση και προσθήκη μίας σειράς κάθε φορά για κάθε πίνακα. |
6) | Είναι γεμάτο έγκυρες και συνεπείς πληροφορίες και δεν χρειάζεται επικύρωση σε πραγματικό χρόνο. | Βελτιώθηκε για την επικύρωση εισερχόμενων πληροφοριών και χρησιμοποιεί πίνακες δεδομένων επικύρωσης. |
8) | Τα συστήματά του είναι κυρίως προσανατολισμένα στο θέμα. | Τα συστήματά του είναι κυρίως προσανατολισμένα στη διαδικασία. |
9) | Έξω δεδομένα. | Στοιχεία |
10) | Ένας τεράστιος αριθμός δεδομένων είναι προσβάσιμος. | Μπορείτε να έχετε πρόσβαση σε περιορισμένο αριθμό δεδομένων. |
έντεκα) | Δημιουργήθηκε για OLAP, on-line Αναλυτική επεξεργασία. | Δημιουργήθηκε για OLTP, διαδικτυακή επεξεργασία συναλλαγών. |
Ε # 11) Επισημάνετε τη διαφορά μεταξύ OLTP και OLAP.
Απάντηση: Ο παρακάτω πίνακας εξηγεί τις διαφορές:
OLTP | ΟΛΑΠ | |
---|---|---|
7) | Ο όγκος των δεδομένων δεν είναι πολύ μεγάλος. | Έχει μεγάλο όγκο δεδομένων. |
1) | Χρησιμοποιείται για τη διαχείριση επιχειρησιακών δεδομένων. | Χρησιμοποιείται για τη διαχείριση πληροφοριακών δεδομένων. |
δύο) | Οι πελάτες, οι υπάλληλοι και οι επαγγελματίες πληροφορικής το χρησιμοποιούν. | Οι διαχειριστές, οι αναλυτές, τα στελέχη και άλλοι εργαζόμενοι της γνώσης το χρησιμοποιούν. |
3) | Είναι προσανατολισμένο στον πελάτη. | Είναι προσανατολισμένο στην αγορά. |
4) | Διαχειρίζεται τα τρέχοντα δεδομένα, αυτά που είναι εξαιρετικά λεπτομερή και χρησιμοποιούνται για τη λήψη αποφάσεων. | Διαχειρίζεται ένα τεράστιο ποσό ιστορικών δεδομένων. Παρέχει επίσης διευκολύνσεις για τη συγκέντρωση και τη σύνοψη μαζί με τη διαχείριση και την αποθήκευση δεδομένων σε διαφορετικά επίπεδα λεπτομερειών. Εξ ου και τα δεδομένα καθίστανται πιο άνετα για χρήση στη λήψη αποφάσεων. |
5) | Έχει μέγεθος βάσης δεδομένων 100 MB-GB. | Έχει μέγεθος βάσης δεδομένων 100 GB-TB. |
6) | Χρησιμοποιεί ένα μοντέλο δεδομένων ER (οντότητα-σχέση) μαζί με μια σχεδίαση βάσης δεδομένων που είναι προσανατολισμένη στις εφαρμογές. | Το OLAP χρησιμοποιεί είτε μοντέλο νιφάδας χιονιού είτε αστέρι μαζί με σχεδιασμό βάσης δεδομένων που είναι προσανατολισμένη στο θέμα. |
8) | Λειτουργία πρόσβασης - Ανάγνωση / εγγραφή. | Ο τρόπος πρόσβασης είναι κυρίως εγγραφή. |
9) | Ολοκληρώθηκε πλήρως. | Μερικώς ομαλοποιημένο. |
10) | Η ταχύτητα επεξεργασίας του είναι πολύ γρήγορη. | Η ταχύτητα επεξεργασίας εξαρτάται από τον αριθμό των αρχείων που περιέχει, τα σύνθετα ερωτήματα και την ανανέωση των δεδομένων δέσμης |
Ε # 12) Εξηγήστε την κύρια ιδέα πίσω από το Πλαίσιο του Apache Hadoop.
Απάντηση: Βασίζεται στον αλγόριθμο MapReduce. Σε αυτόν τον αλγόριθμο, για την επεξεργασία ενός τεράστιου συνόλου δεδομένων, χρησιμοποιούνται οι λειτουργίες Map and Reduce. Χαρτογραφήστε, φιλτράρετε και ταξινομείτε τα δεδομένα ενώ το Reduce, συνοψίζει τα δεδομένα. Η επεκτασιμότητα και η ανοχή σφαλμάτων είναι τα βασικά σημεία αυτής της έννοιας. Μπορούμε να επιτύχουμε αυτές τις δυνατότητες στο Apache Hadoop εφαρμόζοντας αποτελεσματικά το MapReduce και το Multi-threading.
Ε # 13) Έχετε συνεργαστεί ποτέ με το Hadoop Framework;
(εικόνα πηγή )
Απάντηση: Πολλοί διευθυντές προσλήψεων ρωτούν για το εργαλείο Hadoop στη συνέντευξη για να μάθουν εάν είστε εξοικειωμένοι με τα εργαλεία και τις γλώσσες που χρησιμοποιεί η εταιρεία. Εάν έχετε συνεργαστεί με το Hadoop Framework, πείτε τους τις λεπτομέρειες του έργου σας για να γνωρίσετε τις γνώσεις και τις δεξιότητές σας με το εργαλείο και τις δυνατότητές του. Και αν δεν έχετε δουλέψει ποτέ με αυτό, θα λειτουργήσει επίσης κάποια έρευνα για να δείξετε κάποια εξοικείωση με τα χαρακτηριστικά της.
Μπορείς να πεις, για παράδειγμα, «Ενώ εργαζόμουν σε ένα ομαδικό έργο, είχα την ευκαιρία να συνεργαστώ με τον Hadoop. Επικεντρωνόμασταν στην αύξηση της αποτελεσματικότητας της επεξεργασίας δεδομένων, οπότε, λόγω της ικανότητάς του να αυξάνει την ταχύτητα της επεξεργασίας δεδομένων χωρίς να διακυβεύεται η ποιότητα κατά την κατανεμημένη επεξεργασία, αποφασίσαμε να χρησιμοποιήσουμε το Hadoop.
Και καθώς η προηγούμενη εταιρεία μου περίμενε σημαντική αύξηση της επεξεργασίας δεδομένων τους επόμενους μήνες, η επεκτασιμότητά της ήταν επίσης χρήσιμη. Το Hadoop είναι επίσης ένα δίκτυο ανοιχτού κώδικα που βασίζεται σε Java, το οποίο το καθιστά την καλύτερη επιλογή για τα έργα με περιορισμένους πόρους και ένα εύκολο στη χρήση χωρίς επιπλέον εκπαίδευση. '
Ο ευκολότερος τρόπος για να προσθέσετε τις τιμές σε έναν πίνακα είναι να χρησιμοποιήσετε
Ε # 14) Αναφέρετε ορισμένα σημαντικά χαρακτηριστικά του Hadoop.
Απάντηση: Τα χαρακτηριστικά έχουν ως εξής:
- Το Hadoop είναι ένα ελεύθερο πλαίσιο ανοιχτού κώδικα όπου μπορούμε να αλλάξουμε τον πηγαίο κώδικα σύμφωνα με τις απαιτήσεις μας.
- Υποστηρίζει την ταχύτερα κατανεμημένη επεξεργασία δεδομένων. Το HDFS Hadoop αποθηκεύει δεδομένα με κατανεμημένο τρόπο και χρησιμοποιεί το MapReduce για παράλληλη επεξεργασία των δεδομένων.
- Το Hadoop είναι πολύ ανεκτικό και από προεπιλογή, σε διαφορετικούς κόμβους, επιτρέπει στον χρήστη να δημιουργήσει τρία αντίγραφα κάθε μπλοκ. Επομένως, εάν ένας από τους κόμβους δεν είναι επιτυχής, μπορούμε να ανακτήσουμε τα δεδομένα από έναν άλλο κόμβο.
- Είναι επίσης επεκτάσιμο και είναι συμβατό με πολλά υλικά.
- Δεδομένου ότι το Hadoop αποθηκεύτηκε δεδομένα σε ομάδες, ανεξάρτητα από όλες τις άλλες λειτουργίες. Ως εκ τούτου είναι αξιόπιστο. Τα αποθηκευμένα δεδομένα παραμένουν ανεπηρέαστα από τη δυσλειτουργία των μηχανών. Και έτσι, είναι επίσης πολύ διαθέσιμο.
Ε # 15) Πώς μπορείτε να αυξήσετε τα έσοδα της επιχείρησης αναλύοντας τα Big Data;
Απάντηση: Η μεγάλη ανάλυση δεδομένων αποτελεί ζωτικό μέρος των επιχειρήσεων, καθώς τις βοηθά να διαφοροποιούνται μεταξύ τους και να αυξάνουν τα έσοδα. Το Big data analytics προσφέρει προσαρμοσμένες προτάσεις και προτάσεις σε επιχειρήσεις μέσω προγνωστικής ανάλυσης.
Βοηθά επίσης τις επιχειρήσεις να λανσάρουν νέα προϊόντα με βάση τις προτιμήσεις και τις ανάγκες των πελατών. Αυτό βοηθά τις επιχειρήσεις να κερδίσουν σημαντικά περισσότερα, περίπου 5-20% περισσότερα. Εταιρείες όπως η Bank of America, το LinkedIn, το Twitter, το Walmart, το Facebook κ.λπ. χρησιμοποιούν Big Data Analysis για να αυξήσουν τα έσοδά τους.
Ε # 16) Κατά την ανάπτυξη μιας λύσης Big Data, ποια βήματα πρέπει να ακολουθήσετε;
Απάντηση: Υπάρχουν τρία βήματα που πρέπει να ακολουθήσετε κατά την ανάπτυξη μιας λύσης Big Data:
- Κατάποση δεδομένων- Είναι το πρώτο βήμα στην ανάπτυξη μιας λύσης Big Data. Πρόκειται για την εξαγωγή δεδομένων από διάφορες πηγές όπως SAP, MYSQL, Salesforce, αρχεία καταγραφής, εσωτερική βάση δεδομένων κ.λπ. Η απορρόφηση δεδομένων μπορεί να πραγματοποιηθεί μέσω ροής σε πραγματικό χρόνο ή παρτίδων.
- Αποθήκευση δεδομένων- Μετά την κατάποση των δεδομένων, τα εξαγόμενα δεδομένα πρέπει να αποθηκευτούν κάπου. Αποθηκεύεται είτε σε βάσεις δεδομένων HDFS είτε σε NoSQL. Το HDFS λειτουργεί καλά για διαδοχική πρόσβαση μέσω HBase για τυχαία πρόσβαση ανάγνωσης ή εγγραφής.
- Επεξεργασία δεδομένων- Αυτό είναι το τρίτο και το τελικό βήμα για την ανάπτυξη σε μια λύση Big Data. Μετά την αποθήκευση, τα δεδομένα υποβάλλονται σε επεξεργασία μέσω ενός από τα κύρια πλαίσια όπως το MapReduce ή το Pig.
Q # 17) Τι είναι ο σαρωτής μπλοκ και μπλοκ στο HDFS;
Απάντηση: Ένα μπλοκ είναι η ελάχιστη ποσότητα δεδομένων που μπορούν να γραφτούν ή να διαβαστούν σε HDFS. Το 64MB είναι το προεπιλεγμένο μέγεθος ενός μπλοκ.
Ο σαρωτής μπλοκ είναι ένα πρόγραμμα που παρακολουθεί περιοδικά τον αριθμό των μπλοκ σε ένα DataNode μαζί με την επαλήθευσή τους για τυχόν σφάλματα ελέγχου αθροίσματος και καταστροφή δεδομένων.
Ε # 18) Ποιες είναι οι προκλήσεις που αντιμετωπίσατε κατά την εισαγωγή νέων εφαρμογών ανάλυσης δεδομένων εάν έχετε παρουσιάσει ποτέ;
Απάντηση: Εάν δεν έχετε εισαγάγει ποτέ νέα αναλυτικά δεδομένα, μπορείτε απλά να το πείτε. Επειδή είναι αρκετά ακριβά και ως εκ τούτου δεν είναι συχνά οι εταιρείες να το κάνουν. Αλλά αν μια εταιρεία αποφασίσει να επενδύσει σε αυτήν, μπορεί να είναι ένα εξαιρετικά φιλόδοξο έργο. Θα χρειαζόταν υψηλά εκπαιδευμένους υπαλλήλους για την εγκατάσταση, σύνδεση, χρήση και συντήρηση αυτών των εργαλείων.
Έτσι, εάν έχετε περάσει ποτέ από τη διαδικασία, πείτε τους ποια εμπόδια αντιμετωπίσατε και πώς τα ξεπεράσατε. Εάν δεν το έχετε, πείτε τους λεπτομερώς τι γνωρίζετε σχετικά με τη διαδικασία. Αυτή η ερώτηση καθορίζει εάν έχετε τη βασική τεχνογνωσία για να αντιμετωπίσετε τα προβλήματα που ενδέχεται να προκύψουν κατά την εισαγωγή νέων εφαρμογών ανάλυσης δεδομένων.
Δείγμα απάντησης; «Έχω συμμετάσχει στην εισαγωγή νέων αναλυτικών δεδομένων στην προηγούμενη εταιρεία μου. Η όλη διαδικασία είναι περίπλοκη και χρειάζεται μια καλά σχεδιασμένη διαδικασία για την ομαλότερη δυνατή μετάβαση.
Ωστόσο, ακόμη και με τον άψογο σχεδιασμό, δεν μπορούμε πάντα να αποφύγουμε απρόβλεπτες περιστάσεις και ζητήματα. Ένα τέτοιο ζήτημα ήταν μια εξαιρετικά υψηλή ζήτηση για άδειες χρήστη. Πέρασε πέρα από αυτό που περιμέναμε. Για την απόκτηση των πρόσθετων αδειών, η εταιρεία έπρεπε να ανακατανείμει τους οικονομικούς πόρους.
Επίσης, η εκπαίδευση έπρεπε να προγραμματιστεί με τρόπο που να μην παρεμποδίζει τη ροή εργασίας. Επίσης, έπρεπε να βελτιστοποιήσουμε την υποδομή για να υποστηρίξουμε τον υψηλό αριθμό χρηστών. '
Q # 19) Τι γίνεται αν το NameNode διακοπεί στο σύμπλεγμα HDFS;
Απάντηση: Το σύμπλεγμα HDFS έχει μόνο ένα NameNode και διατηρεί τα μεταδεδομένα του DataNode. Έχοντας μόνο ένα NameNode δίνει σε HDFS συστάδες ένα μόνο σημείο αποτυχίας.
Επομένως, εάν το NameNode διακοπεί, τα συστήματα ενδέχεται να μην είναι διαθέσιμα. Για να αποφευχθεί αυτό, μπορούμε να καθορίσουμε ένα δευτερεύον NameNode που λαμβάνει τα περιοδικά σημεία ελέγχου σε συστήματα αρχείων HDFS, αλλά δεν αποτελεί αντίγραφο ασφαλείας του NameNode. Αλλά μπορούμε να το χρησιμοποιήσουμε για να δημιουργήσουμε ξανά το NameNode και να επανεκκινήσουμε.
Ε # 20) Διαφορά μεταξύ NAS και DAS στο Hadoop Cluster.
Απάντηση: Στο NAS, τα επίπεδα αποθήκευσης και υπολογισμού είναι ξεχωριστά και, στη συνέχεια, ο χώρος αποθήκευσης κατανέμεται μεταξύ διαφόρων διακομιστών στο δίκτυο. Ενώ βρίσκεστε στο DAS, η αποθήκευση συνδέεται συνήθως στον κόμβο υπολογισμού. Το Apache Hadoop βασίζεται στην αρχή της επεξεργασίας κοντά σε μια συγκεκριμένη τοποθεσία δεδομένων.
Ως εκ τούτου, ο δίσκος αποθήκευσης πρέπει να είναι τοπικός στον υπολογισμό. Το DAS σάς βοηθά να αποκτήσετε απόδοση σε ένα σύμπλεγμα Hadoop και μπορεί να χρησιμοποιηθεί σε υλικό βασικών προϊόντων. Με απλά λόγια, είναι πιο οικονομικό. Η αποθήκευση NAS προτιμάται με υψηλό εύρος ζώνης περίπου 10 GbE.
Ε # 21) Είναι καλύτερη η δημιουργία μιας βάσης δεδομένων NoSQL από τη δημιουργία μιας σχεσιακής βάσης δεδομένων;
(εικόνα πηγή )
Απάντηση: Για να απαντήσετε σε αυτήν την ερώτηση, πρέπει να δείξετε τις γνώσεις σας και για τις δύο βάσεις δεδομένων. Επίσης, πρέπει να το δημιουργήσετε αντίγραφα ασφαλείας με ένα παράδειγμα της κατάστασης που να δείχνει πώς θα εφαρμόσετε την τεχνογνωσία σε ένα πραγματικό έργο.
Η απάντησή σας θα μπορούσε να είναι κάτι τέτοιο 'Σε ορισμένες περιπτώσεις, θα ήταν χρήσιμο να δημιουργήσετε μια βάση δεδομένων NoSQL. Στην τελευταία εταιρεία μου όταν το σύστημα franchise αυξανόταν εκθετικά, έπρεπε να κλιμακώσουμε γρήγορα για να αξιοποιήσουμε στο έπακρο όλα τα επιχειρησιακά δεδομένα και τα στοιχεία πωλήσεων που είχαμε.
Η κλιμάκωση είναι καλύτερη από την αναβάθμιση με μεγαλύτερους διακομιστές κατά το χειρισμό του αυξημένου φορτίου επεξεργασίας δεδομένων. Είναι οικονομικά αποδοτικό και πιο εύκολο να επιτευχθεί με βάσεις δεδομένων NoSQL, καθώς μπορεί εύκολα να αντιμετωπίσει τεράστιους όγκους δεδομένων. Αυτό είναι χρήσιμο όταν πρέπει να ανταποκριθείτε γρήγορα σε σημαντικές αλλαγές φορτίου δεδομένων στο μέλλον.
Αν και οι σχεσιακές βάσεις δεδομένων συνοδεύονται από καλύτερη σύνδεση με οποιαδήποτε εργαλεία ανάλυσης. Αλλά οι βάσεις δεδομένων NoSQL έχουν πολλά να προσφέρουν. '
Q # 22) Τι κάνετε όταν αντιμετωπίζετε ένα απροσδόκητο πρόβλημα με τη συντήρηση δεδομένων; Έχετε δοκιμάσει κάποιες εξωγενείς λύσεις για αυτό;
Απάντηση: Αναπόφευκτα, αναπάντεχα ζητήματα προκύπτουν κάθε φορά σε κάθε εργασία ρουτίνας, ακόμη και κατά τη συντήρηση δεδομένων. Αυτή η ερώτηση στοχεύει να μάθει αν μπορείτε να αντιμετωπίσετε καταστάσεις υψηλής πίεσης και πώς.
Μπορείτε να πείτε κάτι σαν «η συντήρηση δεδομένων μπορεί να είναι μια ρουτίνα εργασία, αλλά είναι ζωτικής σημασίας να παρακολουθείτε στενά τις συγκεκριμένες εργασίες, συμπεριλαμβανομένης της διασφάλισης της επιτυχούς εκτέλεσης των σεναρίων.
Κάποτε κατά τη διεξαγωγή του ελέγχου ακεραιότητας, συνάντησα ένα κατεστραμμένο ευρετήριο που θα μπορούσε να έχει προκαλέσει σοβαρά προβλήματα στο μέλλον. Γι 'αυτό βρήκα μια νέα εργασία συντήρησης για την αποτροπή της προσθήκης κατεστραμμένων ευρετηρίων στη βάση δεδομένων της εταιρείας. '
Ε # 23) Έχετε εκπαιδεύσει ποτέ κάποιον στον τομέα σας; Εάν ναι, τι θεωρείτε πιο δύσκολο για αυτό;
Απάντηση: Συνήθως χρειάζονται μηχανικοί δεδομένων για να εκπαιδεύσουν τους συνεργάτες τους σε νέα συστήματα ή διαδικασίες που έχετε δημιουργήσει ή να εκπαιδεύσετε νέους υπαλλήλους σε ήδη υπάρχοντα συστήματα και αρχιτεκτονική. Έτσι, με αυτήν την ερώτηση, ο ερευνητής σας θέλει να μάθει αν μπορείτε να το χειριστείτε αυτό. Αν δεν είχατε την ευκαιρία να εκπαιδεύσετε κάποιον τον εαυτό σας, μιλήστε για τις προκλήσεις που κάποιος εκπαιδεύτηκε ή γνωρίζετε ότι αντιμετωπίσατε.
Ένα δείγμα της ιδανικής απάντησης θα είναι κάτι τέτοιο. «Ναι, είχα την ευκαιρία να εκπαιδεύσω μικρές και μεγάλες και τις δύο ομάδες συναδέλφων. Η εκπαίδευση νέων υπαλλήλων με σημαντική εμπειρία σε μια άλλη εταιρεία είναι η πιο δύσκολη εργασία που έχω συναντήσει. Συχνά συνηθίζουν να προσεγγίζουν δεδομένα από μια διαφορετική οπτική που δυσκολεύονται να αποδεχτούν τον τρόπο που κάνουμε τα πράγματα.
Συχνά, είναι εξαιρετικά γνωστοί και πιστεύουν ότι γνωρίζουν τα πάντα σωστά και γι 'αυτό χρειάζεται πολύς χρόνος για να συνειδητοποιήσουν ότι ένα πρόβλημα μπορεί να έχει περισσότερες από μία λύσεις. Προσπαθώ να τους ενθαρρύνω να ανοίξουν το μυαλό τους και να αποδεχθούν εναλλακτικές δυνατότητες δίνοντας έμφαση στο πόσο επιτυχημένη ήταν η αρχιτεκτονική και οι διαδικασίες μας ».
Q # 24) Ποια είναι τα πλεονεκτήματα και τα μειονεκτήματα της εργασίας στο cloud computing;
(εικόνα πηγή )
Απάντηση:
Πλεονεκτήματα:
- Χωρίς κόστος υποδομής.
- Ελάχιστη διαχείριση.
- Δεν υπάρχουν προβλήματα σχετικά με τη διαχείριση και τη διαχείριση.
- Εύκολη πρόσβαση.
- Πληρώστε για ό, τι χρησιμοποιείτε.
- Είναι αξιόπιστο.
- Προσφέρει έλεγχο δεδομένων, δημιουργία αντιγράφων ασφαλείας και ανάκτηση.
- Τεράστια αποθήκευση.
Μειονεκτήματα:
- Χρειάζεται μια καλή σύνδεση στο Διαδίκτυο με εξίσου καλό εύρος ζώνης για να λειτουργεί καλά.
- Έχει το χρόνο διακοπής του.
- Ο έλεγχος της υποδομής σας θα είναι περιορισμένος.
- Υπάρχει λίγη ευελιξία.
- Έχει ορισμένες συνεχιζόμενες δαπάνες.
- Ενδέχεται να υπάρχουν θέματα ασφάλειας και τεχνικής φύσης.
Q # 25) Το έργο των μηχανικών δεδομένων είναι συνήθως «παρασκήνιο». Είστε άνετα να εργάζεστε μακριά από το «επίκεντρο»;
Απάντηση: Ο διευθυντής πρόσληψης θέλει να μάθει αν σας αρέσει το προσκήνιο ή μπορείτε να εργαστείτε καλά και στις δύο περιπτώσεις. Η απάντησή σας πρέπει να τους πει ότι παρόλο που σας αρέσει το προσκήνιο, αισθάνεστε άνετα και στο παρασκήνιο.
«Αυτό που έχει σημασία για μένα είναι ότι πρέπει να είμαι ειδικός στον τομέα μου και να συμβάλω στην ανάπτυξη της εταιρείας μου. Αν πρέπει να δουλέψω στο προσκήνιο, είμαι άνετα και αυτό. Εάν υπάρχει ένα ζήτημα που πρέπει να αντιμετωπίσουν τα στελέχη, δεν θα διστάσω να υψώσω τη φωνή μου και να την επισημάνω. '
Ε # 26) Τι συμβαίνει όταν ο σαρωτής μπλοκ εντοπίσει ένα κατεστραμμένο μπλοκ δεδομένων;
Απάντηση: Πρώτα απ 'όλα οι αναφορές DataNode στο NameNode. Στη συνέχεια, το NameNode αρχίζει να δημιουργεί ένα νέο αντίγραφο μέσω του αντιγράφου του κατεστραμμένου μπλοκ. Το κατεστραμμένο μπλοκ δεδομένων δεν θα διαγραφεί εάν ο αριθμός αναπαραγωγής των σωστών αντιγράφων ταιριάζει με τον παράγοντα αναπαραγωγής.
Ε # 27) Βρήκατε ποτέ μια νέα καινοτόμο χρήση για ήδη υπάρχοντα δεδομένα; Επηρεάζει θετικά την εταιρεία;
Απάντηση: Αυτή η ερώτηση προορίζεται για να μάθουν εάν είστε αυτοκινούμενοι και αρκετά πρόθυμοι να συμβάλλετε στην επιτυχία των έργων. Εάν είναι δυνατόν, απαντήστε στην ερώτηση με ένα παράδειγμα όπου αναλάβατε το έργο ή δημιουργήσατε μια ιδέα. Και αν παρουσιάσατε ποτέ μια νέα λύση σε ένα πρόβλημα, μην το χάσετε.
Παράδειγμα απάντησης: «Στην τελευταία μου δουλειά, συμμετείχα στην ανακάλυψη γιατί έχουμε υψηλό ποσοστό κύκλου εργασιών εργαζομένων. Παρατήρησα τα δεδομένα από διάφορα τμήματα όπου βρήκα πολύ συσχετισμένα δεδομένα σε βασικούς τομείς όπως χρηματοδότηση, μάρκετινγκ, δραστηριότητες κ.λπ. και το ποσοστό κύκλου εργασιών των εργαζομένων.
Συνεργάστηκε με τους αναλυτές του τμήματος για καλύτερη κατανόηση αυτών των συσχετίσεων. Με την κατανόησή μας, κάναμε κάποιες στρατηγικές αλλαγές που επηρέασαν θετικά το ποσοστό κύκλου εργασιών των εργαζομένων. '
Ε # 28) Ποιες μη τεχνικές δεξιότητες πιστεύετε ότι είναι πιο εύχρηστες ως μηχανικός δεδομένων;
Απάντηση: Προσπαθήστε να αποφύγετε τις πιο προφανείς απαντήσεις όπως επικοινωνία ή διαπροσωπικές δεξιότητες. Μπορείτε να πείτε, «η ιεράρχηση και το multitasking έχουν συχνά βολικό στη δουλειά μου. Παίρνουμε διάφορα καθήκοντα σε μια μέρα επειδή συνεργαζόμαστε με διαφορετικά τμήματα. Και ως εκ τούτου, καθίσταται ζωτικής σημασίας να τους δίνουμε προτεραιότητα. Κάνει τη δουλειά μας εύκολη και μας βοηθά να τα ολοκληρώσουμε αποτελεσματικά. '
Ε # 29) Ποια είναι μερικά κοινά προβλήματα που αντιμετωπίσατε ως μηχανικός δεδομένων;
Απάντηση: Αυτά είναι:
- Συνεχής ενσωμάτωση και σε πραγματικό χρόνο.
- Αποθήκευση τεράστιων ποσοτήτων δεδομένων και πληροφοριών από αυτά τα δεδομένα.
- Περιορισμοί πόρων.
- Λαμβάνοντας υπόψη ποια εργαλεία να χρησιμοποιήσετε και ποια μπορούν να προσφέρουν τα καλύτερα αποτελέσματα.
συμπέρασμα
Η μηχανική δεδομένων μπορεί να ακούγεται σαν μια ρουτίνα βαρετή δουλειά, αλλά υπάρχουν πολλές ενδιαφέρουσες πτυχές. Αυτό είναι προφανές από τις πιθανές ερωτήσεις σεναρίων που θα μπορούσαν να υποβάλουν οι ερευνητές. Θα πρέπει να είστε έτοιμοι να απαντήσετε όχι μόνο σε τεχνικές ερωτήσεις βιβλίων, αλλά και σε ερωτήσεις κατάστασης όπως αυτές που αναφέρονται παραπάνω. Μόνο τότε θα είστε σε θέση να αποδείξετε ότι μπορείτε να κάνετε τη δουλειά σας καλά και να την αξίζετε.
Τα καλύτερα!!
Συνιστώμενη ανάγνωση
- Ερωτήσεις και απαντήσεις συνέντευξης
- Ερωτήσεις και απαντήσεις συνέντευξης δοκιμών ETL
- Κορυφαίες 32 καλύτερες ερωτήσεις και απαντήσεις συνέντευξης δεδομένων
- Κορυφαίες ερωτήσεις και απαντήσεις συνέντευξης JSON
- Κορυφαίες ερωτήσεις και απαντήσεις συνέντευξης Teradata
- Κορυφαίες 24 ερωτήσεις συνέντευξης μοντελοποίησης δεδομένων με λεπτομερείς απαντήσεις
- Top 50+ ερωτήσεις και απαντήσεις συνέντευξης βάσης δεδομένων
- Top 30 ερωτήσεις και απαντήσεις συνέντευξης SAS