what is etl extract
Αυτός ο σε βάθος οδηγός για τη διαδικασία ETL εξηγεί τη διαδικασία ροής και τα βήματα που εμπλέκονται στη διαδικασία ETL (Εξαγωγή, μετασχηματισμός και φόρτωση) στην αποθήκη δεδομένων:
Αυτό το σεμινάριο στη σειρά εξηγεί: Τι είναι η διαδικασία ETL; Εξαγωγή δεδομένων, μετασχηματισμός, φόρτωση, επίπεδα αρχεία, Τι είναι η σταδιοποίηση; Κύκλος ETL κ.λπ.
Ας αρχίσουμε!!
=> Ανατρέξτε στον Οδηγό εκπαίδευσης για την τέλεια αποθήκευση δεδομένων εδώ.
Τι θα μάθετε:
- Βασικές αρχές διαδικασίας ETL (Extract, Transform, Load)
- συμπέρασμα
Βασικές αρχές διαδικασίας ETL (Extract, Transform, Load)
Στοχευμένο κοινό
- Προγραμματιστές και υπεύθυνοι δοκιμής αποθήκης δεδομένων / ETL.
- Επαγγελματίες βάσης δεδομένων με βασικές γνώσεις εννοιών βάσης δεδομένων.
- Διαχειριστές βάσεων δεδομένων / μεγάλοι ειδικοί δεδομένων που θέλουν να κατανοήσουν τις περιοχές αποθήκης δεδομένων / ETL.
- Απόφοιτοι κολεγίου / Φρεσκάροντα που αναζητούν θέσεις εργασίας στην αποθήκη δεδομένων.
Τι είναι η διαδικασία ETL στην αποθήκη δεδομένων;
Όλοι γνωρίζουμε ότι η αποθήκη δεδομένων είναι μια συλλογή τεράστιων όγκων δεδομένων, για την παροχή πληροφοριών στους επιχειρηματίες χρήστες με τη βοήθεια εργαλείων Business Intelligence.
Για την εξυπηρέτηση αυτού του σκοπού, το DW πρέπει να φορτώνεται σε τακτά χρονικά διαστήματα. Τα δεδομένα στο σύστημα συλλέγονται από ένα ή περισσότερα λειτουργικά συστήματα, επίπεδα αρχεία κ.λπ. Η διαδικασία που φέρνει τα δεδομένα στο DW είναι γνωστή ως ETL Process . Η εξαγωγή, ο μετασχηματισμός και η φόρτωση είναι καθήκοντα του ETL.
# 1) Εξαγωγή: Όλα τα προτιμώμενα δεδομένα από διάφορα συστήματα προέλευσης όπως βάσεις δεδομένων, εφαρμογές και επίπεδα αρχεία αναγνωρίζονται και εξάγονται. Η εξαγωγή δεδομένων μπορεί να ολοκληρωθεί εκτελώντας εργασίες κατά τη διάρκεια μη εργάσιμων ωρών.
# 2) Μετασχηματισμός: Τα περισσότερα από τα εξαγόμενα δεδομένα δεν μπορούν να φορτωθούν απευθείας στο σύστημα προορισμού. Με βάση τους επιχειρηματικούς κανόνες, μπορούν να γίνουν ορισμένοι μετασχηματισμοί πριν από τη φόρτωση των δεδομένων.
Για παράδειγμα, Τα δεδομένα της στήλης στόχου ενδέχεται να αναμένουν δύο συνδυασμένες στήλες πηγής ως δεδομένα εισαγωγής. Ομοίως, μπορεί να υπάρχει πολύπλοκη λογική για μετασχηματισμό δεδομένων που χρειάζεται εξειδίκευση. Ορισμένα δεδομένα που δεν χρειάζονται μετασχηματισμούς μπορούν να μετακινηθούν απευθείας στο σύστημα προορισμού.
Η διαδικασία μετασχηματισμού διορθώνει επίσης τα δεδομένα, αφαιρεί τυχόν λανθασμένα δεδομένα και διορθώνει τυχόν σφάλματα στα δεδομένα πριν τα φορτώσει.
# 3) Φόρτωση: Όλες οι συγκεντρωμένες πληροφορίες φορτώνονται στους πίνακες προορισμού Data Warehouse.
Εξαγωγή δεδομένων
Η εξαγωγή δεδομένων παίζει σημαντικό ρόλο στο σχεδιασμό ενός επιτυχημένου συστήματος DW. Διαφορετικά συστήματα προέλευσης μπορεί να έχουν διαφορετικά χαρακτηριστικά δεδομένων και η διαδικασία ETL θα διαχειριστεί αυτές τις διαφορές αποτελεσματικά κατά την εξαγωγή των δεδομένων.
' Λογικός χάρτης δεδομένων 'Είναι ένα βασικό έγγραφο για την εξαγωγή δεδομένων. Αυτό δείχνει ποια δεδομένα προέλευσης πρέπει να πάνε σε ποιον πίνακα στόχου και πώς τα πεδία προέλευσης αντιστοιχίζονται στα αντίστοιχα πεδία πίνακα στόχων στη διαδικασία ETL.
Ακολουθούν τα βήματα που πρέπει να εκτελέσετε κατά τη σχεδίαση χαρτών λογικών δεδομένων:
- Ένας αρχιτέκτονας αποθήκης δεδομένων σχεδιάζει το λογικό έγγραφο χάρτη δεδομένων.
- Αναφερόμενος σε αυτό το έγγραφο, ο προγραμματιστής ETL θα δημιουργήσει εργασίες ETL και οι δοκιμαστές ETL θα δημιουργήσουν δοκιμαστικές θήκες.
- Όλες οι συγκεκριμένες πηγές δεδομένων και τα αντίστοιχα στοιχεία δεδομένων που υποστηρίζουν τις επιχειρηματικές αποφάσεις θα αναφέρονται σε αυτό το έγγραφο. Αυτά τα στοιχεία δεδομένων θα λειτουργούν ως είσοδοι κατά τη διαδικασία εξαγωγής.
- Τα δεδομένα από όλα τα συστήματα προέλευσης αναλύονται και κάθε είδους ανωμαλίες δεδομένων τεκμηριώνονται έτσι ώστε αυτό βοηθά στο σχεδιασμό των σωστών επιχειρηματικών κανόνων για να σταματήσει η εξαγωγή λανθασμένων δεδομένων στο DW. Τέτοια δεδομένα απορρίπτονται εδώ.
- Μόλις το τελικό μοντέλο πηγής και δεδομένων στόχου σχεδιαστεί από τους αρχιτέκτονες του ETL και τους επιχειρηματικούς αναλυτές, μπορούν να κάνουν μια βόλτα με τους προγραμματιστές του ETL και τους δοκιμαστές. Με αυτό, θα έχουν μια σαφή κατανόηση του τρόπου με τον οποίο πρέπει να εκτελούνται οι επιχειρηματικοί κανόνες σε κάθε φάση Εξαγωγής, Μετασχηματισμού και Φόρτωσης.
- Περνώντας τους κανόνες χαρτογράφησης από αυτό το έγγραφο, οι αρχιτέκτονες, προγραμματιστές και δοκιμαστές του ETL θα πρέπει να έχουν καλή κατανόηση του τρόπου ροής των δεδομένων από κάθε πίνακα ως διαστάσεων, γεγονότων και άλλων πινάκων.
- Οποιοδήποτε είδος κανόνων ή τύπων χειρισμού δεδομένων αναφέρεται επίσης εδώ για να αποφευχθεί η εξαγωγή λανθασμένων δεδομένων. Για παράδειγμα, εξαγάγετε μόνο τις τελευταίες 40 ημέρες δεδομένων κ.λπ.
- Είναι ευθύνη της ομάδας ETL να διερευνήσει τα δεδομένα σύμφωνα με τις επιχειρηματικές απαιτήσεις, να παρουσιάσει κάθε χρήσιμο σύστημα πηγής, πίνακες και στήλες που θα φορτωθούν στο DW.
Το έγγραφο χάρτη λογικών δεδομένων είναι γενικά ένα υπολογιστικό φύλλο που δείχνει τα ακόλουθα στοιχεία:
(ο πίνακας '' δεν βρέθηκε /)Διάγραμμα ροής εξαγωγής:
Αναφέρετε για το χρονικό παράθυρο για την εκτέλεση των εργασιών σε κάθε σύστημα προέλευσης εκ των προτέρων, έτσι ώστε να μην χάνονται δεδομένα προέλευσης κατά τη διάρκεια του κύκλου εξαγωγής.
Με τα παραπάνω βήματα, η εξαγωγή επιτυγχάνει το στόχο της μετατροπής δεδομένων από διαφορετικές μορφές από διαφορετικές πηγές σε μία μορφή DW, που ωφελεί ολόκληρες τις διαδικασίες ETL. Τέτοια λογικά τοποθετημένα δεδομένα είναι πιο χρήσιμα για καλύτερη ανάλυση.
Μέθοδοι εξαγωγής στην αποθήκη δεδομένων
Ανάλογα με το περιβάλλον δεδομένων προέλευσης και στόχου και τις επιχειρηματικές ανάγκες, μπορείτε να επιλέξετε τη μέθοδο εξαγωγής κατάλληλη για το DW σας.
# 1) Λογικές μέθοδοι εξαγωγής
Η εξαγωγή δεδομένων σε ένα σύστημα αποθήκης δεδομένων μπορεί να είναι ένα εφάπαξ πλήρες φορτίο που γίνεται αρχικά (ή) μπορεί να είναι σταδιακά φορτία που συμβαίνουν κάθε φορά με συνεχείς ενημερώσεις.
java 8 νέα χαρακτηριστικά ερωτήσεις συνέντευξης
- Πλήρης εξαγωγή: Όπως υποδηλώνει το ίδιο το όνομα, τα δεδομένα του συστήματος προέλευσης εξάγονται εντελώς στον πίνακα προορισμού. Κάθε φορά που αυτό το είδος εξαγωγής φορτώνει ολόκληρα τα τρέχοντα δεδομένα του συστήματος προέλευσης χωρίς να λαμβάνει υπόψη τις τελευταίες εξαγόμενες χρονικές σφραγίδες. Κατά προτίμηση, μπορείτε να χρησιμοποιήσετε πλήρη εξαγωγή για τα αρχικά φορτία ή πίνακες με λιγότερα δεδομένα.
- Αυξητική εξαγωγή: Τα δεδομένα που προστίθενται / τροποποιούνται από μια συγκεκριμένη ημερομηνία θα ληφθούν υπόψη για σταδιακή εξαγωγή. Αυτή η ημερομηνία είναι συγκεκριμένη για την επιχείρηση όπως η τελευταία ημερομηνία εξαγωγής (ή) ημερομηνία τελευταίας παραγγελίας κ.λπ. Μπορούμε να αναφερθούμε σε μια στήλη χρονικής σήμανσης από τον ίδιο τον πίνακα προέλευσης (ή) μπορεί να δημιουργηθεί ξεχωριστός πίνακας για την παρακολούθηση μόνο των λεπτομερειών της ημερομηνίας εξαγωγής. Η αναφορά στη χρονική σήμανση είναι μια σημαντική μέθοδος κατά τη διάρκεια της στοιχειώδους εξαγωγής. Οι λογικές χωρίς χρονική σήμανση ενδέχεται να αποτύχουν εάν ο πίνακας DW έχει μεγάλα δεδομένα.
# 2) Μέθοδοι φυσικής εξαγωγής
Ανάλογα με τις δυνατότητες των συστημάτων προέλευσης και τους περιορισμούς των δεδομένων, τα συστήματα πηγής μπορούν να παρέχουν τα δεδομένα φυσικά για εξαγωγή ως διαδικτυακή εξαγωγή και εξαγωγή εκτός σύνδεσης. Αυτό υποστηρίζει οποιονδήποτε από τους λογικούς τύπους εξαγωγής.
- Online εξαγωγή :: Μπορούμε να συνδεθούμε απευθείας σε οποιεσδήποτε βάσεις δεδομένων συστήματος πηγής με τις συμβολοσειρές σύνδεσης για εξαγωγή δεδομένων απευθείας από τους πίνακες του συστήματος προέλευσης.
- Εξαγωγή εκτός σύνδεσης :: Δεν θα συνδεθούμε άμεσα με τη βάση δεδομένων του συστήματος πηγής εδώ, αλλά το σύστημα προέλευσης παρέχει δεδομένα ρητά σε μια προκαθορισμένη δομή. Τα συστήματα προέλευσης μπορούν να παρέχουν δεδομένα με τη μορφή Flat αρχείων, Dump files, Archive logs και Tablespaces.
Τα εργαλεία ETL ταιριάζουν καλύτερα για την εκτέλεση οποιωνδήποτε σύνθετων εξαγωγής δεδομένων, όσες φορές και για το DW αν και είναι ακριβό.
Εξαγωγή αλλαγμένων δεδομένων
Μόλις ολοκληρωθεί το αρχικό φορτίο, είναι σημαντικό να εξεταστεί πώς να εξαγάγετε περαιτέρω τα δεδομένα που αλλάζουν από το σύστημα προέλευσης. Η ομάδα της διαδικασίας ETL θα πρέπει να σχεδιάσει ένα σχέδιο για τον τρόπο υλοποίησης της εξαγωγής για τα αρχικά φορτία και τα στοιχειώδη φορτία, στην αρχή του ίδιου του έργου.
Κυρίως μπορείτε να σκεφτείτε τη στρατηγική 'Στήλες ελέγχου' για το αυξητικό φορτίο για τη λήψη των αλλαγών δεδομένων. Γενικά, οι πίνακες συστήματος προέλευσης ενδέχεται να περιέχουν στήλες ελέγχου, οι οποίες αποθηκεύουν τη χρονική σήμανση για κάθε εισαγωγή (ή) τροποποίησης.
Η χρονική σήμανση μπορεί να συμπληρωθεί από κανόνες ετικέτας (ή) από την ίδια την εφαρμογή. Πρέπει να διασφαλίσετε την ακρίβεια των δεδομένων των στηλών ελέγχου, ακόμη και αν φορτώνουν με οποιονδήποτε τρόπο, για να μην χάσετε τα αλλαγμένα δεδομένα για σταδιακά φορτία.
Κατά τη διάρκεια του στοιχειώδους φορτίου, μπορείτε να λάβετε υπόψη τη μέγιστη ημερομηνία και ώρα πότε συνέβη το τελευταίο φορτίο και να εξαγάγετε όλα τα δεδομένα από το σύστημα προέλευσης με τη χρονική σήμανση μεγαλύτερη από την τελευταία σφραγίδα χρόνου φόρτωσης.
Κατά την εξαγωγή των δεδομένων:
- Χρησιμοποιήστε τα ερωτήματα βέλτιστα για να ανακτήσετε μόνο τα δεδομένα που χρειάζεστε.
- Μην χρησιμοποιείτε τη ρήτρα Distinct, καθώς επιβραδύνει την απόδοση των ερωτημάτων.
- Χρησιμοποιήστε τους τελεστές SET όπως Union, Minus, Intersect προσεκτικά καθώς υποβαθμίζει την απόδοση.
- Χρησιμοποιήστε λέξεις-κλειδιά σύγκρισης όπως, όπως, μεταξύ, κ.λπ. όπου ο όρος, αντί για συναρτήσεις όπως substr (), to_char (), κ.λπ.
Μετασχηματισμός δεδομένων
Ο μετασχηματισμός είναι η διαδικασία όπου ένα σύνολο κανόνων εφαρμόζεται στα εξαγόμενα δεδομένα προτού φορτώσει απευθείας τα δεδομένα του συστήματος προέλευσης στο σύστημα προορισμού. Τα εξαγόμενα δεδομένα θεωρούνται ανεπεξέργαστα δεδομένα.
Η διαδικασία μετασχηματισμού με ένα σύνολο προτύπων φέρνει όλα τα διαφορετικά δεδομένα από διάφορα συστήματα πηγής σε χρησιμοποιήσιμα δεδομένα στο σύστημα DW. Ο μετασχηματισμός δεδομένων στοχεύει στην ποιότητα των δεδομένων. Μπορείτε να ανατρέξετε στο έγγραφο χαρτογράφησης δεδομένων για όλους τους λογικούς κανόνες μετασχηματισμού.
Με βάση τους κανόνες μετασχηματισμού, εάν κάποια δεδομένα προέλευσης δεν πληρούν τις οδηγίες, τότε αυτά τα δεδομένα προέλευσης απορρίπτονται πριν από τη φόρτωση στο σύστημα DW προορισμού και τοποθετούνται σε ένα αρχείο απόρριψης ή απόρριψης πίνακα.
Οι κανόνες μετασχηματισμού δεν καθορίζονται για τα δεδομένα στήλης ευθείας φόρτωσης (δεν χρειάζεται καμία αλλαγή) από πηγή σε στόχο. Ως εκ τούτου, οι μετασχηματισμοί δεδομένων μπορούν να ταξινομηθούν ως απλοί και περίπλοκοι. Οι μετασχηματισμοί δεδομένων ενδέχεται να περιλαμβάνουν μετατροπές στηλών, μορφοποίηση δομής δεδομένων κ.λπ.
Παρακάτω αναφέρονται μερικές από τις εργασίες που πρέπει να εκτελεστούν κατά τη Μεταμόρφωση δεδομένων:
# 1) Επιλογή: Μπορείτε να επιλέξετε είτε ολόκληρα τα δεδομένα πίνακα είτε ένα συγκεκριμένο σύνολο δεδομένων στηλών από τα συστήματα προέλευσης. Η επιλογή των δεδομένων συνήθως ολοκληρώνεται στην ίδια την Εξαγωγή.
Μπορεί να υπάρχουν περιπτώσεις όπου το σύστημα προέλευσης δεν επιτρέπει την επιλογή ενός συγκεκριμένου συνόλου δεδομένων στηλών κατά τη φάση εξαγωγής, στη συνέχεια εξαγάγετε ολόκληρα τα δεδομένα και κάντε την επιλογή στη φάση μετασχηματισμού.
# 2) Διαχωρισμός / ένωση: Μπορείτε να χειριστείτε τα επιλεγμένα δεδομένα χωρίζοντας ή συνδέοντας τα. Θα σας ζητηθεί να διαχωρίσετε τα επιλεγμένα δεδομένα προέλευσης ακόμη περισσότερο κατά τη διάρκεια του μετασχηματισμού.
Για παράδειγμα, εάν ολόκληρη η διεύθυνση είναι αποθηκευμένη σε ένα μεγάλο πεδίο κειμένου στο σύστημα προέλευσης, το σύστημα DW μπορεί να ζητήσει να χωρίσει τη διεύθυνση σε ξεχωριστά πεδία ως πόλη, πολιτεία, ταχυδρομικός κώδικας κ.λπ. Αυτό είναι εύκολο για ευρετηρίαση και ανάλυση με βάση το καθένα συστατικό ξεχωριστά.
Ενώ η σύνδεση / συγχώνευση δεδομένων δύο ή περισσότερων στηλών χρησιμοποιείται ευρέως κατά τη φάση μετασχηματισμού στο σύστημα DW. Αυτό δεν σημαίνει συγχώνευση δύο πεδίων σε ένα μόνο πεδίο.
Για παράδειγμα, Εάν οι πληροφορίες για μια συγκεκριμένη οντότητα προέρχονται από πολλές πηγές δεδομένων, τότε η συλλογή των πληροφοριών ως μία οντότητα μπορεί να κληθεί ως ένωση / συγχώνευση των δεδομένων.
# 3) Μετατροπή: Τα εξαγόμενα δεδομένα συστημάτων πηγής θα μπορούσαν να είναι σε διαφορετικές μορφές για κάθε τύπο δεδομένων, επομένως όλα τα εξαγόμενα δεδομένα πρέπει να μετατραπούν σε τυποποιημένη μορφή κατά τη διάρκεια της φάσης μετασχηματισμού. Το ίδιο είδος μορφής είναι κατανοητό και εύκολο στη χρήση για επιχειρηματικές αποφάσεις.
# 4) Σύνοψη: Σε ορισμένες περιπτώσεις, η DW θα αναζητήσει συνοπτικά δεδομένα αντί για λεπτομερή δεδομένα χαμηλού επιπέδου από τα συστήματα προέλευσης. Επειδή τα δεδομένα χαμηλού επιπέδου δεν ταιριάζουν καλύτερα για ανάλυση και ερώτηση από τους επιχειρηματικούς χρήστες.
Για παράδειγμα, Τα δεδομένα πωλήσεων για κάθε ταμείο ενδέχεται να μην απαιτούνται από το σύστημα DW, είναι χρήσιμες οι ημερήσιες πωλήσεις υποπροϊόντος (ή) οι καθημερινές πωλήσεις από το κατάστημα. Ως εκ τούτου, η σύνοψη των δεδομένων μπορεί να πραγματοποιηθεί κατά τη φάση μετατροπής σύμφωνα με τις επιχειρηματικές απαιτήσεις.
# 5) Εμπλουτισμός: Όταν σχηματίζεται μια στήλη DW συνδυάζοντας μία ή περισσότερες στήλες από πολλαπλές εγγραφές, τότε ο εμπλουτισμός δεδομένων θα αναδιατάξει τα πεδία για καλύτερη προβολή δεδομένων στο σύστημα DW.
# 6) Μορφοποίηση αναθεωρήσεων: Οι αναθεωρήσεις μορφής συμβαίνουν συχνότερα κατά τη φάση του μετασχηματισμού. Ο τύπος δεδομένων και το μήκος του αναθεωρούνται για κάθε στήλη.
Για παράδειγμα, μια στήλη σε ένα σύστημα πηγής μπορεί να είναι αριθμητική και η ίδια στήλη σε άλλο σύστημα πηγής μπορεί να είναι κείμενο. Για να το τυποποιήσετε αυτό, κατά τη φάση μετασχηματισμού ο τύπος δεδομένων για αυτήν τη στήλη αλλάζει σε κείμενο.
# 7) Αποκωδικοποίηση πεδίων: Όταν εξάγετε δεδομένα από συστήματα πολλαπλών πηγών, τα δεδομένα σε διάφορα συστήματα ενδέχεται να αποκωδικοποιούνται διαφορετικά.
Για παράδειγμα, ένα σύστημα πηγής μπορεί να αντιπροσωπεύει την κατάσταση του πελάτη ως AC, IN και SU. Ένα άλλο σύστημα μπορεί να αντιπροσωπεύει την ίδια κατάσταση με 1, 0 και -1.
Κατά τη φάση του μετασχηματισμού δεδομένων, πρέπει να αποκωδικοποιήσετε αυτούς τους κωδικούς σε κατάλληλες τιμές που είναι κατανοητές από τους επιχειρηματικούς χρήστες. Ως εκ τούτου, οι παραπάνω κωδικοί μπορούν να αλλάξουν σε Ενεργό, Ανενεργό και Σε αναστολή.
# 8) Υπολογιζόμενες και παράγωγες τιμές: Λαμβάνοντας υπόψη τα δεδομένα του συστήματος προέλευσης, το DW μπορεί να αποθηκεύσει επιπλέον δεδομένα στηλών για τους υπολογισμούς. Πρέπει να κάνετε τους υπολογισμούς με βάση την επιχειρηματική λογική προτού τον αποθηκεύσετε στο DW.
# 9) Μετατροπή ημερομηνίας / ώρας: Αυτός είναι ένας από τους βασικούς τύπους δεδομένων που πρέπει να επικεντρωθείτε. Η μορφή ημερομηνίας / ώρας μπορεί να διαφέρει σε συστήματα πολλαπλών πηγών.
Για παράδειγμα, Μια πηγή μπορεί να αποθηκεύσει την ημερομηνία ως 10 Νοεμβρίου 1997. Μια άλλη πηγή μπορεί να αποθηκεύσει την ίδια ημερομηνία σε μορφή 11/10/1997. Ως εκ τούτου, κατά τη διάρκεια του μετασχηματισμού δεδομένων, όλες οι τιμές ημερομηνίας / ώρας πρέπει να μετατραπούν σε τυπική μορφή.
# 10) Αποκατάσταση: Σε περίπτωση που το σύστημα προέλευσης έχει διπλές εγγραφές, τότε βεβαιωθείτε ότι έχει φορτωθεί μόνο μία εγγραφή στο σύστημα DW.
Διάγραμμα ροής μετασχηματισμού:
Πώς να εφαρμόσετε το Transformation;
Ανάλογα με την πολυπλοκότητα των μετασχηματισμών δεδομένων, μπορείτε να χρησιμοποιήσετε μη αυτόματες μεθόδους, εργαλεία μετασχηματισμού (ή) συνδυασμό και των δύο όσων είναι αποτελεσματικά.
# 1) Μη αυτόματες τεχνικές
Οι χειροκίνητες τεχνικές είναι κατάλληλες για μικρά συστήματα DW. Οι αναλυτές δεδομένων και οι προγραμματιστές θα δημιουργήσουν τα προγράμματα και τα σενάρια για να μετατρέψουν τα δεδομένα χειροκίνητα. Αυτή η μέθοδος χρειάζεται λεπτομερείς δοκιμές για κάθε τμήμα του κώδικα.
Το κόστος συντήρησης μπορεί να αυξηθεί λόγω των αλλαγών που συμβαίνουν στους επιχειρηματικούς κανόνες (ή) λόγω των πιθανοτήτων εμφάνισης σφαλμάτων με την αύξηση των όγκων δεδομένων. Θα πρέπει να φροντίζετε τα μεταδεδομένα αρχικά και επίσης με κάθε αλλαγή που συμβαίνει στους κανόνες μετασχηματισμού.
# 2) Εργαλεία μετασχηματισμού
Αν θέλετε να αυτοματοποιήσετε το μεγαλύτερο μέρος της διαδικασίας μετασχηματισμού, τότε μπορείτε να υιοθετήσετε τα εργαλεία μετασχηματισμού ανάλογα με τον προϋπολογισμό και το χρονικό πλαίσιο που είναι διαθέσιμο για το έργο. Ενώ αυτοματοποιείτε, πρέπει να αφιερώσετε χρόνο καλής ποιότητας για να επιλέξετε τα εργαλεία, να διαμορφώσετε, να εγκαταστήσετε και να τα ενσωματώσετε στο σύστημα DW.
Πρακτικά Ο πλήρης μετασχηματισμός με τα ίδια τα εργαλεία δεν είναι δυνατός χωρίς χειροκίνητη παρέμβαση. Αλλά τα δεδομένα που μετασχηματίζονται από τα εργαλεία είναι σίγουρα αποτελεσματικά και ακριβή.
Για να το επιτύχουμε αυτό, πρέπει να εισαγάγουμε κατάλληλες παραμέτρους, ορισμούς δεδομένων και κανόνες στο εργαλείο μετασχηματισμού ως είσοδο. Από τις εισόδους που δίνονται, το ίδιο το εργαλείο θα καταγράψει τα μεταδεδομένα και αυτά τα μεταδεδομένα προστίθενται στα συνολικά μεταδεδομένα DW.
Εάν υπάρχουν οποιεσδήποτε αλλαγές στους επιχειρηματικούς κανόνες, απλώς εισαγάγετε αυτές τις αλλαγές στο εργαλείο, οι υπόλοιπες τροποποιήσεις μετασχηματισμού θα αναληφθούν από το ίδιο το εργαλείο. Ως εκ τούτου, ένας συνδυασμός και των δύο μεθόδων είναι αποτελεσματικός στη χρήση.
Φόρτωση δεδομένων
Τα εξαγόμενα και μετασχηματισμένα δεδομένα φορτώνονται στους πίνακες DW προορισμού κατά τη φάση φόρτωσης της διαδικασίας ETL. Η επιχείρηση αποφασίζει πώς πρέπει να πραγματοποιείται η διαδικασία φόρτωσης για κάθε πίνακα.
Η διαδικασία φόρτωσης μπορεί να συμβεί με τους παρακάτω τρόπους:
- Αρχικό φορτίο: Φόρτωση των δεδομένων για συμπλήρωση των αντίστοιχων πινάκων DW για πρώτη φορά.
- Αυξητικό φορτίο: Μόλις φορτωθούν οι πίνακες DW, οι υπόλοιπες συνεχιζόμενες αλλαγές εφαρμόζονται περιοδικά.
- Πλήρης ανανέωση: Εάν τυχόν πίνακες που χρησιμοποιούνται χρειάζονται ανανέωση, τότε τα τρέχοντα δεδομένα από αυτόν τον πίνακα καταργούνται εντελώς και στη συνέχεια φορτώνονται εκ νέου. Η επαναφόρτωση είναι παρόμοια με την αρχική φόρτωση.
Δείτε το παρακάτω παράδειγμα, για καλύτερη κατανόηση της διαδικασίας φόρτωσης στο ETL:
Αναγνωριστικό προϊόντος | Ονομασία προϊόντος | Ημερομηνία πώλησης |
---|---|---|
1 | Βιβλίο γραμματικής | 3 Ιουνίου 2007 |
δύο | Σημάδι | 3 Ιουνίου 2007 |
3 | Σακίδιο πλάτης | 4 Ιουνίου 2007 |
4 | Καπάκι | 4 Ιουνίου 2007 |
5 | Παπούτσια | 5 Ιουνίου 2007 |
# 1) Κατά την αρχική φόρτωση, τα δεδομένα που πωλούνται στις 3rdΟ Ιούνιος 2007 φορτώνεται στον πίνακα προορισμού DW επειδή είναι τα αρχικά δεδομένα από τον παραπάνω πίνακα.
#δύο) Κατά τη διάρκεια του αυξητικού φορτίου, πρέπει να φορτώσουμε τα δεδομένα που πωλούνται μετά τις 3rdΙούνιος 2007. Πρέπει να λάβουμε υπόψη όλες τις εγγραφές με την ημερομηνία πώλησης μεγαλύτερη από (>) την προηγούμενη ημερομηνία για την επόμενη ημέρα. Ως εκ τούτου, στις 4ουΙούνιος 2007, λήψη όλων των εγγραφών με ημερομηνία πώλησης> 3rdΙούνιος 2007 χρησιμοποιώντας ερωτήματα και φορτώστε μόνο αυτές τις δύο εγγραφές από τον παραπάνω πίνακα.
Στις 5ουΙούνιος 2007, λήψη όλων των εγγραφών με ημερομηνία πώλησης> 4ουΙούνιος 2007 και φορτώστε μόνο μία εγγραφή από τον παραπάνω πίνακα.
# 3) Κατά την πλήρη ανανέωση, όλα τα παραπάνω δεδομένα πίνακα φορτώνονται στους πίνακες DW τη στιγμή ανεξάρτητα από την ημερομηνία πώλησης.
Τα φορτωμένα δεδομένα αποθηκεύονται στους αντίστοιχους πίνακες διάστασης (ή). Τα δεδομένα μπορούν να φορτωθούν, να προσαρτηθούν ή να συγχωνευτούν στους πίνακες DW ως εξής:
# 4) Φόρτωση: Τα δεδομένα φορτώνονται στον πίνακα προορισμού εάν είναι κενό. Εάν ο πίνακας έχει ορισμένα δεδομένα, τα υπάρχοντα δεδομένα καταργούνται και στη συνέχεια φορτώνεται με τα νέα δεδομένα.
Για παράδειγμα,
Υφιστάμενα δεδομένα πίνακα
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | Οδηγω |
Βαρίδι | ΒΟΗΘΟΣ ΔΙΕΥΘΥΝΤΗ |
Ρόναλντ | Προγραμματιστής |
Αλλαγή δεδομένων
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Ροχάν | διευθυντής |
Τσετάν | AVP |
ο | VP |
Δεδομένα μετά τη φόρτωση
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Ροχάν | διευθυντής |
Τσετάν | AVP |
ο | VP |
# 5) Προσάρτηση: Το Append είναι μια επέκταση του παραπάνω φορτίου καθώς λειτουργεί σε ήδη υπάρχοντες πίνακες δεδομένων. Στους πίνακες προορισμού, το Append προσθέτει περισσότερα δεδομένα στα υπάρχοντα δεδομένα. Εάν βρεθεί οποιαδήποτε διπλή εγγραφή με τα δεδομένα εισαγωγής, τότε μπορεί να προσαρτηθεί ως διπλότυπο (ή) μπορεί να απορριφθεί.
Για παράδειγμα,
Υφιστάμενα δεδομένα πίνακα
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | Οδηγω |
Αλλαγή δεδομένων
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Ροχάν | διευθυντής |
Τσετάν | AVP |
ο | VP |
Δεδομένα μετά την προσάρτηση
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | Οδηγω |
Ροχάν | διευθυντής |
Τσετάν | AVP |
ο | VP |
# 6) Καταστροφική συγχώνευση: Εδώ τα εισερχόμενα δεδομένα συγκρίνονται με τα υπάρχοντα δεδομένα στόχου με βάση το πρωτεύον κλειδί. Εάν υπάρχει αντιστοιχία, τότε το υπάρχον αρχείο στόχου ενημερώνεται. Εάν δεν βρεθεί αγώνας, τότε εισάγεται μια νέα εγγραφή στον πίνακα στόχου.
Για παράδειγμα,
Υφιστάμενα δεδομένα πίνακα
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | Οδηγω |
Αλλαγή δεδομένων
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | διευθυντής |
Τσετάν | AVP |
ο | VP |
Δεδομένα μετά την εποικοδομητική συγχώνευση
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | διευθυντής |
Τσετάν | AVP |
ο | VP |
# 7) Το εποικοδομητικό πηγαίνει: Σε αντίθεση με την καταστροφική συγχώνευση, εάν υπάρχει αντιστοιχία με την υπάρχουσα εγγραφή, αφήνει την υπάρχουσα εγγραφή ως έχει και εισάγει την εισερχόμενη εγγραφή και την επισημαίνει ως τα πιο πρόσφατα δεδομένα (χρονική σήμανση) σε σχέση με αυτό το πρωτεύον κλειδί.
Για παράδειγμα,
Υφιστάμενα δεδομένα πίνακα
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | Οδηγω |
Αλλαγή δεδομένων
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | διευθυντής |
Τσετάν | AVP |
ο | VP |
Δεδομένα μετά την εποικοδομητική συγχώνευση
όνομα υπαλλήλου | Ρόλος |
---|---|
Γιάννης | Διευθυντής |
Αναγέννηση | Διευθυντής*** |
Αναγέννηση | Οδηγω |
Τσετάν | AVP |
ο | VP |
Τεχνικά, η ανανέωση είναι ευκολότερη από την ενημέρωση των δεδομένων. Η ενημέρωση χρειάζεται μια ειδική στρατηγική για την εξαγωγή μόνο των συγκεκριμένων αλλαγών και την εφαρμογή τους στο σύστημα DW, ενώ η ανανέωση αντικαθιστά τα δεδομένα. Ωστόσο, η ανανέωση των δεδομένων διαρκεί περισσότερο χρόνο, ανάλογα με τον όγκο των δεδομένων.
Εάν έχετε τέτοιες εργασίες ανανέωσης για εκτέλεση καθημερινά, τότε ίσως χρειαστεί να κατεβάσετε το σύστημα DW για να φορτώσετε τα δεδομένα. Αντί να κατεβάσετε ολόκληρο το σύστημα DW για φόρτωση δεδομένων κάθε φορά, μπορείτε να διαιρέσετε και να φορτώσετε δεδομένα με τη μορφή λίγων αρχείων.
Σημειώστε τον χρόνο εκτέλεσης για κάθε φορτίο κατά τη δοκιμή. Εάν κάποια δεδομένα δεν είναι σε θέση να φορτωθούν στο σύστημα DW λόγω οποιωνδήποτε βασικών αναντιστοιχιών κ.λπ., τότε δώστε τους τρόπους για να χειριστούν τέτοιου είδους δεδομένα. Βεβαιωθείτε ότι τα φορτωμένα δεδομένα ελέγχονται διεξοδικά.
Διάγραμμα ροής φόρτωσης:
Επίπεδα αρχεία
Τα επίπεδα αρχεία χρησιμοποιούνται ευρέως για την ανταλλαγή δεδομένων μεταξύ ετερογενών συστημάτων, από διαφορετικά λειτουργικά συστήματα πηγών και από διαφορετικά συστήματα βάσης δεδομένων πηγών έως εφαρμογές αποθήκης δεδομένων. Τα επίπεδα αρχεία είναι πιο αποτελεσματικά και εύκολα στη διαχείριση και για ομοιογενή συστήματα.
Τα επίπεδα αρχεία χρησιμοποιούνται κυρίως για τους ακόλουθους σκοπούς:
# 1) Παράδοση δεδομένων προέλευσης: Μπορεί να υπάρχουν λίγα συστήματα προέλευσης που δεν θα επιτρέπουν στους χρήστες DW να έχουν πρόσβαση στις βάσεις δεδομένων τους για λόγους ασφαλείας. Σε τέτοιες περιπτώσεις, τα δεδομένα παραδίδονται μέσω επίπεδων αρχείων.
Ομοίως, τα δεδομένα προέρχονται από εξωτερικούς προμηθευτές ή συστήματα mainframe ουσιαστικά με τη μορφή επίπεδων αρχείων και αυτά θα είναι FTP από τους χρήστες του ETL.
# 2) Πίνακες εργασίας / στάσης: Η διαδικασία ETL δημιουργεί πίνακες στάσης για τον εσωτερικό του σκοπό. Η συσχέτιση των πινάκων στάσης με τα επίπεδα αρχεία είναι πολύ πιο εύκολη από το DBMS, επειδή η ανάγνωση και η εγγραφή σε ένα σύστημα αρχείων είναι ταχύτερη από την εισαγωγή και την υποβολή ερωτημάτων σε μια βάση δεδομένων.
# 3) Προετοιμασία για μαζικό φορτίο: Μόλις ολοκληρωθούν οι διαδικασίες εξαγωγής και μετασχηματισμού, εάν το φορτίο σε ροή δεν υποστηρίζεται από το εργαλείο ETL (ή) Εάν θέλετε να αρχειοθετήσετε τα δεδομένα, τότε μπορείτε να δημιουργήσετε ένα επίπεδο αρχείο. Αυτό το επίπεδο αρχείο δεδομένων διαβάζεται από τον επεξεργαστή και φορτώνει τα δεδομένα στο σύστημα DW.
Τα επίπεδα αρχεία μπορούν να δημιουργηθούν με δύο τρόπους, όπως 'Σταθερά αρχεία σταθερού μήκους' και 'Οριοθετημένα επίπεδα αρχεία'. Τα επίπεδα αρχεία μπορούν να δημιουργηθούν από τους προγραμματιστές που εργάζονται για το σύστημα προέλευσης.
Ας δούμε πώς επεξεργαζόμαστε αυτά τα επίπεδα αρχεία:
Επεξεργασία επίπεδων αρχείων σταθερού μήκους
Σε γενικές γραμμές, τα επίπεδα αρχεία είναι στήλες σταθερού μήκους, επομένως καλούνται επίσης ως επίπεδα αρχεία θέσης. Ακολουθεί η διάταξη ενός επίπεδου αρχείου που δείχνει τα ακριβή πεδία και τις θέσεις τους σε ένα αρχείο.
Ονομα πεδίου | Μήκος | Αρχή | Τέλος | Τύπος | Σχόλια |
---|---|---|---|---|---|
Ονομα | 10 | 1 | 10 | Κείμενο | Όνομα πελάτη |
Μεσαίο όνομα | 5 | έντεκα | δεκαπέντε | Κείμενο | Μεσαίο όνομα πελάτη |
Επίθετο | 10 | 16 | 25 | Κείμενο | Επώνυμο πελάτη |
Η διάταξη περιέχει το όνομα πεδίου, μήκος, αρχική θέση κατά την οποία ξεκινά ο χαρακτήρας πεδίου, η τελική θέση στην οποία τελειώνει ο χαρακτήρας πεδίου, ο τύπος δεδομένων ως κείμενο, αριθμητικός κ.λπ. και σχόλια εάν υπάρχουν.
Ανάλογα με τις θέσεις δεδομένων, η ομάδα δοκιμών ETL θα επικυρώσει την ακρίβεια των δεδομένων σε ένα επίπεδο αρχείο σταθερού μήκους.
Επεξεργασία οριοθετημένων επίπεδων αρχείων
Στα οριοθετημένα επίπεδα αρχεία, κάθε πεδίο δεδομένων διαχωρίζεται με οριοθέτες. Αυτός ο οριοθέτης δείχνει την αρχική και τελική θέση κάθε πεδίου. Γενικά, το κόμμα χρησιμοποιείται ως οριοθέτης, αλλά μπορείτε να χρησιμοποιήσετε οποιοδήποτε άλλο σύμβολο ή ένα σύνολο συμβόλων.
Τα οριοθετημένα αρχεία μπορεί να έχουν επέκταση .CSV (ή). TXT επέκταση (ή) χωρίς επέκταση. Οι προγραμματιστές που δημιουργούν τα αρχεία ETL θα υποδείξουν το πραγματικό σύμβολο οριοθέτη για την επεξεργασία αυτού του αρχείου. Στην οριοθετημένη διάταξη αρχείων, η πρώτη σειρά μπορεί να αντιπροσωπεύει τα ονόματα των στηλών.
Όπως και τα επίπεδα αρχεία θέσης, η ομάδα δοκιμών ETL θα επικυρώσει ρητά την ακρίβεια των οριοθετημένων επίπεδων δεδομένων αρχείων.
Σκοπός της περιοχής σταδιοποίησης
Ο κύριος σκοπός της περιοχής σταδιοποίησης είναι η προσωρινή αποθήκευση δεδομένων για τη διαδικασία ETL. Η περιοχή στάσης αναφέρεται ως ο πίσω χώρος του συστήματος DW. Ο αρχιτέκτονας ETL αποφασίζει εάν θα αποθηκεύσει δεδομένα στην περιοχή στάσης ή όχι.
Η σταδιοποίηση θα βοηθήσει στη λήψη των δεδομένων από τα συστήματα προέλευσης πολύ γρήγορα. Ταυτόχρονα, σε περίπτωση αποτυχίας του συστήματος DW, τότε δεν χρειάζεται να ξεκινήσετε ξανά τη διαδικασία συλλέγοντας δεδομένα από τα συστήματα προέλευσης εάν τα δεδομένα στάσης υπάρχουν ήδη.
Μετά τη διαδικασία εξαγωγής δεδομένων, εδώ είναι οι λόγοι για τη σταδιοποίηση δεδομένων στο σύστημα DW:
# 1) Ανακτησιμότητα: Οι συγκεντρωμένοι πίνακες στάσης θα αποθηκευτούν στη βάση δεδομένων DW (ή) μπορούν να μετακινηθούν σε συστήματα αρχείων και μπορούν να αποθηκευτούν ξεχωριστά. Σε κάποιο σημείο, τα δεδομένα στάσης μπορούν να λειτουργήσουν ως δεδομένα ανάκτησης εάν αποτύχει κάποιο βήμα μετασχηματισμού ή φόρτωσης.
Μπορεί να υπάρχουν πιθανότητες ότι το σύστημα προέλευσης αντικατέστησε τα δεδομένα που χρησιμοποιήθηκαν για το ETL, επομένως η διατήρηση των εξαγόμενων δεδομένων στη σταδιοποίηση μας βοηθά για οποιαδήποτε αναφορά.
ο καλύτερος μετατροπέας youtube σε mp4
# 2) Δημιουργία αντιγράφων ασφαλείας: Είναι δύσκολο να λάβουμε αντίγραφα ασφαλείας για τεράστιους όγκους πινάκων βάσης δεδομένων DW. Αλλά τα αντίγραφα ασφαλείας είναι απαραίτητο για οποιαδήποτε αποκατάσταση καταστροφών. Ως εκ τούτου, εάν έχετε τα δεδομένα σταδιοποίησης που εξάγονται δεδομένα, τότε μπορείτε να εκτελέσετε τις εργασίες για μετασχηματισμό και φόρτωση, με αυτόν τον τρόπο μπορούν να επαναφορτωθούν τα σφάλματα που έχουν καταρρεύσει.
Για να δημιουργήσετε αντίγραφα ασφαλείας των δεδομένων σταδιοποίησης, μπορείτε συχνά να μετακινήσετε τα δεδομένα στάσης σε συστήματα αρχείων, ώστε να είναι εύκολο να συμπιέσετε και να αποθηκεύσετε στο δίκτυό σας. Όποτε απαιτείται απλώς αποσυμπίεση αρχείων, φορτώστε σε πίνακες στάσης και εκτελέστε τις εργασίες για να φορτώσετε ξανά τους πίνακες DW.
# 3) Έλεγχος: Μερικές φορές μπορεί να πραγματοποιηθεί έλεγχος στο σύστημα ETL, για τον έλεγχο της σύνδεσης δεδομένων μεταξύ του συστήματος προέλευσης και του συστήματος στόχου. Οι ελεγκτές μπορούν να επικυρώσουν τα αρχικά δεδομένα εισόδου έναντι των δεδομένων εξόδου βάσει των κανόνων μετατροπής.
Τα δεδομένα σταδιοποίησης και η δημιουργία αντιγράφων ασφαλείας είναι πολύ χρήσιμα εδώ ακόμα και αν το σύστημα προέλευσης διαθέτει τα δεδομένα ή όχι. Καθώς ο έλεγχος μπορεί να πραγματοποιηθεί ανά πάσα στιγμή και σε οποιαδήποτε περίοδο των παρόντων (ή) προηγούμενων δεδομένων. Η αρχιτεκτονική της περιοχής στάσης πρέπει να είναι καλά σχεδιασμένη.
Σχεδιασμός της περιοχής σταδιοποίησης
Στην αποθήκη δεδομένων, τα δεδομένα της περιοχής στάσης μπορούν να σχεδιαστούν ως εξής:
Με κάθε νέο φορτίο δεδομένων σε πίνακες στάσης, τα υπάρχοντα δεδομένα μπορούν να διαγραφούν (ή) να διατηρηθούν ως ιστορικά δεδομένα για αναφορά. Εάν τα δεδομένα διαγραφούν, τότε ονομάζεται «Προσωρινή περιοχή σταδιοποίησης».
Εάν τα δεδομένα διατηρούνται ως ιστορικό, τότε ονομάζεται «Μόνιμη περιοχή σταδιοποίησης». Μπορείτε επίσης να σχεδιάσετε μια περιοχή σταδιοποίησης με συνδυασμό των δύο παραπάνω τύπων που είναι 'Hybrid'.
Εδώ είναι οι βασικοί κανόνες που πρέπει να γνωρίζετε κατά το σχεδιασμό της περιοχής στάσης:
- Μόνο η ομάδα ETL θα πρέπει να έχει πρόσβαση στην περιοχή αποθήκευσης δεδομένων. Το ερώτημα των δεδομένων σταδιοποίησης περιορίζεται σε άλλους χρήστες.
- Οι πίνακες στην περιοχή στάσης μπορούν να προστεθούν, να τροποποιηθούν ή να αποσυρθούν από τον αρχιτέκτονα δεδομένων ETL χωρίς τη συμμετοχή άλλων χρηστών. Καθώς η περιοχή σταδιοποίησης δεν είναι περιοχή παρουσίασης για τη δημιουργία αναφορών, λειτουργεί απλώς ως πάγκος εργασίας.
- Ο αρχιτέκτονας ETL πρέπει να εκτιμήσει το μέτρο αποθήκευσης δεδομένων της περιοχής σταδιοποίησης για να παρέχει τις λεπτομέρειες στους διαχειριστές DBA και OS. Οι διαχειριστές θα διαθέσουν χώρο για τη δημιουργία βάσεων δεδομένων, συστημάτων αρχείων, καταλόγων κ.λπ.
Εάν η περιοχή σταδιοποίησης και η βάση δεδομένων DW χρησιμοποιούν τον ίδιο διακομιστή, τότε μπορείτε εύκολα να μετακινήσετε τα δεδομένα στο σύστημα DW. Εάν οι διακομιστές είναι διαφορετικοί, χρησιμοποιήστε συνδέσμους βάσης δεδομένων FTP (ή).
Ροή διαδικασίας ETL
Ένας τυπικός κύκλος ETL θα ακολουθήσει τα παρακάτω βήματα διαδικασίας:
- Ξεκινήστε τον κύκλο ETL για να εκτελέσετε εργασίες στη σειρά.
- Βεβαιωθείτε ότι όλα τα μεταδεδομένα είναι έτοιμα.
- Ο κύκλος ETL βοηθά στην εξαγωγή των δεδομένων από διάφορες πηγές.
- Επικυρώστε τα εξαγόμενα δεδομένα.
- Εάν χρησιμοποιούνται πίνακες στάσης, τότε ο κύκλος ETL φορτώνει τα δεδομένα σε στάδια.
- Το ETL εκτελεί μετασχηματισμούς εφαρμόζοντας επιχειρηματικούς κανόνες, δημιουργώντας συγκεντρωτικά στοιχεία κ.λπ.
- Εάν υπάρχουν τυχόν αποτυχίες, τότε ο κύκλος ETL θα τον ενημερώσει με τη μορφή αναφορών.
- Στη συνέχεια, ο κύκλος ETL φορτώνει δεδομένα στους πίνακες προορισμού.
- Προηγούμενα δεδομένα που πρέπει να αποθηκευτούν για ιστορική αναφορά αρχειοθετούνται.
- Τα υπόλοιπα δεδομένα που δεν χρειάζεται να αποθηκευτούν καθαρίζονται.
Διάγραμμα ροής διαδικασίας ETL:
συμπέρασμα
Σε αυτό το σεμινάριο, μάθαμε για τις βασικές έννοιες της Διαδικασίας ETL στο Data Warehouse. Μέχρι τώρα, θα πρέπει να καταλάβετε τι είναι Εξαγωγή δεδομένων, Μετασχηματισμός δεδομένων, Φόρτωση δεδομένων και ροή διεργασίας ETL.
Διαβάστε το επερχόμενο σεμινάριο για να μάθετε περισσότερα για το Data Warehouse Testing !!
=> Επισκεφθείτε εδώ για τη σειρά αποκλειστικής αποθήκευσης δεδομένων.
Συνιστώμενη ανάγνωση
- Εκμάθηση δοκιμών αποθήκης δεδομένων με παραδείγματα | Οδηγός δοκιμών ETL
- 10 καλύτερα εργαλεία χαρτογράφησης δεδομένων χρήσιμα στη διαδικασία ETL (2021 LIST)
- Εγχειρίδιο δοκιμών αποθήκης δεδομένων δοκιμών ETL (ένας πλήρης οδηγός)
- Εξόρυξη δεδομένων: Διαδικασία, τεχνικές και σημαντικά ζητήματα στην ανάλυση δεδομένων
- Διαδικασία εξόρυξης δεδομένων: Συμπεριλαμβάνονται μοντέλα, βήματα διαδικασίας και προκλήσεις
- Ερωτήσεις και απαντήσεις συνέντευξης δοκιμών ETL
- Κορυφαία 10 εργαλεία δοκιμών ETL το 2021
- Κορυφαία 10 δημοφιλή εργαλεία αποθήκευσης δεδομένων και τεχνολογίες δοκιμών