dimensional data model data warehouse tutorial with examples
Αυτό το σεμινάριο εξηγεί τα οφέλη και τους μύθους του μοντέλου διαστάσεων δεδομένων στην αποθήκη δεδομένων. Επίσης, Μάθετε σχετικά με τους πίνακες διαστάσεων και τους πίνακες γεγονότων με παραδείγματα:
Δοκιμή αποθήκης δεδομένων εξηγήθηκε στο προηγούμενο σεμινάριό μας, σε αυτό Σειρά εκπαίδευσης αποθήκης δεδομένων για όλους .
Τεράστια δεδομένα οργανώνονται στην αποθήκη δεδομένων (DW) με τεχνικές Dimensional Data Modeling. Αυτές οι τεχνικές διαμόρφωσης δεδομένων διαστάσεων καθιστούν τη δουλειά των τελικών χρηστών πολύ εύκολο να ρωτήσουν για τα επιχειρηματικά δεδομένα. Αυτό το σεμινάριο εξηγεί όλα τα διαστατικά μοντέλα δεδομένων στο DW.
Στοχευμένο κοινό
- Προγραμματιστές και υπεύθυνοι δοκιμής αποθήκης δεδομένων / ETL.
- Επαγγελματίες βάσης δεδομένων με βασικές γνώσεις εννοιών βάσης δεδομένων.
- Διαχειριστές βάσεων δεδομένων / μεγάλοι ειδικοί δεδομένων που θέλουν να κατανοήσουν τις έννοιες της αποθήκης δεδομένων / ETL.
- Απόφοιτοι κολεγίου / Φρεσκάροντα που αναζητούν θέσεις εργασίας στην αποθήκη δεδομένων.
Τι θα μάθετε:
Διαστατικά μοντέλα δεδομένων
Τα διαστατικά μοντέλα δεδομένων είναι οι δομές δεδομένων που είναι διαθέσιμες στους τελικούς χρήστες στη ροή ETL, για αναζήτηση και ανάλυση των δεδομένων. Η διαδικασία ETL καταλήγει με τη φόρτωση δεδομένων στα μοντέλα διαστάσεων δεδομένων στόχου. Κάθε μοντέλο δεδομένων διαστάσεων είναι κατασκευασμένο με έναν πίνακα πληροφοριών που περιβάλλεται από πίνακες πολλαπλών διαστάσεων.
Βήματα που πρέπει να ακολουθηθούν κατά το σχεδιασμό ενός διαστατικού μοντέλου δεδομένων:
Οφέλη της διαστατικής μοντελοποίησης δεδομένων
Παρακάτω αναφέρονται τα διάφορα οφέλη του Dimensional Data Modeling.
- Ασφαλίζονται για να χρησιμοποιούν τα συνεχώς μεταβαλλόμενα περιβάλλοντα DW.
- Τεράστια δεδομένα μπορούν να κατασκευαστούν εύκολα με τη βοήθεια διαστάσεων μοντέλων δεδομένων.
- Τα δεδομένα από τα μοντέλα διαστάσεων είναι εύκολα κατανοητά και αναλύονται.
- Είναι εύκολα προσβάσιμοι από τους τελικούς χρήστες για αναζήτηση με υψηλή απόδοση.
- Τα διαστατικά μοντέλα δεδομένων μας επιτρέπουν να αναλύουμε (ή) να ανεβάζουμε τα δεδομένα ιεραρχικά.
ER Modeling Vs Dimensional Data Modeling
- Η μοντελοποίηση ER είναι κατάλληλη για λειτουργικά συστήματα ενώ η διαστατική μοντελοποίηση είναι κατάλληλη για την αποθήκη δεδομένων.
- Η μοντελοποίηση ER διατηρεί λεπτομερή τρέχοντα δεδομένα συναλλαγών, ενώ η διαστατική μοντελοποίηση διατηρεί την περίληψη τόσο των τρέχοντων όσο και των ιστορικών δεδομένων συναλλαγών.
- Η μοντελοποίηση ER έχει ομαλοποιημένα δεδομένα ενώ η διαστατική μοντελοποίηση έχει απενεργοποιημένα δεδομένα.
- Η μοντελοποίηση ER χρησιμοποιεί περισσότερες συνδέσεις κατά την ανάκτηση ερωτημάτων, ενώ η διαστατική μοντελοποίηση χρησιμοποιεί μικρότερο αριθμό συνδέσεων, επομένως η απόδοση του ερωτήματος είναι ταχύτερη στην διαστατική μοντελοποίηση.
Διαστατικοί μύθοι μοντελοποίησης δεδομένων
Παρακάτω δίνονται μερικοί από τους υπάρχοντες μύθους μοντελοποίησης διαστάσεων δεδομένων.
- Τα μοντέλα διαστάσεων χρησιμοποιούνται μόνο για να αντιπροσωπεύουν την περίληψη των δεδομένων.
- Είναι ειδικά τμήματα σε έναν οργανισμό.
- Δεν υποστηρίζουν επεκτασιμότητα.
- Έχουν σχεδιαστεί για να εξυπηρετούν το σκοπό των αναφορών και των ερωτημάτων των τελικών χρηστών.
- Δεν μπορούμε να ενσωματώσουμε τα μοντέλα διαστάσεων δεδομένων.
Πίνακες διαστάσεων
Οι πίνακες διαστάσεων παίζουν βασικό ρόλο στο σύστημα DW αποθηκεύοντας όλες τις τιμές μετρήσεων που αναλύθηκαν. Αυτές οι τιμές αποθηκεύονται σε εύκολα επιλέξιμες ιδιότητες διαστάσεων (στήλες) στον πίνακα. Η ποιότητα ενός συστήματος DW εξαρτάται κυρίως από το βάθος των χαρακτηριστικών διαστάσεων.
Ως εκ τούτου, πρέπει να προσπαθήσουμε να παρέχουμε πολλά χαρακτηριστικά μαζί με τις αντίστοιχες τιμές τους στους πίνακες διαστάσεων.
Ας εξερευνήσουμε τη δομή των πινάκων διαστάσεων !!
# 1) Πλήκτρο πίνακα διαστάσεων: Κάθε πίνακας ιδιοτήτων θα έχει οποιοδήποτε από τα χαρακτηριστικά ιδιότητας ως πρωτεύον κλειδί για τον μοναδικό προσδιορισμό κάθε σειράς. Εξ ου και οι ξεχωριστές αριθμητικές τιμές αυτού του χαρακτηριστικού μπορούν να λειτουργήσουν ως πρωτεύοντα κλειδιά.
Εάν οι τιμές των χαρακτηριστικών δεν είναι μοναδικές σε καμία περίπτωση, τότε μπορείτε να θεωρήσετε τους αριθμούς συστήματος που δημιουργούνται διαδοχικά ως τα κύρια κλειδιά. Αυτά ονομάζονται επίσης ως πλήκτρα εναλλαγής.
Τα μοντέλα διαστάσεων δεδομένων πρέπει να έχουν περιορισμό ακεραιότητας αναφοράς για κάθε κλειδί μεταξύ διαστάσεων και γεγονότων. Έτσι, οι πίνακες γεγονότων θα έχουν μια αναφορά ξένου κλειδιού για κάθε πρωτεύον / υποκατάστατο κλειδί στον πίνακα διαστάσεων για τη διατήρηση της ακεραιότητας αναφοράς.
Εάν αποτύχει, δεν είναι δυνατή η ανάκτηση των αντίστοιχων δεδομένων πίνακα δεδομένων για αυτό το κλειδί διάστασης.
# 2) Ο πίνακας είναι ευρύς: Μπορούμε να πούμε ότι οι πίνακες διαστάσεων είναι ευρύ καθώς μπορούμε να προσθέσουμε οποιονδήποτε αριθμό χαρακτηριστικών σε έναν πίνακα διαστάσεων σε οποιοδήποτε σημείο του κύκλου DW. Ο αρχιτέκτονας DW θα ζητήσει από την ομάδα ETL να προσθέσει αντίστοιχα νέα χαρακτηριστικά στο σχήμα.
Σε σενάρια σε πραγματικό χρόνο, μπορείτε να δείτε πίνακες διαστάσεων με 50 (ή) περισσότερα χαρακτηριστικά.
# 3) Χαρακτηριστικά κειμένου: Τα διαστατικά χαρακτηριστικά μπορούν να είναι οποιουδήποτε τύπου, κατά προτίμηση κείμενο (ή) αριθμητικά. Τα χαρακτηριστικά κειμένου θα έχουν πραγματικές επιχειρηματικές λέξεις και όχι κωδικούς. Οι πίνακες διαστάσεων δεν προορίζονται για υπολογισμούς και ως εκ τούτου οι αριθμητικές τιμές σπάνια χρησιμοποιούνται για ιδιότητες διαστάσεων.
# 4) Τα χαρακτηριστικά ενδέχεται να μην σχετίζονται άμεσα: Όλα τα χαρακτηριστικά σε έναν πίνακα διαστάσεων ενδέχεται να μην σχετίζονται μεταξύ τους.
# 5) Δεν είναι κανονικοποιημένο: Η ομαλοποίηση ενός πίνακα διαστάσεων φέρνει περισσότερους ενδιάμεσους πίνακες στην εικόνα που δεν είναι αποτελεσματικός. Έτσι, οι πίνακες διαστάσεων δεν είναι κανονικοποιημένοι.
Τα χαρακτηριστικά διαστάσεων μπορούν να λειτουργήσουν ως πηγή περιορισμών σε ερωτήματα και μπορούν επίσης να εμφανιστούν ως ετικέτες στις αναφορές. Τα ερωτήματα θα αποδίδουν αποτελεσματικά εάν επιλέξετε απευθείας ένα χαρακτηριστικό από τον πίνακα διαστάσεων και αναφέρεστε απευθείας στον αντίστοιχο πίνακα γεγονότων χωρίς να αγγίξετε άλλους ενδιάμεσους πίνακες.
# 6) Διάτρηση και περιστροφή: Τα χαρακτηριστικά ιδιότητας έχουν τη δυνατότητα να αναλύουν (ή) να συγκεντρώνουν τα δεδομένα όποτε χρειάζεται.
# 7) Πολλαπλές Ιεραρχίες: Ένας πίνακας μίας διάστασης που έχει πολλές ιεραρχίες είναι πολύ συνηθισμένος. Ένας πίνακας διαστάσεων θα έχει μια απλή ιεραρχία εάν υπάρχει μόνο μία διαδρομή από το κάτω επίπεδο προς την κορυφή. Παρομοίως, θα έχει πολλές ιεραρχίες εάν υπάρχουν πολλές διαδρομές που υπάρχουν για να φτάσετε από το κατώτερο επίπεδο στην κορυφή.
# 8) Λίγες εγγραφές: Οι πίνακες διαστάσεων θα έχουν μικρότερο αριθμό εγγραφών (σε εκατοντάδες) από τους πίνακες γεγονότων (σε εκατομμύρια). Αν και είναι μικρότερα από τα γεγονότα, παρέχουν όλες τις πληροφορίες στους πίνακες γεγονότων.
Ακολουθεί ένα παράδειγμα πίνακα διαστάσεων πελατών:
Με την κατανόηση των παραπάνω εννοιών, μπορείτε να αποφασίσετε εάν ένα πεδίο δεδομένων μπορεί να λειτουργεί ως χαρακτηριστικό ιδιότητας (ή) όχι κατά την εξαγωγή των δεδομένων από την ίδια την πηγή.
Το βασικό σχέδιο φόρτωσης για μια διάσταση
Οι διαστάσεις μπορούν να δημιουργηθούν με δύο τρόπους, δηλαδή εξάγοντας τα δεδομένα διαστάσεων από συστήματα εξωτερικής πηγής (ή) Το σύστημα ETL μπορεί να δημιουργήσει τις διαστάσεις από τη σταδιοποίηση χωρίς να περιλαμβάνει εξωτερικές πηγές. Ωστόσο, ένα σύστημα ETL χωρίς εξωτερική επεξεργασία είναι πιο κατάλληλο για τη δημιουργία πινάκων διαστάσεων.
Ακολουθούν τα βήματα που εμπλέκονται σε αυτήν τη διαδικασία:
ο καλύτερος δωρεάν μετατροπέας youtube σε mp3
- Καθαρισμός δεδομένων: Τα δεδομένα καθαρίζονται, επικυρώνονται και εφαρμόζονται επιχειρηματικοί κανόνες πριν από τη φόρτωση στον πίνακα διαστάσεων για να διατηρηθεί η συνέπεια.
- Συμμόρφωση δεδομένων: Τα δεδομένα από άλλα μέρη της αποθήκης δεδομένων πρέπει να συγκεντρώνονται σωστά ως μία μόνο τιμή, σε σχέση με κάθε πεδίο του πίνακα διαστάσεων.
- Κοινή χρήση των ίδιων τομέων: Μόλις επιβεβαιωθούν τα δεδομένα, αποθηκεύονται ξανά σε πίνακες στάσης.
- Παράδοση δεδομένων: Τέλος, όλες οι διαστατικές τιμές χαρακτηριστικών φορτώνονται με τα κύρια / αναπληρωματικά κλειδιά που έχουν εκχωρηθεί.
Τύποι διαστάσεων
Οι διάφοροι τύποι διαστάσεων παρατίθενται παρακάτω για αναφορά σας.
Ας αρχίσουμε!!
# 1) Μικρές διαστάσεις
Οι μικρές διαστάσεις στην αποθήκη δεδομένων λειτουργούν ως πίνακες αναζήτησης με μικρότερο αριθμό σειρών και στηλών. Τα δεδομένα σε μικρές διαστάσεις μπορούν εύκολα να φορτωθούν από υπολογιστικά φύλλα. Εάν απαιτείται, μικρές διαστάσεις μπορούν να συνδυαστούν ως σούπερ διάσταση.
# 2) Διαμορφωμένη διάσταση
Μια διαμορφωμένη διάσταση είναι μια διάσταση που μπορεί να αναφέρεται με τον ίδιο τρόπο με κάθε πίνακα γεγονότων που σχετίζεται.
Η ιδιότητα ημερομηνίας είναι το καλύτερο παράδειγμα μιας διαμορφωμένης ιδιότητας, καθώς τα χαρακτηριστικά της διάστασης ημερομηνίας, όπως έτος, μήνας, εβδομάδα, ημέρες κ.λπ. επικοινωνούν τα ίδια δεδομένα με τον ίδιο τρόπο σε οποιοδήποτε αριθμό γεγονότων.
Ένα παράδειγμα διαμορφωμένης διάστασης.
# 3) Διάσταση ανεπιθύμητης αλληλογραφίας
Λίγα χαρακτηριστικά σε έναν πίνακα γεγονότων, όπως σημαίες και δείκτες μπορούν να μετακινηθούν σε έναν ξεχωριστό πίνακα διαστάσεων ανεπιθύμητης αλληλογραφίας. Αυτά τα χαρακτηριστικά δεν ανήκουν σε κανέναν άλλο υπάρχοντα πίνακα διαστάσεων. Σε γενικές γραμμές, οι τιμές αυτών των χαρακτηριστικών είναι απλώς «ναι / όχι» (ή) «αληθές / λάθος».
Η δημιουργία μιας νέας διάστασης για κάθε μεμονωμένο χαρακτηριστικό σημαίας καθιστά περίπλοκη τη δημιουργία περισσότερου αριθμού ξένων κλειδιών στον πίνακα γεγονότων. Ταυτόχρονα, η διατήρηση όλων αυτών των σημαιών και των πληροφοριών δεικτών σε πίνακες γεγονότων αυξάνει επίσης την ποσότητα των δεδομένων που αποθηκεύονται σε γεγονότα τα οποία υποβαθμίζουν έτσι την απόδοση.
Ως εκ τούτου, η καλύτερη λύση για αυτό είναι η δημιουργία μίας διάστασης σκουπιδιών, καθώς η διάσταση σκουπιδιών είναι ικανή να διατηρεί οποιονδήποτε αριθμό ενδείξεων «ναι / όχι» ή «αληθές / λάθος». Ωστόσο, οι ανεπιθύμητες διαστάσεις αποθηκεύουν περιγραφικές τιμές για αυτούς τους δείκτες (ναι / όχι (ή) αληθές / λάθος), όπως ενεργό & σε εκκρεμότητα, κ.λπ.
Με βάση την πολυπλοκότητα ενός πίνακα γεγονότων και των δεικτών του, ένας πίνακας γεγονότων μπορεί να έχει μία ή περισσότερες διαστάσεις σκουπιδιών.
Παράδειγμα ανεπιθύμητης διάστασης.
# 4) Διάσταση παιχνιδιού ρόλων
Μια μεμονωμένη διάσταση που μπορεί να αναφέρεται για πολλούς σκοπούς σε έναν πίνακα πληροφοριών είναι γνωστή ως διάσταση ρόλων.
Το καλύτερο παράδειγμα για μια ιδιότητα ρόλων είναι και πάλι ένας πίνακας διάστασης ημερομηνίας, καθώς το ίδιο χαρακτηριστικό ημερομηνίας σε μια ιδιότητα μπορεί να χρησιμοποιηθεί για διαφορετικούς σκοπούς σε ένα γεγονός όπως η ημερομηνία παραγγελίας, η ημερομηνία παράδοσης, η ημερομηνία συναλλαγής, η ημερομηνία ακύρωσης, και τα λοιπά.
Εάν είναι απαραίτητο, μπορείτε να δημιουργήσετε τέσσερις διαφορετικές προβολές στον πίνακα διαστάσεων ημερομηνίας σε σχέση με τέσσερα διαφορετικά χαρακτηριστικά ημερομηνιών ενός πίνακα γεγονότων.
Ένα παράδειγμα διάστασης ρόλων.
# 5) Εκφυλισμένες διαστάσεις
Μπορεί να υπάρχουν λίγα χαρακτηριστικά που δεν μπορούν να είναι ούτε διαστάσεις (μετρήσεις) ούτε γεγονότα (μέτρα), αλλά χρειάζονται για ανάλυση. Όλα αυτά τα χαρακτηριστικά μπορούν να μετακινηθούν σε εκφυλισμένες διαστάσεις.
Για παράδειγμα, Μπορείτε να θεωρήσετε τον αριθμό παραγγελίας, τον αριθμό τιμολογίου κ.λπ. ως εκφυλισμένα χαρακτηριστικά ιδιοτήτων.
Ένα παράδειγμα εκφυλισμένης διάστασης.
# 6) Αλλαγή αργά διαστάσεων
Μια αργά μεταβαλλόμενη διάσταση είναι ένα είδος όπου τα δεδομένα μπορούν να αλλάξουν αργά ανά πάσα στιγμή και όχι σε περιοδικά κανονικά διαστήματα. Τα τροποποιημένα δεδομένα σε πίνακες διαστάσεων μπορούν να αντιμετωπιστούν με διαφορετικούς τρόπους όπως εξηγείται παρακάτω.
Μπορείτε να επιλέξετε τον τύπο SCD για να απαντήσετε σε μια αλλαγή ξεχωριστά για κάθε χαρακτηριστικό σε έναν πίνακα διαστάσεων.
(i) SCD τύπου 1
- Στον τύπο 1, όταν υπάρχει αλλαγή στις τιμές των ιδιοτήτων των διαστάσεων, οι υπάρχουσες τιμές αντικαθίστανται με τις πρόσφατα τροποποιημένες τιμές, οι οποίες δεν είναι παρά μια ενημέρωση.
- Τα παλιά δεδομένα δεν διατηρούνται για ιστορική αναφορά.
- Δεν είναι δυνατή η αναδημιουργία προηγούμενων αναφορών λόγω της μη ύπαρξης παλαιών δεδομένων.
- Εύκολη συντήρηση.
- Ο αντίκτυπος στους πίνακες γεγονότων είναι περισσότερο.
Παράδειγμα SCD τύπου 1:
(Ii) Τύπος 2 SCD
- Στον τύπο 2, όταν υπάρχει αλλαγή στις τιμές των χαρακτηριστικών διαστάσεων, μια νέα σειρά θα εισαχθεί με τις τροποποιημένες τιμές χωρίς να αλλάξει τα παλιά δεδομένα σειράς.
- Εάν υπάρχει κάποια αναφορά ξένου κλειδιού που υπάρχει στην παλιά εγγραφή σε οποιονδήποτε από τους πίνακες γεγονότων, τότε το παλιό υποκατάστατο κλειδί ενημερώνεται παντού με ένα νέο υποκατάστατο κλειδί αυτόματα.
- Ο αντίκτυπος στις αλλαγές του πίνακα γεγονότων είναι πολύ μικρότερος με το παραπάνω βήμα.
- Τα παλιά δεδομένα δεν λαμβάνονται υπόψη οπουδήποτε μετά τις αλλαγές.
- Στον τύπο 2, μπορούμε να παρακολουθούμε όλες τις αλλαγές που συμβαίνουν στα χαρακτηριστικά διαστάσεων.
- Δεν υπάρχει όριο στην αποθήκευση ιστορικών δεδομένων.
- Στον τύπο 2, η προσθήκη λίγων χαρακτηριστικών σε κάθε σειρά, όπως η αλλαγή ημερομηνίας, η πραγματική ημερομηνία, η ημερομηνία λήξης, ο λόγος για την αλλαγή και η τρέχουσα σημαία είναι προαιρετική. Αλλά αυτό είναι σημαντικό εάν η επιχείρηση θέλει να μάθει τον αριθμό των αλλαγών που πραγματοποιήθηκαν κατά τη διάρκεια μιας συγκεκριμένης χρονικής περιόδου.
Παράδειγμα SCD τύπου 2:
(Iii) Τύπος 3 SCD
- Στον τύπο 3, όταν υπάρχει αλλαγή στις τιμές των χαρακτηριστικών διαστάσεων, οι νέες τιμές ενημερώνονται, αλλά οι παλιές τιμές εξακολουθούν να ισχύουν ως δεύτερη επιλογή.
- Αντί να προσθέσετε μια νέα σειρά για κάθε αλλαγή, μια νέα στήλη θα προστεθεί εάν δεν υπάρχει προηγουμένως.
- Οι παλιές τιμές τοποθετούνται στα παραπάνω χαρακτηριστικά και τα δεδομένα του πρωτεύοντος χαρακτηριστικού αντικαθίστανται με την αλλαγμένη τιμή όπως στον τύπο 1.
- Υπάρχει ένα όριο στην αποθήκευση ιστορικών δεδομένων.
- Ο αντίκτυπος στους πίνακες γεγονότων είναι περισσότερο.
Παράδειγμα SCD τύπου 3:
(iv) SCD τύπου 4
- Στον τύπο 4, τα τρέχοντα δεδομένα αποθηκεύονται σε έναν πίνακα.
- Όλα τα ιστορικά δεδομένα διατηρούνται σε έναν άλλο πίνακα.
Παράδειγμα SCD τύπου 4:
(v) SCD τύπου 6
- Ένας διαστατικός πίνακας μπορεί επίσης να έχει έναν συνδυασμό και των τριών τύπων SCD 1, 2 και 3 που είναι γνωστός ως υβριδικός τύπος 6 (ή) που αλλάζει αργά.
Πίνακες γεγονότων
Οι πίνακες γεγονότων αποθηκεύουν ένα σύνολο ποσοτικά μετρημένων τιμών που χρησιμοποιούνται για υπολογισμούς. Οι τιμές του πίνακα πληροφοριών εμφανίζονται στις αναφορές επιχειρήσεων. Σε αντίθεση με τον τύπο δεδομένων κειμένου πινάκων διαστάσεων, ο τύπος δεδομένων πινάκων γεγονότων είναι σημαντικά Αριθμητικός.
Οι πίνακες γεγονότων είναι βαθιές, ενώ οι πίνακες διαστάσεων είναι μεγάλοι, καθώς οι πίνακες γεγονότων θα έχουν μεγαλύτερο αριθμό σειρών και μικρότερο αριθμό στηλών. Ένα πρωτεύον κλειδί που ορίζεται στον πίνακα γεγονότων είναι κατά κύριο λόγο η αναγνώριση κάθε σειράς ξεχωριστά. Το πρωτεύον κλειδί καλείται επίσης σύνθετο κλειδί στην πραγματικότητα πίνακας.
Εάν το σύνθετο κλειδί λείπει σε έναν πίνακα γεγονότων και εάν οποιεσδήποτε δύο εγγραφές έχουν τα ίδια δεδομένα, είναι πολύ δύσκολο να γίνει διάκριση μεταξύ των δεδομένων και να αναφέρονται τα δεδομένα σε πίνακες διαστάσεων.
Ως εκ τούτου, εάν υπάρχει ένα κατάλληλο μοναδικό κλειδί ως σύνθετο κλειδί, τότε είναι καλό να δημιουργήσετε έναν αριθμό ακολουθίας για κάθε εγγραφή πίνακα γεγονότων. Μια άλλη εναλλακτική λύση είναι να σχηματίσετε ένα πρωτεύον κλειδί. Αυτό θα δημιουργηθεί συνδυάζοντας όλα τα αναφερόμενα πρωτεύοντα κλειδιά των πινάκων διαστάσεων κατά σειρά.
Ένας ενιαίος πίνακας γεγονότων μπορεί να περιβάλλεται από πίνακες πολλαπλών διαστάσεων. Με τη βοήθεια των ξένων κλειδιών που υπάρχουν σε πραγματικούς πίνακες, το αντίστοιχο πλαίσιο (ριζικά δεδομένα) των μετρημένων τιμών μπορεί να αναφέρεται στους πίνακες διαστάσεων. Με τη βοήθεια των ερωτημάτων, οι χρήστες θα εκτελέσουν αποτελεσματικά την αναλυτική παρουσίαση.
Το χαμηλότερο επίπεδο δεδομένων που μπορούν να αποθηκευτούν σε έναν πίνακα πληροφοριών είναι γνωστό ως Granularity. Ο αριθμός των πινάκων διαστάσεων που σχετίζεται με έναν πίνακα γεγονότων είναι αντιστρόφως ανάλογος με την ευαισθησία αυτών των δεδομένων πίνακα γεγονότων. δηλ. Η μικρότερη τιμή μέτρησης χρειάζεται περισσότερους πίνακες διαστάσεων για αναφορά.
Σε ένα διαστατικό μοντέλο, οι πίνακες γεγονότων διατηρούν τη σχέση πολλών προς πολλών με τους πίνακες διαστάσεων.
Ένα παράδειγμα πίνακα γεγονότων πωλήσεων:
Φόρτωση προγράμματος για πίνακες γεγονότων
Μπορείτε να φορτώσετε δεδομένα πίνακα γεγονότων αποτελεσματικά, λαμβάνοντας υπόψη τους ακόλουθους δείκτες:
# 1) Απόθεση και επαναφορά ευρετηρίων
Τα ευρετήρια στους πίνακες στην πραγματικότητα είναι καλοί ενισχυτές απόδοσης κατά την ερώτηση των δεδομένων, αλλά κατεδαφίζουν την απόδοση κατά τη φόρτωση των δεδομένων. Επομένως, πριν από τη φόρτωση τεράστιων δεδομένων σε πίνακες γεγονότων, ρίξτε κυρίως όλους τους δείκτες σε αυτόν τον πίνακα, φορτώστε τα δεδομένα και επαναφέρετε τα ευρετήρια.
# 2) Ξεχωριστά ένθετα από ενημερώσεις
Μην συγχωνεύσετε εγγραφές εισαγωγής και ενημέρωσης κατά τη φόρτωση σε έναν πίνακα πληροφοριών. Εάν ο αριθμός των ενημερώσεων είναι μικρότερος, επεξεργαστείτε τα ένθετα και τις ενημερώσεις ξεχωριστά. Εάν ο αριθμός των ενημερώσεων είναι μεγαλύτερος, συνιστάται να περικόψετε και να φορτώσετε ξανά τον πίνακα πληροφοριών για γρήγορα αποτελέσματα.
# 3) Διαμέριση
Κάντε το διαχωρισμό φυσικά σε έναν πίνακα πληροφοριών σε μίνι πίνακες για καλύτερη απόδοση ερωτήματος στα δεδομένα του μαζικού πίνακα πληροφοριών. Εκτός από τα DBA και την ομάδα του ETL, κανείς δεν θα γνωρίζει τις κατατμήσεις για τα γεγονότα.
Ως παράδειγμα , μπορείτε να διαχωρίσετε έναν πίνακα κατά μήνα, τριμηνιαίο, ετήσιο, κ.λπ. Κατά την αναζήτηση, εξετάζονται μόνο τα διαχωρισμένα δεδομένα αντί για σάρωση ολόκληρου του πίνακα.
# 4) Φόρτωση παράλληλα
κορυφαίες λήψεις μουσικής mp3 για Android
Έχουμε τώρα μια ιδέα για διαμερίσματα σε πίνακες γεγονότων. Οι κατατμήσεις για γεγονότα είναι επίσης επωφελείς ενώ φορτώνουν τεράστια δεδομένα σε γεγονότα. Για να το κάνετε αυτό, πρώτα, διαχωρίστε τα δεδομένα λογικά σε διαφορετικά αρχεία δεδομένων και εκτελέστε τις εργασίες ETL για να φορτώσετε παράλληλα όλα αυτά τα λογικά τμήματα δεδομένων.
# 5) Βοηθητικό πρόγραμμα μαζικού φορτίου
Σε αντίθεση με άλλα συστήματα RDBMS, το σύστημα ETL δεν χρειάζεται να διατηρεί τα αρχεία καταγραφής επαναφοράς ρητά για αποτυχίες κατά τη διάρκεια της συναλλαγής. Εδώ 'μαζικά φορτία' συμβαίνουν σε γεγονότα αντί για 'ένθετα SQL' για τη φόρτωση τεράστιων δεδομένων. Εάν σε περίπτωση αποτυχίας ενός μόνο φορτίου, τότε όλα τα δεδομένα μπορούν να φορτωθούν εύκολα (ή) μπορεί να συνεχιστεί από το σημείο που έχει μείνει με το χύμα φορτίο.
# 6) Διαγραφή ρεκόρ γεγονότων
Η διαγραφή μιας εγγραφής πίνακα γεγονότων συμβαίνει μόνο εάν η επιχείρηση θέλει ρητά. Εάν υπάρχουν δεδομένα πίνακα δεδομένων που δεν υπάρχουν πλέον στα συστήματα προέλευσης, τότε τα αντίστοιχα δεδομένα μπορούν να διαγραφούν είτε φυσικά (είτε) λογικά.
- Φυσική διαγραφή: Οι ανεπιθύμητες εγγραφές αφαιρούνται μόνιμα από τον πίνακα γεγονότων.
- Λογική διαγραφή: Μια νέα στήλη θα προστεθεί στον πίνακα γεγονότων όπως «διαγραμμένο» τύπου Bit (ή) Boolean. Αυτό λειτουργεί ως σημαία για την αναπαράσταση των διαγραμμένων εγγραφών. Πρέπει να βεβαιωθείτε ότι δεν επιλέγετε τις διαγραμμένες εγγραφές ενώ κάνετε ερώτημα για τα δεδομένα του πίνακα γεγονότων.
# 7) Ακολουθία για ενημερώσεις και διαγραφές σε πίνακα πληροφοριών
Όταν υπάρχουν δεδομένα που πρέπει να ενημερωθούν, οι πίνακες διαστάσεων θα πρέπει πρώτα να ενημερωθούν ακολουθούμενοι από ενημέρωση των υποκατάστατων κλειδιών στον πίνακα αναζήτησης, εάν είναι απαραίτητο και μετά από αυτό θα ενημερωθεί ο αντίστοιχος πίνακας γεγονότων. Η διαγραφή γίνεται αντίστροφα επειδή η διαγραφή όλων των ανεπιθύμητων δεδομένων από πίνακες γεγονότων καθιστά εύκολη τη διαγραφή των συνδεδεμένων ανεπιθύμητων δεδομένων από τους πίνακες ιδιοτήτων.
Πρέπει να ακολουθήσουμε την παραπάνω ακολουθία και στις δύο περιπτώσεις, επειδή οι πίνακες διαστάσεων και οι πίνακες γεγονότων διατηρούν την ακεραιότητα των αναφορών όλη την ώρα.
Τύποι γεγονότων
Με βάση τη συμπεριφορά των δεδομένων πινάκων γεγονότων κατηγοριοποιούνται ως πίνακες γεγονότων συναλλαγών, πίνακες γεγονότων στιγμιότυπου και συσσωρευμένοι πίνακες γεγονότων στιγμιότυπου. Και οι τρεις αυτοί τύποι ακολουθούν διαφορετικά χαρακτηριστικά με διαφορετικές στρατηγικές φόρτωσης δεδομένων.
# 1) Πίνακες γεγονότων συναλλαγών
Καθώς το όνομα δείχνει τους πίνακες γεγονότων συναλλαγών αποθηκεύονται δεδομένα σε επίπεδο συναλλαγής για κάθε συμβάν που συμβαίνει. Τέτοιου είδους δεδομένα είναι εύκολο να αναλυθούν σε επίπεδο πραγματικού πίνακα. Αλλά για περαιτέρω ανάλυση, μπορείτε επίσης να ανατρέξετε στις σχετικές διαστάσεις.
Για παράδειγμα, κάθε πώληση (ή) αγορά που πραγματοποιείται από έναν ιστότοπο μάρκετινγκ θα πρέπει να φορτώνεται σε έναν πίνακα γεγονότων συναλλαγών.
Παρακάτω φαίνεται ένα παράδειγμα Πίνακα Γεγονότων Συναλλαγών.
# 2) Περιοδικοί Πίνακες Γεγονότων Στιγμιότυπου
Καθώς το όνομα δείχνει δεδομένα σε περιοδικό στιγμιότυπο, ο πίνακας γεγονότων αποθηκεύεται με τη μορφή στιγμιότυπων (εικόνες) σε περιοδικά διαστήματα όπως για κάθε μέρα, εβδομάδα, μήνα, τρίμηνο κ.λπ. ανάλογα με τις επιχειρηματικές ανάγκες.
Είναι λοιπόν σαφές ότι αυτή είναι μια συγκέντρωση δεδομένων όλη την ώρα. Ως εκ τούτου, τα γεγονότα στιγμιότυπου είναι πιο περίπλοκα σε σύγκριση με τους πίνακες γεγονότων συναλλαγών. Για παράδειγμα, Τα δεδομένα αναφορών εσόδων απόδοσης μπορούν να αποθηκευτούν σε πίνακες γεγονότων για εύκολη αναφορά.
Ένα παράδειγμα ενός Περιοδικού Πίνακα Γεγονότων Στιγμιότυπου φαίνεται παρακάτω.
# 3) Συγκέντρωση Πίνακες Γεγονότων Στιγμιότυπου
Η συσσώρευση πινάκων γεγονότων στιγμιότυπου σάς επιτρέπει να αποθηκεύετε δεδομένα σε πίνακες για όλη τη διάρκεια ζωής ενός προϊόντος. Αυτό λειτουργεί ως συνδυασμός των δύο παραπάνω τύπων όπου δεδομένα μπορούν να εισαχθούν από οποιοδήποτε συμβάν ανά πάσα στιγμή ως στιγμιότυπο.
Σε αυτόν τον τύπο, οι πρόσθετες στήλες ημερομηνιών και τα δεδομένα για κάθε σειρά ενημερώνονται με κάθε ορόσημο αυτού του προϊόντος.
Ένα παράδειγμα πίνακα συσσωρευμένων στιγμιότυπων.
Εκτός από τους παραπάνω τρεις τύπους, ακολουθούν μερικοί άλλοι τύποι πινάκων γεγονότων:
# 4) Πίνακες γεγονότων χωρίς περιστατικά: Το γεγονός είναι μια συλλογή μέτρων, ενώ το γεγονός καταγράφει λιγότερο μόνο γεγονότα (ή) συνθήκες που δεν περιέχουν μέτρα. Ένας πίνακας γεγονότων χωρίς γεγονότα χρησιμοποιείται κυρίως για την παρακολούθηση ενός συστήματος. Τα δεδομένα σε αυτούς τους πίνακες μπορούν να αναλυθούν και να χρησιμοποιηθούν για αναφορά.
Για παράδειγμα, μπορείτε να αναζητήσετε λεπτομέρειες για έναν υπάλληλο που έχει λάβει άδεια και τον τύπο της άδειας σε ένα έτος κ.λπ. Συμπεριλαμβανομένων όλων αυτών των μη σαφών λεπτομερειών σε ένα γεγονός, ο πίνακας θα αυξήσει σίγουρα το μέγεθος των γεγονότων.
Ένα παράδειγμα Πίνακα Factless Fact παρουσιάζεται παρακάτω.
# 5) Συμμορφωμένοι Πίνακες Γεγονότων: Ένα συμμορφωμένο γεγονός είναι ένα γεγονός που μπορεί να αναφερθεί με τον ίδιο τρόπο με κάθε μαρτύριο δεδομένων με το οποίο σχετίζεται.
Προδιαγραφές ενός πίνακα γεγονότων
Παρακάτω δίνονται οι προδιαγραφές ενός Πίνακα Γεγονότων.
- Όνομα γεγονότος: Αυτή είναι μια συμβολοσειρά που περιγράφει εν συντομία τη λειτουργικότητα του πίνακα πληροφοριών.
- Επιχειρηματική διαδικασία: Οι συζητήσεις για την επιχείρηση πρέπει να εκπληρωθούν από αυτόν τον πίνακα γεγονότων.
- Ερωτήσεις: Αναφέρει μια λίστα επιχειρηματικών ερωτήσεων που θα απαντηθούν από αυτόν τον πίνακα πληροφοριών.
- Σιτηρά: Υποδεικνύει το χαμηλότερο επίπεδο λεπτομέρειας που σχετίζεται με αυτά τα δεδομένα πίνακα δεδομένων.
- Διαστάσεις: Αναφέρετε όλους τους πίνακες διαστάσεων που σχετίζονται με αυτόν τον πίνακα γεγονότων.
- Μέτρα: Οι υπολογισμένες τιμές αποθηκεύονται στον πίνακα γεγονότων.
- Συχνότητα φόρτωσης Αντιπροσωπεύει τα χρονικά διαστήματα για τη φόρτωση δεδομένων στον πίνακα γεγονότων.
- Αρχικές σειρές: Ανατρέξτε στα αρχικά δεδομένα που συγκεντρώνονται στον πίνακα γεγονότων για πρώτη φορά.
Παράδειγμα μοντελοποίησης διαστάσεων δεδομένων
Μπορείτε να πάρετε μια ιδέα για το πώς μπορούν να σχεδιαστούν πίνακες διαστάσεων και πίνακες γεγονότων για ένα σύστημα, κοιτάζοντας το παρακάτω διαστατικό διάγραμμα μοντελοποίησης δεδομένων για πωλήσεις και παραγγελίες.
συμπέρασμα
Μέχρι τώρα, θα πρέπει να έχετε αποκτήσει εξαιρετικές γνώσεις σχετικά με τις τεχνικές διαμόρφωσης δεδομένων διαστάσεων, τα οφέλη τους, τους μύθους, τους πίνακες διαστάσεων, τους πίνακες γεγονότων, μαζί με τους τύπους και τις διαδικασίες τους.
Δείτε το επερχόμενο σεμινάριό μας για να μάθετε περισσότερα για τα Data Warehouse Schemas !!
=> Επισκεφθείτε εδώ για να μάθετε την αποθήκευση δεδομένων από το μηδέν.
Συνιστώμενη ανάγνωση
- Εκμάθηση δοκιμών αποθήκης δεδομένων με παραδείγματα | Οδηγός δοκιμών ETL
- Παραδείγματα εξόρυξης δεδομένων: Οι πιο κοινές εφαρμογές της εξόρυξης δεδομένων 2021
- Εκμάθηση Python DateTime με παραδείγματα
- Βασικές αρχές αποθήκευσης δεδομένων: Ένας απόλυτος οδηγός με παραδείγματα
- Εκπαιδευτικός έλεγχος έντασης: Παραδείγματα και εργαλεία ελέγχου έντασης
- Κορυφαία 10 δημοφιλή εργαλεία αποθήκευσης δεδομένων και τεχνολογίες δοκιμών
- Εξόρυξη δεδομένων: Διαδικασία, τεχνικές και σημαντικά ζητήματα στην ανάλυση δεδομένων
- Πώς να εκτελέσετε δοκιμές βάσει δεδομένων στο SoapUI Pro - SoapUI Tutorial # 14