what is data lake data warehouse vs data lake
Αυτό το σεμινάριο εξηγεί τα πάντα σχετικά με τη λίμνη δεδομένων, συμπεριλαμβανομένων των αναγκών, του ορισμού, της αρχιτεκτονικής, των πλεονεκτημάτων και των διαφορών μεταξύ της λίμνης δεδομένων έναντι της αποθήκης δεδομένων:
Ο όρος «Data Lake» χρησιμοποιείται συχνά στον σημερινό κόσμο της πληροφορικής. Αναρωτηθήκατε ποτέ τι είναι και από πού προέρχεται ακριβώς ο όρος;
Στην εποχή της τεχνολογίας των πληροφοριών όπου τα δεδομένα ενισχύονται μέρα και νύχτα σε πολλές μορφές, η έννοια της λίμνης δεδομένων γίνεται σίγουρα σημαντική και χρήσιμη.
Ας διερευνήσουμε τι είναι μια λίμνη δεδομένων και ποια είναι τα οφέλη, οι χρήσεις κ.λπ. εδώ λεπτομερώς εδώ.
Τι θα μάθετε:
- Τι είναι μια λίμνη δεδομένων και πώς λειτουργεί;
- συμπέρασμα
Τι είναι μια λίμνη δεδομένων και πώς λειτουργεί;
Η λίμνη δεδομένων είναι ένα σύστημα ή ένα κεντρικό αποθετήριο δεδομένων που σας επιτρέπει να αποθηκεύετε όλα τα δομημένα, ημι-δομημένα, μη δομημένα και δυαδικά δεδομένα σας στη φυσική / εγγενή / ακατέργαστη μορφή της.
Τα δομημένα δεδομένα μπορεί να περιλαμβάνουν πίνακες από RDBMS. τα ημι-δομημένα δεδομένα περιλαμβάνουν αρχεία CSV, αρχεία XML, αρχεία καταγραφής, JSON κ.λπ. Τα μη δομημένα δεδομένα μπορεί να περιλαμβάνουν PDF, έγγραφα κειμένου, αρχεία κειμένου, email, κ.λπ. και τα δυαδικά δεδομένα μπορεί να περιλαμβάνουν αρχεία ήχου, βίντεο, εικόνων.
Ακολουθεί μια επίπεδη αρχιτεκτονική για την αποθήκευση δεδομένων. Γενικά, τα δεδομένα αποθηκεύονται σε μορφή αντικειμένων ή αρχείων.
(εικόνα πηγή )
Με μια συλλογή δεδομένων, μπορείτε να αποθηκεύσετε όλη την επιχείρησή σας όπως είναι σε ένα μόνο μέρος, χωρίς να χρειάζεται πρώτα να δομήσετε τα δεδομένα. Μπορείτε να εκτελέσετε απευθείας τους διάφορους τύπους αναλυτικών στοιχείων σε αυτό, όπως μηχανική εκμάθηση, αναλυτικά στοιχεία σε πραγματικό χρόνο, κίνηση δεδομένων εσωτερικού χώρου, κίνηση δεδομένων σε πραγματικό χρόνο, πίνακες ελέγχου και οπτικοποιήσεις.
Διατηρεί όλα τα δεδομένα σε αυτήν στην αρχική μορφή και υποθέτει ότι η ανάλυση θα πραγματοποιηθεί αργότερα, κατ 'απαίτηση.
Αναλογία της λίμνης δεδομένων
(εικόνα πηγή )
Ο όρος Data Lake επινοήθηκε από τον James Dixon, τον τότε CTO στο Πεντάχο. Ορίζει το data mart (ένα υποσύνολο μιας αποθήκης δεδομένων) ως παρόμοιο με ένα μπουκάλι νερό γεμάτο με καθαρό, αποσταγμένο νερό, συσκευασμένο και δομημένο για άμεση και εύκολη χρήση.
Από την άλλη πλευρά, είναι ανάλογο με ένα σώμα νερού στη φυσική του μορφή. Τα δεδομένα ρέουν από τις ροές (διάφορες επιχειρησιακές λειτουργίες / συστήματα πηγών) στη λίμνη. Οι καταναλωτές της λίμνης δεδομένων, δηλαδή οι χρήστες έχουν πρόσβαση στη λίμνη προκειμένου να αναλύσουν, να εξετάσουν, να συλλέξουν δείγματα και να βυθιστούν.
Ακριβώς όπως το νερό στη λίμνη εξυπηρετεί διαφορετικές ανάγκες ανθρώπων, όπως ψάρεμα, βαρκάδα, παροχή πόσιμου νερού κ.λπ., ομοίως, η αρχιτεκτονική δεδομένων της λίμνης εξυπηρετεί πολλαπλούς σκοπούς.
Πώς μπορώ να βρω το κλειδί ασφαλείας δικτύου
Ένας επιστήμονας δεδομένων μπορεί να το χρησιμοποιήσει για να εξερευνήσει τα δεδομένα και να δημιουργήσει μια υπόθεση. Προσφέρει την ευκαιρία στους αναλυτές δεδομένων να αναλύσουν δεδομένα και να ανακαλύψουν μοτίβα. Παρέχει έναν τρόπο στους επιχειρηματικούς χρήστες και τους ενδιαφερόμενους να διερευνήσουν δεδομένα.
Προσφέρει επίσης την ευκαιρία για την αναφορά αναλυτών να σχεδιάσουν αναφορές και να τις παρουσιάσουν στην επιχείρηση. Αντίθετα, η αποθήκη δεδομένων έχει συσκευασμένα δεδομένα για σαφώς καθορισμένους σκοπούς, όπως ένα μπουκάλι bisleri που μπορεί να χρησιμοποιηθεί μόνο για πόσιμο νερό.
Data Lake Market - Ανάπτυξη, τάσεις και προβλέψεις
Η αγορά της λίμνης δεδομένων διαιρείται με βάση το προϊόν (λύση ή υπηρεσία), την ανάπτυξη (on-prem ή cloud), τη βιομηχανία πελατών (Λιανική, τραπεζική, βοηθητική, ασφαλιστική, IT, Υγειονομική περίθαλψη, Τηλεπικοινωνίες, Εκδόσεις, Κατασκευή) και γεωγραφική περιφέρειες.
Σύμφωνα με την έκθεση που δημοσίευσε η Mordor Intelligence, παρακάτω είναι το στιγμιότυπο αγοράς για τη λίμνη δεδομένων:
(εικόνα πηγή )
# 1) Περίληψη αγοράς
Το Data Lakes Market εκτιμήθηκε σε 3,74 δισεκατομμύρια δολάρια ΗΠΑ το 2019 και αναμένεται να αγγίξει τα 17,60 δισεκατομμύρια δολάρια μέχρι το 2025, με CAGR (σύνθετος ετήσιος ρυθμός ανάπτυξης) 29,9% κατά την περίοδο προβολής 2020-2025.
Αυτές οι δεξαμενές δεδομένων αποδεικνύονται όλο και περισσότερο ως οικονομική επιλογή για πολλούς οργανισμούς έναντι αποθηκών δεδομένων. Σε αντίθεση με τις λίμνες δεδομένων, η αποθήκευση δεδομένων απαιτεί επιπλέον επεξεργασία δεδομένων πριν εισέλθει στην αποθήκη.
Το κόστος διαχείρισης μιας λίμνης δεδομένων είναι μικρότερο σε σύγκριση με μια αποθήκη δεδομένων λόγω πολλών επεξεργασιών και απαιτείται χώρος για τη δημιουργία της βάσης δεδομένων για τις αποθήκες.
# 2) Σημαντικοί παίκτες
Προβλέπεται ότι η αγορά Data Lake θα είναι μια ενοποιημένη αγορά που κυριαρχείται από τους πέντε βασικούς παράγοντες, όπως φαίνεται στην παρακάτω εικόνα.
# 3) Βασικές τάσεις
- Η χρήση του αναμένεται να αυξηθεί σημαντικά στον τραπεζικό τομέα. Οι τράπεζες υιοθετούν λίμνες δεδομένων για παράδοση εν κινήσει αναλυτικών στοιχείων. Επίσης, βοηθά στη διάλυση πολλών σιλό στον τραπεζικό τομέα.
- Καθώς υπάρχει τεράστια αύξηση στις ψηφιακές πληρωμές / χρήση πορτοφολιών κινητής τηλεφωνίας σε όλο τον κόσμο, το εύρος για μεγάλα αναλυτικά δεδομένα και, συνεπώς, αυξάνεται η ευκαιρία για αυτά.
- Αναμένεται ότι η Βόρεια Αμερική θα έχει υψηλή υιοθέτηση για λίμνες δεδομένων. Μια μελέτη που έγινε από τον Capgemini λέει ότι πάνω από το 60% των χρηματοπιστωτικών οργανισμών στις ΗΠΑ πιστεύουν ότι τα μεγάλα analytics δεδομένων λειτουργούν ως διαφοροποιητές για τις επιχειρήσεις και τους προσδίδουν ανταγωνιστικό πλεονέκτημα. Πάνω από το 90% των οργανισμών πιστεύουν ότι η επένδυση σε έργα μεγάλων δεδομένων αυξάνει τις πιθανότητες επιτυχίας στο μέλλον.
- Απαιτούνται για τη χρήση εφαρμογών έξυπνων μετρητών και στις ΗΠΑ, αναμένεται ότι θα εγκατασταθούν περίπου 90 εκατομμύρια έξυπνοι μετρητές το 2021. Ως εκ τούτου, υπάρχει προβλεπόμενη υψηλή ζήτηση για αυτούς.
Γιατί απαιτείται Data Lake;
Ο σκοπός μιας λίμνης δεδομένων είναι να δώσει μια μη επεξεργασμένη προβολή των δεδομένων (δεδομένα στην καθαρότερη μορφή της).
Παραδείγματα
Σήμερα, πολλές μεγάλες εταιρείες όπως η Google, η Amazon, η Cloudera, η Oracle, η Microsoft και λίγες άλλες έχουν προσφορές δεδομένων.
ποια είναι η σύνδεση και ο κωδικός πρόσβασης του δρομολογητή μου
Πολλοί οργανισμοί χρησιμοποιούν υπηρεσίες αποθήκευσης cloud όπως το Azure Data Lake ή το Amazon S3. Οι εταιρείες χρησιμοποιούν επίσης ένα κατανεμημένο σύστημα αρχείων όπως το Apache Hadoop. Η ιδέα μιας λίμνης προσωπικών δεδομένων που σας επιτρέπει να διαχειριστείτε και να μοιραστείτε τα δικά σας μεγάλα δεδομένα έχει επίσης εξελιχθεί.
Εάν μιλάμε για βιομηχανικές χρήσεις, τότε είναι πολύ κατάλληλο για τον τομέα της υγειονομικής περίθαλψης. Λόγω της μη δομημένης μορφής πολλών δεδομένων στην υγειονομική περίθαλψη ( Για παράδειγμα, Σημειώσεις γιατρών, κλινικά δεδομένα, ιστορικό ασθενειών κλπ.) Και η απαίτηση για πληροφορίες σε πραγματικό χρόνο, μια λίμνη δεδομένων είναι μια εξαιρετική επιλογή έναντι της αποθήκης δεδομένων.
Προσφέρει ευέλικτες λύσεις και στον τομέα της εκπαίδευσης, όπου τα δεδομένα είναι πολύ τεράστια και πολύ ακατέργαστα.
Στον τομέα των μεταφορών, κυρίως στη διαχείριση της εφοδιαστικής αλυσίδας ή την εφοδιαστική, βοηθά στην πραγματοποίηση προβλέψεων και στην πραγματοποίηση οφέλους μείωσης του κόστους.
Οι βιομηχανίες αεροπορίας και ηλεκτρικής ενέργειας χρησιμοποιούν επίσης λίμνες δεδομένων.
Ένα παράδειγμα εφαρμογής της είναι η GE Predix (που αναπτύχθηκε από την General Electric), η οποία είναι μια πλατφόρμα βιομηχανικής λίμνης δεδομένων που προσφέρει ισχυρές ικανότητες διαχείρισης δεδομένων για τη δημιουργία, ανάπτυξη και διαχείριση βιομηχανικών εφαρμογών που συνδέονται με βιομηχανικά περιουσιακά στοιχεία, συλλογή και ανάλυση δεδομένων και παροχή σε πραγματικό χρόνο πληροφορίες για τη βελτίωση της βιομηχανικής υποδομής και διαδικασιών.
Διαφορά μεταξύ Data Warehouse Vs Data Lake
Συχνά οι άνθρωποι δυσκολεύονται να καταλάβουν πώς μια λίμνη διαφέρει από μια αποθήκη δεδομένων. Υποστηρίζουν επίσης ότι είναι το ίδιο με την αποθήκη δεδομένων. Αλλά αυτό δεν είναι η πραγματικότητα.
Η μόνη ομοιότητα μεταξύ της λίμνης δεδομένων και της αποθήκης δεδομένων είναι ότι και οι δύο είναι αποθετήρια αποθήκευσης δεδομένων. Ξεκουραστείτε, είναι διαφορετικά. Έχουν διαφορετικές περιπτώσεις χρήσης και σκοπούς.
Οι διαφορές διευκρινίζονται παρακάτω:
Λίμνη δεδομένων | Αποθήκη δεδομένων | |
---|---|---|
Ανάλυση | Μια λίμνη δεδομένων μπορεί να χρησιμοποιηθεί για μηχανική μάθηση, προφίλ δεδομένων ανακάλυψης δεδομένων και προγνωστική ανάλυση. | Μια αποθήκη δεδομένων μπορεί να χρησιμοποιηθεί για επιχειρηματική ευφυΐα, οπτικοποιήσεις και μαζικές αναφορές. |
Δεδομένα | Μια λίμνη δεδομένων θα διατηρήσει όλα τα ανεπεξέργαστα δεδομένα. Μπορεί να είναι δομημένο, μη δομημένο ή ημι-δομημένο. Ενδέχεται να μην χρησιμοποιούνται ποτέ ορισμένα από τα δεδομένα στη λίμνη δεδομένων. | Η Αποθήκη δεδομένων ενσωματώνει μόνο εκείνα τα δεδομένα που υποβάλλονται σε επεξεργασία και τελειοποίηση, δηλαδή δομημένα δεδομένα που απαιτούνται για την αναφορά και επίλυση συγκεκριμένων επιχειρηματικών προβλημάτων. |
Χρήστες | Γενικά, οι χρήστες μιας λίμνης δεδομένων είναι επιστήμονες δεδομένων και προγραμματιστές δεδομένων. | Γενικά, οι χρήστες της αποθήκης δεδομένων είναι επαγγελματίες, επιχειρησιακοί χρήστες και επιχειρηματικοί αναλυτές. |
Προσιτότητα | Η λίμνη δεδομένων είναι εξαιρετικά προσβάσιμη και εύκολη και γρήγορη ενημέρωση, επειδή δεν έχουν καμία δομή. | Στην αποθήκη δεδομένων, η ενημέρωση των δεδομένων είναι μια πιο περίπλοκη και δαπανηρή λειτουργία, επειδή οι αποθήκες δεδομένων είναι δομημένες από το σχεδιασμό. |
Σχέδιο | Σχέδιο σε εγγραφή. Σχεδιάστηκε πριν από την εφαρμογή DW. | Σχέδιο για ανάγνωση. Συντάχθηκε κατά τη στιγμή της ανάλυσης. |
Αρχιτεκτονική | Επίπεδη αρχιτεκτονική | Ιεραρχική αρχιτεκτονική |
Σκοπός | Ο σκοπός των ανεπεξέργαστων δεδομένων που αποθηκεύονται σε λίμνες δεδομένων δεν είναι καθορισμένος ή δεν είναι καθορισμένος. Μερικές φορές, τα δεδομένα μπορούν να ρέουν σε μια λίμνη δεδομένων λαμβάνοντας υπόψη κάποια συγκεκριμένη μελλοντική χρήση ή απλά για να έχουν τα δεδομένα εύχρηστα. Η λίμνη δεδομένων έχει λιγότερο οργανωμένα και λιγότερο φιλτραρισμένα δεδομένα. | Τα επεξεργασμένα δεδομένα που αποθηκεύονται στην αποθήκη δεδομένων έχει συγκεκριμένο και συγκεκριμένο σκοπό. Ένας DW έχει οργανώσει και φιλτράρει δεδομένα. Ως εκ τούτου, απαιτεί λιγότερο χώρο αποθήκευσης από τη λίμνη δεδομένων. |
Αποθήκευση | Σχεδιασμένο για αποθήκευση χαμηλού κόστους. Το υλικό της λίμνης δεδομένων είναι πολύ διαφορετικό από το υλικό της αποθήκης δεδομένων. Χρησιμοποιεί διακομιστές εκτός ράφι σε συνδυασμό με φθηνό χώρο αποθήκευσης. Αυτό καθιστά τη λίμνη δεδομένων αρκετά οικονομική και επεκτάσιμη σε terabyte και petabytes. Αυτό γίνεται για τη διατήρηση όλων των δεδομένων σε μια λίμνη δεδομένων, ώστε να μπορείτε να επιστρέψετε στην ώρα σε οποιοδήποτε σημείο για να κάνετε ανάλυση. | Ακριβά για μεγάλους όγκους δεδομένων. Η αποθήκη δεδομένων διαθέτει ακριβό χώρο αποθήκευσης δίσκου για να το κάνει εξαιρετικά αποδοτικό. Επομένως, προκειμένου να διατηρηθεί ο χώρος, το μοντέλο δεδομένων απλοποιείται και μόνο τα δεδομένα που πραγματικά απαιτούνται για τη λήψη επιχειρηματικών αποφάσεων διατηρούνται στην αποθήκη δεδομένων. |
Υποστήριξη για τύπους δεδομένων | Ένα Data Lake υποστηρίζει πολύ καλά τους μη παραδοσιακούς τύπους δεδομένων, όπως αρχεία καταγραφής διακομιστή, δεδομένα αισθητήρων, δραστηριότητα κοινωνικού δικτύου, κείμενο, εικόνες, πολυμέσα κ.λπ. Όλα τα δεδομένα διατηρούνται ανεξάρτητα από την πηγή και τη δομή. | Γενικά, μια αποθήκη δεδομένων αποτελείται από δεδομένα που λαμβάνονται από συστήματα συναλλαγών. Δεν υποστηρίζει πολύ καλά τους μη παραδοσιακούς τύπους δεδομένων. Η αποθήκευση και η κατανάλωση των μη παραδοσιακών δεδομένων μπορεί να είναι δαπανηρή και δύσκολη με την αποθήκη δεδομένων. |
Ασφάλεια | Η ασφάλεια των λιμνών δεδομένων βρίσκεται στο στάδιο της «ωρίμανσης», καθώς πρόκειται για μια σχετικά νέα ιδέα από την αποθήκη δεδομένων. | Η ασφάλεια των αποθηκών δεδομένων βρίσκεται στο «ωριμασμένο» στάδιο. |
Ευκινησία | Πολύ ευκίνητο? διαμορφώστε και επαναδιαμορφώστε όπως απαιτείται. | Λιγότερο ευκίνητο? σταθερή διαμόρφωση. |
Αρχιτεκτονική Data Lake
Διάγραμμα αρχιτεκτονικής
Πάνω είναι το εννοιολογικό διάγραμμα αρχιτεκτονικής της λίμνης δεδομένων. Στο αριστερό μέρος, μπορείτε να δείτε ότι έχουμε τις πηγές δεδομένων που μπορούν να είναι δομημένες, ημι-δομημένες ή μη δομημένες.
Αυτές οι πηγές δεδομένων συνδυάζονται σε ένα μη επεξεργασμένο χώρο αποθήκευσης δεδομένων που χρησιμοποιεί τα δεδομένα στην αρχική του μορφή, δηλαδή δεδομένα χωρίς μετασχηματισμούς. Πρόκειται για χαμηλού κόστους, μόνιμη και επεκτάσιμη αποθήκευση.
Στη συνέχεια, έχουμε αναλυτικά sandbox που μπορούν να χρησιμοποιηθούν για ανακάλυψη δεδομένων, διερευνητική ανάλυση δεδομένων και προγνωστική μοντελοποίηση. Βασικά, αυτό χρησιμοποιείται από επιστήμονες δεδομένων για να διερευνήσει δεδομένα, να δημιουργήσει νέα υπόθεση και να καθορίσει περιπτώσεις χρήσης.
Στη συνέχεια, υπάρχει μια μηχανή επεξεργασίας παρτίδας που επεξεργάζεται τα ακατέργαστα δεδομένα σε μορφή που μπορεί να χρησιμοποιηθεί από τον καταναλωτή, δηλαδή σε δομημένη μορφή που μπορεί να χρησιμοποιηθεί για αναφορά σε τελικούς χρήστες.
Στη συνέχεια, έχουμε μια μηχανή επεξεργασίας σε πραγματικό χρόνο που λαμβάνεται σε ροή δεδομένων και τα μετατρέπει.
Βασικά χαρακτηριστικά της λίμνης δεδομένων
Για να ταξινομηθεί ως Data Lake, ένα μεγάλο αποθετήριο δεδομένων πρέπει να διαθέτει τα ακόλουθα τρία χαρακτηριστικά:
# 1) Ένα ενιαίο κοινό αποθετήριο δεδομένων που συνήθως βρίσκεται σε ένα Κατανεμημένο Σύστημα Αρχείων (DFS).
Τα δεδομένα Hadoop διατηρούν δεδομένα στη μητρική του μορφή και καταγράφουν αλλαγές στα δεδομένα και τη σχετική σημασιολογία κατά τη διάρκεια του κύκλου ζωής των δεδομένων. Αυτή η προσέγγιση είναι ιδιαίτερα επωφελής για τους ελέγχους συμμόρφωσης και τους εσωτερικούς ελέγχους.
Πρόκειται για μια βελτίωση πάνω από τη συμβατική Enterprise Data Warehouse στην οποία όταν τα δεδομένα περνούν από μετασχηματισμούς, συγκεντρώσεις και τροποποιήσεις, είναι δύσκολο να τοποθετηθούν δεδομένα στο σύνολό τους όταν απαιτείται και οι εταιρείες προσπαθούν να ανακαλύψουν την πηγή / προέλευση των δεδομένων.
# 2) Ενσωματώνει δυνατότητες προγραμματισμού και προγραμματισμού εργασιών (Για παράδειγμα, μέσω οποιουδήποτε εργαλείου προγραμματισμού όπως το YARN κ.λπ.).
Η εκτέλεση φόρτου εργασίας είναι απαραίτητη για την επιχείρηση Hadoop και το YARN προσφέρει διαχείριση πόρων και μια κεντρική πλατφόρμα για την παροχή συνεχών διαδικασιών, ασφάλεια , και εργαλεία διακυβέρνησης δεδομένων σε όλες τις συστοιχίες Hadoop, διασφαλίζοντας ότι οι αναλυτικές ροές εργασίας διαθέτουν το απαιτούμενο επίπεδο πρόσβασης δεδομένων και υπολογιστικής ισχύος.
# 3) Περιλαμβάνει το σύνολο των βοηθητικών προγραμμάτων και των λειτουργιών που απαιτούνται για την κατανάλωση, επεξεργασία ή εργασία με τα δεδομένα.
Η εύκολη και γρήγορη προσβασιμότητα για τους χρήστες είναι ένα από τα βασικά χαρακτηριστικά μιας λίμνης δεδομένων, λόγω του ότι οι οργανισμοί αποθηκεύουν τα δεδομένα στη μητρική ή καθαρή μορφή τους.
Σε οποιαδήποτε μορφή τα δεδομένα είναι δηλαδή δομημένα, μη δομημένα ή ημι-δομημένα, εισάγονται όπως είναι στη λίμνη δεδομένων. Επιτρέπει στους ιδιοκτήτες δεδομένων να συνδυάζουν δεδομένα πελατών, προμηθευτών και λειτουργιών, απαλλάσσοντας τυχόν τεχνικά ή πολιτικά εμπόδια για την κοινή χρήση δεδομένων.
Οφέλη
(εικόνα πηγή )
- Πολύπλευρος : Αρκετά ικανός για την αποθήκευση όλων των ειδών δομημένων / μη δομημένων δεδομένων, από δεδομένα CRM έως δραστηριότητες κοινωνικού δικτύου.
- Περισσότερη ευελιξία του σχήματος : Δεν χρειάζεται προγραμματισμός ή προηγούμενη γνώση της ανάλυσης δεδομένων. Αποθηκεύει όλα τα δεδομένα όπως είναι στην αρχική του μορφή και υποθέτει ότι η ανάλυση θα πραγματοποιηθεί αργότερα, κατ 'απαίτηση. Αυτό είναι πολύ χρήσιμο για το OLAP. Για παράδειγμα, Η λίμνη δεδομένων Hadoop σάς επιτρέπει να είστε χωρίς σχήματα όπου μπορείτε να αποσυνδέσετε το σχήμα από δεδομένα.
- Ανάλυση αποφάσεων σε πραγματικό χρόνο : Απολαμβάνουν το πλεονέκτημα ενός τεράστιου αριθμού σταθερών δεδομένων και αλγορίθμων βαθιάς μάθησης για την επίτευξη αναλυτικών αποφάσεων σε πραγματικό χρόνο. Δυνατότητα λήψης αξίας από απεριόριστους τύπους δεδομένων.
- Κλιμακούμενος: Είναι πολύ πιο επεκτάσιμες από τις παραδοσιακές αποθήκες δεδομένων και, επίσης, είναι λιγότερο δαπανηρές.
- Advanced Analytics / Συμβατότητα με SQL και άλλες γλώσσες: Με τις λίμνες δεδομένων, υπάρχουν πολλοί τρόποι για την αναζήτηση δεδομένων. Σε αντίθεση με τις παραδοσιακές αποθήκες δεδομένων που υποστηρίζουν μόνο SQL για απλή ανάλυση, σας δίνουν πολλές άλλες επιλογές και υποστήριξη γλώσσας για την ανάλυση δεδομένων. Είναι επίσης συμβατά με εργαλεία μηχανικής μάθησης όπως το Spark MLlib.
- Εκδημοκρατισμός δεδομένων: Εκδημοκρατισμένη πρόσβαση σε δεδομένα μέσω μιας ενιαίας, ολοκληρωμένης προβολής δεδομένων σε ολόκληρο τον οργανισμό, χρησιμοποιώντας ταυτόχρονα μια αποτελεσματική πλατφόρμα διαχείρισης δεδομένων. Αυτό διασφαλίζει τη συνολική διαθεσιμότητα δεδομένων.
- Καλύτερη ποιότητα δεδομένων: Συνολικά, έχετε καλύτερη ποιότητα δεδομένων με λίμνες δεδομένων μέσω τεχνολογικών πλεονεκτημάτων, όπως αποθήκευση δεδομένων σε εγγενή μορφή, επεκτασιμότητα, ευελιξία, ευελιξία σχήματος, υποστήριξη SQL και άλλων γλωσσών και προηγμένη ανάλυση.
Προκλήσεις και Κίνδυνοι
Οι λίμνες δεδομένων προσφέρουν πολλά πλεονεκτήματα. Αλλά ναι, υπάρχουν επίσης μερικές προκλήσεις και κίνδυνοι που σχετίζονται με αυτούς τους οποίους ένας οργανισμός πρέπει να αντιμετωπίσει προσεκτικά.
Αυτοί είναι:
- Εάν δεν έχουν σχεδιαστεί σωστά, μπορούν να μετατραπούν σε βάλτους δεδομένων. Μερικές φορές, οι οργανισμοί καταλήγουν συνεχώς να απορρίπτουν απεριόριστα δεδομένα σε αυτές τις λίμνες χωρίς να έχουν κατά νου καμία στρατηγική και σκοπό.
- Κατά καιρούς, οι αναλυτές που θέλουν να χρησιμοποιήσουν τα δεδομένα δεν γνωρίζουν πώς να το κάνουν, καθώς είναι αρκετά δύσκολο να κάνουμε εξόρυξη σε λίμνες δεδομένων. Έτσι, χάνουν τη συνάφεια και την ορμή τους μετά από κάποιο χρονικό διάστημα. Οι οργανισμοί πρέπει να εργαστούν για την άρση αυτού του εμποδίου για τους αναλυτές.
- Δεδομένου ότι έχουμε πολλά αποδιοργανωμένα δεδομένα στις λίμνες δεδομένων, δεν είναι αρκετά φρέσκο ή τρέχον για να χρησιμοποιηθεί στην παραγωγή. Ως εκ τούτου, τα δεδομένα σε αυτές τις λίμνες παραμένουν σε πιλοτική λειτουργία και δεν τίθενται ποτέ σε παραγωγή.
- Τα μη δομημένα δεδομένα μπορεί να οδηγήσουν σε αχρησιμοποίητα δεδομένα.
- Μερικές φορές, οι οργανισμοί πιστεύουν ότι δεν έχει σημαντικό αντίκτυπο στις επιχειρήσεις σε σχέση με τις επενδύσεις που πραγματοποιήθηκαν. Αυτό απαιτεί αλλαγή στη νοοτροπία. Για να προκύψουν επιπτώσεις, οι εταιρείες πρέπει να ενθαρρύνουν τους διευθυντές και τους ηγέτες να λαμβάνουν αποφάσεις βάσει των αναλυτικών στοιχείων που προέρχονται από αυτές τις δεξαμενές δεδομένων.
- Η ασφάλεια και ο έλεγχος πρόσβασης είναι επίσης ένας από τους κινδύνους όταν εργάζεστε μαζί τους. Μερικά από τα δεδομένα που ενδέχεται να έχουν απαιτούμενο απόρρητο και κανονισμούς τοποθετούνται σε λίμνες δεδομένων χωρίς καμία επίβλεψη.
Εκτέλεση
Σε μια επιχείρηση, είναι πολύ λογικό να κάνουμε την εφαρμογή της λίμνης δεδομένων με ευέλικτο τρόπο.
Δηλαδή, για να εφαρμόσετε πρώτα ένα Data Lake, το MVP το δοκιμάζει από τους χρήστες σε σχέση με την ποιότητα, την ευκολία πρόσβασης, την αποθήκευση και τις αναλυτικές δυνατότητες, λαμβάνετε σχόλια και, στη συνέχεια, προσθέστε τις σύνθετες απαιτήσεις και χαρακτηριστικά για να προσθέσετε αξία στη λίμνη.
Γενικά, ένας οργανισμός περνά από τα παρακάτω τέσσερα βασικά στάδια εφαρμογής:
(εικόνα πηγή )
Στάδιο 1:
Η λίμνη βασικών δεδομένων: Σε αυτό το στάδιο, η ομάδα βασίζεται στη βασική αρχιτεκτονική, την τεχνολογία (cloud-based ή παλαιού τύπου) και τις πρακτικές ασφάλειας και διακυβέρνησης για τη λίμνη δεδομένων. Είναι ικανό να αποθηκεύει όλα τα πρωτογενή δεδομένα που προέρχονται από διάφορες εταιρικές πηγές και να συνδυάζει τα εσωτερικά και εξωτερικά δεδομένα για την παροχή εμπλουτισμένων πληροφοριών.
Στάδιο 2:
Το Sandbox: Αναλυτική ικανότητα βελτίωσης: Σε αυτό το στάδιο, οι επιστήμονες δεδομένων έχουν πρόσβαση σε δεξαμενή δεδομένων για να πραγματοποιήσουν προκαταρκτικά πειράματα για τη χρήση πρώτων δεδομένων και να σχεδιάσουν αναλυτικά μοντέλα για την κάλυψη επιχειρηματικών αναγκών.
Στάδιο 3:
c ++ sleep_for
Συνεργασία Data Warehouses και Data Lake: Σε αυτό το στάδιο, ο οργανισμός αρχίζει να χρησιμοποιεί τη λίμνη δεδομένων σε συνέργεια με τις υπάρχουσες αποθήκες δεδομένων. Τα δεδομένα χαμηλής προτεραιότητας αποστέλλονται σε αυτά, ώστε να μην ξεπεραστεί το όριο αποθήκευσης των αποθηκών δεδομένων.
Παρουσιάζει μια προοπτική να παράγει πληροφορίες από ψυχρά δεδομένα ή να το αναζητήσει για να ανακαλύψει πληροφορίες που δεν ευρετηριάζονται από συμβατικές βάσεις δεδομένων.
Στάδιο 4:
Τέλος σε τέλος υιοθέτηση του Data Lake: Αυτό είναι το τελευταίο στάδιο απόκτησης και λήξης στο οποίο μετατρέπεται σε βασικό στοιχείο της αρχιτεκτονικής δεδομένων του οργανισμού και κατευθύνει αποτελεσματικά τη λειτουργία αναζήτησης. Μέχρι αυτή τη στιγμή, η λίμνη δεδομένων θα είχε αντικαταστήσει το EDW και θα γίνουν η μόνη πηγή όλων των εταιρικών δεδομένων.
Ένας οργανισμός μπορεί να κάνει τα εξής μέσω της λίμνης δεδομένων:
- Δημιουργήστε σύνθετες λύσεις μοντελοποίησης δεδομένων και αναλυτικών στοιχείων για διαφορετικές επιχειρηματικές ανάγκες.
- Σχεδιάστε διαδραστικούς πίνακες ελέγχου που ενοποιούν τις γνώσεις από τη λίμνη δεδομένων καθώς και διάφορες πηγές εφαρμογών και δεδομένων.
- Εφαρμόστε προηγμένα προγράμματα ανάλυσης ή ρομποτικής, καθώς χειρίζεται υπολογιστικές λειτουργίες.
Σε αυτό το σημείο, έχει επίσης ισχυρή ασφάλεια και κυβερνητικά μέτρα.
Προμηθευτές Data Lake
Υπάρχουν διάφοροι προμηθευτές που παρέχουν εργαλεία λίμνης δεδομένων στον κλάδο.
(εικόνα πηγή )
Αν κοιτάξουμε τις μεγάλες εταιρείες:
- Χρήση υπολογιστή παρέχει ένα έξυπνο εργαλείο λίμνης δεδομένων. Το BDM (Big Data Management) 10.2.2 είναι η τελευταία διαθέσιμη έκδοση.
- Υπάρχει ένας πωλητής που ονομάζεται βλέπων που παρέχει επίσης το εργαλείο.
- Η εταιρία Τάλεντ το οποίο είναι δημοφιλές για τα εργαλεία ETL τους παρέχει επίσης το εργαλείο Data Lake.
- Στη συνέχεια, έχουμε ένα εργαλείο ανοιχτού κώδικα που ονομάζεται Κύλο από το Τερατάτα Εταιρία. Η ομάδα που ονομάζεται «Think Big» ομάδα στην εταιρεία Teradata έχει αναπτύξει αυτό το εργαλείο.
- Η εταιρία Δεδομένα Cask Η Inc παρέχει επίσης αυτές τις υπηρεσίες.
- Από Microsoft , μπορείς να βρεις Λίμνη κυανών δεδομένων διαθέσιμο στον κλάδο.
- Hvr-λογισμικό παρέχει επίσης λύσεις ενοποίησης λίμνης δεδομένων.
- Δεδομένα βάσης, μια εταιρεία Qlik παρέχει προϊόντα εργαλείων όπως αγωγούς λίμνης δεδομένων, λίμνη δεδομένων πολλαπλών ζωνών.
- Νιφάδα χιονιού έχει επίσης ένα προϊόν λίμνης δεδομένων.
- Ζαλόνι είναι μια εταιρεία δεδομένων δεδομένων που χειρίζεται τεράστια δεδομένα χρησιμοποιώντας Big Data.
Έτσι, όλα αυτά είναι οι δημοφιλείς πάροχοι υπηρεσιών, καθώς και προμηθευτές για τέτοια εργαλεία.
Αν ψάχνετε για εξάσκηση και οικοδόμηση των γνώσεών σας σχετικά με τις λίμνες δεδομένων, τότε μπορείτε να πάτε για Informatica ή Kylo. Αν ψάχνετε για μια υπηρεσία που βασίζεται σε σύννεφο, τότε μπορείτε να επιλέξετε Looker, Informatica και Talend. Αυτοί οι τρεις προμηθευτές παρέχουν λίμνες δεδομένων cloud AWS. Μπορείτε επίσης να λάβετε μια δωρεάν δοκιμή 1 μήνα από το Kylo.
συμπέρασμα
Σε αυτό το σεμινάριο, συζητήσαμε λεπτομερώς την έννοια της λίμνης δεδομένων. Εξετάσαμε τη βασική ιδέα πίσω από τη λίμνη δεδομένων, την αρχιτεκτονική της, τα βασικά χαρακτηριστικά, τα οφέλη, μαζί με τα παραδείγματα, τις περιπτώσεις χρήσης κ.λπ.
Είδαμε επίσης πώς διαφέρει μια λίμνη δεδομένων από την αποθήκη δεδομένων. Καλύψαμε επίσης τους κορυφαίους προμηθευτές που παρέχουν σχετικές υπηρεσίες.
Καλή ανάγνωση !!
Συνιστώμενη ανάγνωση
- Εκμάθηση δοκιμών αποθήκης δεδομένων με παραδείγματα | Οδηγός δοκιμών ETL
- Κορυφαία 10 Εργαλεία δοκιμής και επικύρωσης δομημένων δεδομένων για SEO
- Εξόρυξη δεδομένων: Διαδικασία, τεχνικές και σημαντικά ζητήματα στην ανάλυση δεδομένων
- Tutorial Data Mart - Τύποι, παραδείγματα & υλοποίηση του Data Mart
- Κορυφαία 10 δημοφιλή εργαλεία αποθήκευσης δεδομένων και τεχνολογίες δοκιμών
- Διαστατικό μοντέλο δεδομένων στην αποθήκη δεδομένων - Εκμάθηση με παραδείγματα
- 10+ καλύτερα εργαλεία συλλογής δεδομένων με στρατηγικές συλλογής δεδομένων
- Δυνατότητα συγκέντρωσης δεδομένων στο IBM Rational Quality Manager για δοκιμή διαχείρισης δεδομένων