big data tutorial beginners what is big data
Αυτό το σεμινάριο εξηγεί τα πάντα για τα βασικά δεδομένα Big Data. Το σεμινάριο περιλαμβάνει οφέλη, προκλήσεις, τεχνολογίες και εργαλεία μαζί με εφαρμογές Big Data:
Σε αυτόν τον ψηφιακό κόσμο με τεχνολογικές εξελίξεις, ανταλλάσσουμε μεγάλες ποσότητες δεδομένων καθημερινά, όπως στο Terabytes ή Petabyte .
Εάν ανταλλάσσουμε αυτό το ποσό δεδομένων καθημερινά, τότε πρέπει να το διατηρήσουμε και να το αποθηκεύσουμε κάπου. Η λύση για τον χειρισμό των μεγάλων όγκων δεδομένων με υψηλή ταχύτητα και διαφορετική ποικιλία είναι Μεγάλα δεδομένα.
Μπορεί να χειριστεί πολύπλοκα δεδομένα που προέρχονται από πολλές πηγές, όπως διαφορετικές βάσεις δεδομένων, ιστότοπους, widgets κ.λπ. Επίσης, μπορεί να συνδέσει και να ταιριάξει με τα δεδομένα που προέρχονται από διαφορετικές πηγές. Δίνει πράγματι ταχύτερη πρόσβαση στα δεδομένα ( Για παράδειγμα, μεσα ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ).
Λίστα εκπαιδευτικών σε αυτήν τη μεγάλη σειρά δεδομένων
πώς να εφαρμόσετε την ουρά στην Java
Εκμάθηση # 1: Τι είναι τα Big Data; (Αυτό το σεμινάριο)
Εκμάθηση # 2: Τι είναι το Hadoop; Tutorial Apache Hadoop για αρχάριους
Εκμάθηση # 3: Hadoop HDFS - Κατανεμημένο σύστημα αρχείων Hadoop
Εκμάθηση # 4: Οδηγός Hadoop Architecture και HDFS
Εκμάθηση # 5: Tutoop MapReduce Tutorial με παραδείγματα | Τι είναι το MapReduce;
Εκμάθηση # 6: Apache Hadoop YARN Tutorial για αρχάριους | Τι είναι το YARN;
Εκμάθηση # 7: Εκπαιδευτικό σεμινάριο δοκιμών Hadoop | Οδηγός δοκιμών μεγάλων δεδομένων
Τι θα μάθετε:
Τι είναι τα Big Data;
Η λέξη Huge δεν είναι αρκετή για να εξηγήσει τα BigData, ορισμένα χαρακτηριστικά ταξινομούν τα δεδομένα σε BigData.
Έχουμε τρία κύρια χαρακτηριστικά του BigData, και αν κάποια δεδομένα πληρούν αυτά τα χαρακτηριστικά, τότε θα αντιμετωπίζονται ως BigData. Εγώ t είναι ο συνδυασμός των τριών V που αναφέρονται παρακάτω:
- Ενταση ΗΧΟΥ
- Ταχύτητα
- Ποικιλία
Ενταση ΗΧΟΥ : Τα δεδομένα πρέπει να είναι τεράστιου όγκου. Η Big Data έχει τη λύση να διατηρεί μεγάλο όγκο δεδομένων που βρίσκεται στο Terabyte ή στο Petabyte. Μπορούμε να εκτελέσουμε CRUD (Δημιουργία, Ανάγνωση, Ενημέρωση και Διαγραφή) λειτουργίες στο BigData εύκολα και αποτελεσματικά.
Ταχύτητα : Είναι υπεύθυνη για ταχύτερη πρόσβαση στα δεδομένα. Για παράδειγμα, Στις μέρες μας τα μέσα κοινωνικής δικτύωσης χρειάζονται γρήγορη ανταλλαγή δεδομένων μέσα σε ένα μικρό χρονικό διάστημα και το BigData είναι η καλύτερη λύση για αυτό. Ως εκ τούτου, η ταχύτητα είναι ένα άλλο χαρακτηριστικό και είναι η ταχύτητα επεξεργασίας των δεδομένων.
Ποικιλία : Στα μέσα κοινωνικής δικτύωσης, ασχολούμαστε με μη δομημένα δεδομένα, όπως ηχογραφήσεις ή βίντεο, εικόνες κ.λπ. Επίσης, διάφοροι τομείς όπως ο τραπεζικός τομέας χρειάζονται δομημένα και ημι-δομημένα δεδομένα. Το BigData είναι η λύση για τη διατήρηση και των δύο τύπων δεδομένων σε ένα μέρος.
Ποικιλία σημαίνει διαφορετικούς τύπους δεδομένων όπως Δομημένα / Μη δομημένα δεδομένα που προέρχονται από πολλές πηγές.
Δομημένα δεδομένα : Τα δεδομένα που έχουν τη σωστή δομή ή αυτή που μπορεί εύκολα να αποθηκευτεί σε μορφή πίνακα σε οποιαδήποτε σχεσιακή βάση δεδομένων όπως Oracle, SQL Server ή MySQL είναι γνωστή ως δομημένα δεδομένα. Μπορούμε να το επεξεργαστούμε ή να το αναλύσουμε εύκολα και αποτελεσματικά.
Ένα παράδειγμα δομημένων δεδομένων είναι τα δεδομένα που είναι αποθηκευμένα σε μια σχεσιακή βάση δεδομένων, τα οποία μπορούν να διαχειριστούν χρησιμοποιώντας SQL (Structured Query Language). Για παράδειγμα, Τα δεδομένα των υπαλλήλων (Όνομα, Αναγνωριστικό, Ορισμός και Μισθός) μπορούν να αποθηκευτούν σε μορφή πίνακα.
Σε μια παραδοσιακή βάση δεδομένων, μπορούμε να εκτελέσουμε λειτουργίες ή να επεξεργαστούμε μη δομημένα ή ημι-δομημένα δεδομένα μόνο αφού διαμορφωθούν ή προσαρμοστούν στη σχεσιακή βάση δεδομένων. Παραδείγματα των δομημένων δεδομένων είναι ERP, CRM κ.λπ.
Ημι-δομημένα δεδομένα: Ημι-δομημένα δεδομένα είναι τα δεδομένα που δεν είναι πλήρως μορφοποιημένα. Δεν αποθηκεύεται σε πίνακες δεδομένων ή σε καμία βάση δεδομένων. Ωστόσο, μπορούμε εύκολα να το ετοιμάσουμε και να το επεξεργαστούμε καθώς αυτά τα δεδομένα περιέχουν ετικέτες ή τιμές διαχωρισμένες με κόμμα κ.λπ. Παράδειγμα ημι-δομημένων δεδομένων είναι αρχεία XML, αρχεία CSV κ.λπ.
Μη δομημένα δεδομένα: Μη δομημένα δεδομένα είναι τα δεδομένα που δεν έχουν δομή. Μπορεί να είναι σε οποιαδήποτε μορφή, δεν υπάρχει προκαθορισμένο μοντέλο δεδομένων. Δεν μπορούμε να το αποθηκεύσουμε σε παραδοσιακές βάσεις δεδομένων. Είναι πολύπλοκο να το αναζητήσετε και να το επεξεργαστείτε.
Επίσης, ο όγκος των μη δομημένων δεδομένων είναι πολύ υψηλός. Παράδειγμα του Unstructured Data είναι το σώμα του e-mail, ήχος, βίντεο, εικόνες, έγγραφα που έχουν επιτευχθεί κ.λπ.
Προκλήσεις παραδοσιακών βάσεων δεδομένων
- Η παραδοσιακή βάση δεδομένων δεν υποστηρίζει μια ποικιλία δεδομένων, δηλαδή δεν είναι σε θέση να χειριστεί δεδομένα χωρίς δομή και ημι-δομημένα.
- Μια παραδοσιακή βάση δεδομένων είναι αργή ενώ ασχολείται με μεγάλο όγκο δεδομένων.
- Στις παραδοσιακές βάσεις δεδομένων, η επεξεργασία ή ανάλυση μεγάλου όγκου δεδομένων είναι πολύ δύσκολη.
- Μια παραδοσιακή βάση δεδομένων είναι ικανή να αποθηκεύει δεδομένα που είναι terabyte ή petabytes.
- Μια παραδοσιακή βάση δεδομένων δεν μπορεί να χειριστεί ιστορικά δεδομένα και αναφορές.
- Μετά από ένα ορισμένο χρονικό διάστημα, απαιτείται εκκαθάριση δεδομένων της βάσης δεδομένων.
- Το κόστος συντήρησης μεγάλου όγκου δεδομένων είναι πολύ υψηλό με μια παραδοσιακή βάση δεδομένων.
- Η ακρίβεια των δεδομένων είναι μικρότερη στην παραδοσιακή βάση δεδομένων καθώς δεν διατηρούνται πλήρη ιστορικά δεδομένα.
Μεγάλα δεδομέναΟφέλη από την παραδοσιακή βάση δεδομένων
- Η Big Data είναι υπεύθυνη για το χειρισμό, τη διαχείριση και την επεξεργασία διαφορετικών τύπων δεδομένων όπως Δομημένα, Ημι-δομημένα και Μη Δομημένα.
- Είναι οικονομικά αποδοτικό όσον αφορά τη διατήρηση μεγάλου όγκου δεδομένων. Λειτουργεί σε ένα κατανεμημένο σύστημα βάσης δεδομένων.
- Μπορούμε να αποθηκεύσουμε μεγάλες ποσότητες δεδομένων για μεγάλο χρονικό διάστημα χρησιμοποιώντας τεχνικές BigData. Επομένως, είναι εύκολο να χειριστείτε ιστορικά δεδομένα και να δημιουργήσετε ακριβείς αναφορές.
- Η ταχύτητα επεξεργασίας δεδομένων είναι πολύ γρήγορη και έτσι τα μέσα κοινωνικής δικτύωσης χρησιμοποιούν τεχνικές Big Data.
- Η ακρίβεια δεδομένων είναι ένα μεγάλο πλεονέκτημα των Big Data.
- Επιτρέπει στους χρήστες να λαμβάνουν αποτελεσματικές αποφάσεις για την επιχείρησή τους με βάση τα τρέχοντα και ιστορικά δεδομένα.
- Ο χειρισμός σφαλμάτων, ο έλεγχος έκδοσης και η εμπειρία των πελατών είναι πολύ αποτελεσματικές στα BigData.
Προτεινόμενη ανάγνωση => Big Data vs Big Data Analytics vs Data Science
Προκλήσεις και κίνδυνοι στα BigData
Προκλήσεις:
- Μία από τις σημαντικότερες προκλήσεις του Big Data είναι η διαχείριση μεγάλων ποσοτήτων δεδομένων. Σήμερα τα δεδομένα έρχονται σε ένα σύστημα από διάφορες πηγές με ποικιλία. Επομένως, είναι πολύ μεγάλη πρόκληση για τις εταιρείες, να το διαχειριστούν σωστά. Για παράδειγμα, Για να δημιουργήσετε μια αναφορά που περιέχει τα τελευταία 20 χρόνια δεδομένων, απαιτείται να αποθηκεύσετε και να διατηρήσετε τα τελευταία 20 χρόνια δεδομένων ενός συστήματος. Για να παρέχετε μια ακριβή αναφορά, είναι απαραίτητο να τοποθετήσετε μόνο τα σχετικά δεδομένα στο σύστημα. Δεν πρέπει να περιέχει άσχετα ή περιττά δεδομένα, διαφορετικά η διατήρηση αυτού του όγκου δεδομένων θα είναι μια μεγάλη πρόκληση για τις εταιρείες.
- Μια άλλη πρόκληση με αυτήν την τεχνολογία είναι ο συγχρονισμός διαφόρων τύπων δεδομένων. Όπως όλοι γνωρίζουμε ότι τα Big Data υποστηρίζουν δομημένα, μη δομημένα και ημι-δομημένα δεδομένα που προέρχονται από διαφορετικές πηγές, ο συγχρονισμός τους και η συνεκτικότητα των δεδομένων είναι πολύ δύσκολη.
- Η επόμενη πρόκληση που αντιμετωπίζουν οι εταιρείες είναι το κενό των εμπειρογνωμόνων που μπορούν να βοηθήσουν και να εφαρμόσουν τα θέματα που αντιμετωπίζουν στο σύστημα. Υπάρχει ένα μεγάλο κενό στο ταλέντο σε αυτόν τον τομέα.
- Ο χειρισμός της πτυχής συμμόρφωσης είναι ακριβός.
- Η συλλογή δεδομένων, η συγκέντρωση, η αποθήκευση, η ανάλυση και η αναφορά του BigData έχει τεράστιο κόστος. Ο οργανισμός πρέπει να είναι σε θέση να διαχειριστεί όλα αυτά τα κόστη.
Κίνδυνοι:
- Μπορεί να χειριστεί μια ποικιλία δεδομένων, αλλά εάν οι εταιρείες δεν μπορούν να κατανοήσουν σωστά τις απαιτήσεις και να ελέγξουν την πηγή των δεδομένων, τότε θα παρέχει ελαττωματικά αποτελέσματα. Ως αποτέλεσμα, θα χρειαστεί πολύς χρόνος και χρήμα για να διερευνήσει και να διορθώσει τα αποτελέσματα.
- Η ασφάλεια δεδομένων είναι ένας άλλος κίνδυνος με τα BigData. Με υψηλό όγκο δεδομένων, υπάρχουν περισσότερες πιθανότητες κάποιος να τα κλέψει. Οι χάκερ δεδομένων ενδέχεται να κλέψουν και να πουλήσουν σημαντικές πληροφορίες (συμπεριλαμβανομένων ιστορικών δεδομένων) της εταιρείας.
- Επίσης, το απόρρητο δεδομένων είναι ένας άλλος κίνδυνος για τα BigData. Εάν θέλουμε να διασφαλίσουμε τα προσωπικά και ευαίσθητα δεδομένα από τους χάκερ, τότε θα πρέπει να προστατεύονται και πρέπει να περνούν όλες τις πολιτικές απορρήτου.
Μεγάλες Τεχνολογίες Δεδομένων
Ακολουθούν οι τεχνολογίες που μπορούν να χρησιμοποιηθούν για τη διαχείριση Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Χωρίς SQL
- Κυψέλη
- Κουτάλα
- BigData στο Excel
Μια λεπτομερής περιγραφή αυτών των τεχνολογιών θα καλυφθεί στα επερχόμενα σεμινάρια μας.
Εργαλεία για τη χρήση μεγάλων εννοιών δεδομένων
Παρατίθενται παρακάτω τα εργαλεία ανοιχτού κώδικα που μπορούν να βοηθήσουν στη χρήση εννοιών Big Data:
# 1) Apache Hadoop
# 2) Lumify
# 3) Καταιγίδα Apache
# 4) Apache Σαμόα
# 5) Αναζήτηση ελαστικών
# 6) MongoDB
# 7) Σύστημα HPCC BigData
Εφαρμογές Big Data
Ακολουθούν οι τομείς όπου χρησιμοποιείται:
- ΤΡΑΠΕΖΙΚΕΣ ΕΡΓΑΣΙΕΣ
- ΜΜΕ και ψυχαγωγία
- Πάροχοι υπηρεσιών υγείας
- ΑΣΦΑΛΙΣΗ
- Εκπαίδευση
- Λιανεμποριο
- Βιομηχανοποίηση
- Κυβέρνηση
BigData και αποθήκη δεδομένων
Το Data Warehouse είναι μια βασική ιδέα που πρέπει να κατανοήσουμε πριν συζητήσουμε το Hadoop ή το BigData Testing.
Ας κατανοήσουμε το Data Warehouse από ένα παράδειγμα σε πραγματικό χρόνο. Για παράδειγμα , υπάρχει μια εταιρεία που έχει ιδρύσει τα καταστήματά της σε τρεις διαφορετικές χώρες, ας υποθέσουμε ένα υποκατάστημα στην Ινδία, την Αυστραλία και την Ιαπωνία.
Σε κάθε υποκατάστημα, ολόκληρα τα δεδομένα πελατών αποθηκεύονται στην τοπική βάση δεδομένων. Αυτές οι τοπικές βάσεις δεδομένων μπορούν να είναι κανονικά κλασικά RDBMS όπως Oracle ή MySQL ή SQL Server κ.λπ. και όλα τα δεδομένα πελατών θα αποθηκεύονται σε αυτές καθημερινά.
Τώρα, κάθε τριμηνιαία, εξαμηνιαία ή ετήσια βάση, ο οργανισμός θέλει να αναλύσει αυτά τα δεδομένα για την ανάπτυξη των επιχειρήσεων. Για να κάνει το ίδιο, ο οργανισμός θα συλλέξει όλα αυτά τα δεδομένα από πολλές πηγές και στη συνέχεια θα τα συγκεντρώσει σε ένα μέρος και αυτό το μέρος ονομάζεται 'Αποθήκη δεδομένων'.
Το Data Warehouse είναι ένα είδος βάσης δεδομένων που περιέχει όλα τα δεδομένα που αντλούνται από πολλές πηγές ή πολλαπλούς τύπους βάσεων δεδομένων μέσω του «ETL» (Ποιο είναι το ΕΙΝΑΙ εξαγωγή, Τ ransform και μεγάλο oad) διαδικασία. Μόλις τα δεδομένα είναι έτοιμα στην αποθήκη δεδομένων, μπορούμε να τα χρησιμοποιήσουμε για αναλυτικούς σκοπούς.
Έτσι, για ανάλυση, μπορούμε να δημιουργήσουμε αναφορές από τα διαθέσιμα δεδομένα στην Αποθήκη δεδομένων. Πολλαπλά γραφήματα και αναφορές μπορούν να δημιουργηθούν χρησιμοποιώντας τα Εργαλεία Επιχειρηματικής Ευφυΐας.
Απαιτούμε Data Warehouse για αναλυτικούς σκοπούς για την ανάπτυξη της επιχείρησης και τη λήψη κατάλληλων αποφάσεων για τους οργανισμούς.
Τρία πράγματα συμβαίνουν σε αυτήν τη διαδικασία, το πρώτο είναι ότι έχουμε τραβήξει τα δεδομένα από πολλές πηγές και τα τοποθετήσαμε σε μια μοναδική τοποθεσία που είναι η Data Warehouse.
Εδώ χρησιμοποιούμε τη διαδικασία 'ETL', επομένως κατά τη φόρτωση των δεδομένων από πολλές πηγές σε ένα μέρος, θα τα εφαρμόσουμε στις ρίζες μετασχηματισμού και στη συνέχεια μπορούμε να χρησιμοποιήσουμε διάφορα είδη εργαλείων ETL εδώ.
Μόλις τα δεδομένα είναι έτοιμα στην αποθήκη δεδομένων, μπορούμε να δημιουργήσουμε διάφορες αναφορές για την ανάλυση των επιχειρηματικών δεδομένων χρησιμοποιώντας τα Εργαλεία Business Intelligence (BI) ή τα ονομάζουμε επίσης Εργαλεία αναφοράς. Τα εργαλεία όπως το Tableau ή το Cognos μπορούν να χρησιμοποιηθούν για τη δημιουργία των Αναφορών και του DashBoards για την ανάλυση των δεδομένων για τις επιχειρήσεις.
OLTP και OLAP
Ας καταλάβουμε τι είναι το OLTP και τι είναι το OLAP;
Οι βάσεις δεδομένων που διατηρούνται τοπικά και χρησιμοποιούνται για συναλλακτικούς σκοπούς καλούνται OLTP, δηλαδή Διαδικτυακή επεξεργασία συναλλαγών. Οι καθημερινές συναλλαγές θα αποθηκευτούν εδώ και θα ενημερωθούν αμέσως και γι 'αυτό τις ονομάσαμε Σύστημα OLTP.
Εδώ χρησιμοποιούμε παραδοσιακές βάσεις δεδομένων, έχουμε πολλούς πίνακες και υπάρχουν σχέσεις, επομένως όλα σχεδιάζονται συστηματικά σύμφωνα με τη βάση δεδομένων. Δεν χρησιμοποιούμε αυτά τα δεδομένα για αναλυτικούς σκοπούς. Εδώ, μπορούμε να χρησιμοποιήσουμε κλασικές βάσεις δεδομένων RDMBS όπως Oracle, MySQL, SQL Server κ.λπ.
Όταν φτάνουμε στο τμήμα Data Warehouse, χρησιμοποιούμε Teradata ή Hadoop Systems, τα οποία είναι επίσης ένα είδος βάσης δεδομένων, αλλά τα δεδομένα σε ένα DataWarehouse χρησιμοποιούνται συνήθως για αναλυτικούς σκοπούς και ονομάζονται ΟΛΑΠ ή Online Αναλυτική Επεξεργασία.
Εδώ, τα δεδομένα μπορούν να ενημερώνονται σε τριμηνιαία, εξαμηνιαία ή ετήσια βάση. Μερικές φορές τα δεδομένα ενημερώνονται επίσης 'Offerly', όπου Offerly σημαίνει ότι τα δεδομένα ενημερώνονται και ανακτώνται για ανάλυση ανά απαιτήσεις πελάτη.
Επίσης, τα δεδομένα για ανάλυση δεν ενημερώνονται καθημερινά επειδή θα λάβουμε τα δεδομένα από πολλές πηγές, σε προγραμματισμένη βάση και μπορούμε να εκτελέσουμε αυτήν την εργασία ETL. Έτσι λειτουργεί το Διαδικτυακό Σύστημα Αναλυτικής Επεξεργασίας.
Εδώ και πάλι, τα Εργαλεία BI ή τα Εργαλεία αναφορών μπορούν να δημιουργήσουν αναφορές, καθώς και πίνακες ελέγχου, και βάσει αυτού οι επιχειρηματίες θα λάβουν τις αποφάσεις για τη βελτίωση της επιχείρησής τους.
Πού μπαίνει το BigData στην εικόνα;
Το BigData είναι τα δεδομένα που είναι πέρα από την ικανότητα αποθήκευσης και επεξεργασίας συμβατικών βάσεων δεδομένων και είναι σε μορφή Δομημένη και Μη Δομημένη, οπότε δεν μπορεί να αντιμετωπιστεί από τοπικά συστήματα RDBMS.
τηλεόραση anime όλα δωρεάν για εσάς
Αυτό το είδος δεδομένων θα δημιουργηθεί σε TeraBytes (TB) ή PetaBytes (PB) ή πέραν αυτού και αυξάνεται ραγδαία στις μέρες μας. Υπάρχουν πολλές πηγές για τη λήψη αυτού του είδους δεδομένων όπως το Facebook, το WhatsApp (που σχετίζονται με την κοινωνική δικτύωση). Amazon, Flipkart που σχετίζεται με το Ηλεκτρονικό Εμπόριο. Το Gmail, το Yahoo, το Rediff σχετίζονται με τα ηλεκτρονικά ταχυδρομεία και το Google και άλλες μηχανές αναζήτησης. Λαμβάνουμε επίσης bigdata από κινητά όπως δεδομένα SMS, εγγραφή κλήσεων, αρχεία καταγραφής κλήσεων κ.λπ.
συμπέρασμα
Τα μεγάλα δεδομένα είναι η λύση για τον αποτελεσματικό και ασφαλή χειρισμό μεγάλων ποσοτήτων δεδομένων. Είναι επίσης υπεύθυνο για τη διατήρηση ιστορικών δεδομένων. Υπάρχουν πολλά πλεονεκτήματα αυτής της τεχνολογίας και γι 'αυτό κάθε εταιρεία θέλει να στραφεί στα Big data
Συντάκτης: Vaishali Tarey, Technical Lead @ Syntel
Συνιστώμενη ανάγνωση
- Tutorial Data Mart - Τύποι, παραδείγματα & υλοποίηση του Data Mart
- Κορυφαία 10 εργαλεία σχεδίασης βάσεων δεδομένων για τη δημιουργία σύνθετων μοντέλων δεδομένων
- 20+ MongoDB Tutorial για αρχάριους: Δωρεάν μαθήματα MongoDB
- Τι είναι μια λίμνη δεδομένων | Data Warehouse εναντίον Data Lake
- Κορυφαία 10 εργαλεία δοκιμής και επικύρωσης δομημένων δεδομένων για SEO
- Διαστατικό μοντέλο δεδομένων στην αποθήκη δεδομένων - Εκμάθηση με παραδείγματα
- Εξόρυξη δεδομένων: Διαδικασία, τεχνικές και σημαντικά ζητήματα στην ανάλυση δεδομένων
- Πώς να εκτελέσετε δοκιμές βάσει δεδομένων στο SoapUI Pro - SoapUI Tutorial # 14