weka explorer visualization
Αυτό το σεμινάριο εξηγεί πώς να εκτελέσετε την Οπτικοποίηση δεδομένων, την Ανάλυση συμπλέγματος Κ-μέσων και την Εξόρυξη κανόνων σύνδεσης χρησιμοποιώντας την Εξερεύνηση WEKA:
Στο Προηγούμενο σεμινάριο , μάθαμε για το WEKA Dataset, Classifier και J48 Algorithm for Decision Tree.
Όπως έχουμε ξαναδεί, το WEKA είναι ένα εργαλείο εξόρυξης δεδομένων ανοιχτού κώδικα που χρησιμοποιείται από πολλούς ερευνητές και μαθητές για την εκτέλεση πολλών εργασιών μηχανικής μάθησης. Οι χρήστες μπορούν επίσης να δημιουργήσουν τις μεθόδους μηχανικής εκμάθησης και να πραγματοποιήσουν πειράματα σε δείγματα συνόλων δεδομένων που παρέχονται στον κατάλογο WEKA.
Η οπτικοποίηση δεδομένων στο WEKA μπορεί να πραγματοποιηθεί με τη χρήση δειγμάτων συνόλων δεδομένων ή συνόλων δεδομένων από χρήστη σε μορφή .arff, .csv.
=> Διαβάστε ολόκληρη τη σειρά εκπαίδευσης μηχανικής εκμάθησης
Το Association Rule Mining εκτελείται χρησιμοποιώντας τον αλγόριθμο Apriori. Είναι ο μόνος αλγόριθμος που παρέχεται από την WEKA για την εκτέλεση συχνών εξόρυξης μοτίβων.
Υπάρχουν πολλοί αλγόριθμοι στο WEKA για την εκτέλεση Cluster Analysis όπως FartherestFirst, FilteredCluster και HierachicalCluster κ.λπ. Από αυτά, θα χρησιμοποιήσουμε το SimpleKmeans, το οποίο είναι η απλούστερη μέθοδος ομαδοποίησης.
Τι θα μάθετε:
- Εξόρυξη κανόνα συσχέτισης με χρήση του WEKA Explorer
- Αλγόριθμος K-σημαίνει Χρήση του WEKA Explorer
- Εφαρμογή οπτικοποίησης δεδομένων χρησιμοποιώντας το WEKA
- συμπέρασμα
Εξόρυξη κανόνα συσχέτισης με χρήση του WEKA Explorer
Ας δούμε πώς να εφαρμόσουμε το Association Rule Mining χρησιμοποιώντας τον WEKA Explorer.
Εξόρυξη κανόνα σύνδεσης
Αναπτύχθηκε και σχεδιάστηκε από τους Srikant και Aggarwal το 1994. Μας βοηθά να βρούμε μοτίβα στα δεδομένα. Είναι μια διαδικασία εξόρυξης δεδομένων που βρίσκει χαρακτηριστικά που εμφανίζονται μαζί ή χαρακτηριστικά που σχετίζονται.
το καλύτερο δωρεάν πρόγραμμα λήψης youtube για υπολογιστή
Οι εφαρμογές των κανόνων σύνδεσης περιλαμβάνουν Ανάλυση Καλαθιού Αγοράς, για την ανάλυση των αντικειμένων που αγοράστηκαν σε ένα μόνο καλάθι. Cross Marketing, για να συνεργαζόμαστε με άλλες επιχειρήσεις που αυξάνουν την αξία των προϊόντων μας, όπως ο έμπορος οχημάτων και η Oil Company.
Οι κανόνες συσχέτισης εξαλείφονται αφού βρεθούν συχνά σύνολα στοιχείων σε ένα μεγάλο σύνολο δεδομένων. Αυτά τα σύνολα δεδομένων εντοπίζονται χρησιμοποιώντας αλγόριθμους εξόρυξης όπως το Apriori και το FP Growth. Συχνή εξόρυξη στοιχείων εξόρυξης στοιχείων χρησιμοποιώντας μέτρα υποστήριξης και εμπιστοσύνης.
Υποστήριξη και εμπιστοσύνη
Υποστήριξη μετρά την πιθανότητα να αγοράζονται δύο είδη μαζί σε μία μόνο συναλλαγή, όπως το ψωμί και το βούτυρο. Αυτοπεποίθηση είναι ένα μέτρο που δηλώνει την πιθανότητα να αγοράζονται δύο αντικείμενα το ένα μετά το άλλο, αλλά όχι μαζί, όπως το λογισμικό προστασίας από ιούς φορητών υπολογιστών και υπολογιστών.
Η ελάχιστη υποστήριξη κατωφλίου και οι ελάχιστες τιμές εμπιστοσύνης κατωφλίου υποτίθεται ότι κλαδεύουν τις συναλλαγές και ανακαλύπτουν το πιο συχνά εμφανιζόμενο σύνολο στοιχείων.
Εφαρμογή με χρήση του WEKA Explorer
Το WEKA περιέχει μια εφαρμογή του Αλγόριθμος Apriori για την εκμάθηση κανόνων σύνδεσης. Το Apriori λειτουργεί μόνο με δυαδικά χαρακτηριστικά, κατηγορηματικά δεδομένα (ονομαστικά δεδομένα), επομένως, εάν το σύνολο δεδομένων περιέχει οποιεσδήποτε αριθμητικές τιμές, μετατρέψτε τα σε ονομαστικά πρώτα.
Η Apriori ανακαλύπτει όλους τους κανόνες με ελάχιστο όριο υποστήριξης και εμπιστοσύνης.
Ακολουθήστε τα παρακάτω βήματα:
# 1) Προετοιμάστε ένα σύνολο δεδομένων αρχείου excel και ονομάστε το ως ' apriori.csv '
#δύο) Ανοίξτε το WEKA Explorer και στην καρτέλα Preprocess επιλέξτε 'apriori.csv' αρχείο.
# 3) Το αρχείο φορτώνεται τώρα στην Εξερεύνηση WEKA.
# 4) Αφαιρέστε το πεδίο Συναλλαγών επιλέγοντας το πλαίσιο ελέγχου και κάνοντας κλικ στο Αφαίρεση όπως φαίνεται στην παρακάτω εικόνα. Τώρα αποθηκεύστε το αρχείο ως 'aprioritest.arff'.
# 5) Μεταβείτε στην καρτέλα Associate. Οι κανόνες apriori μπορούν να εξορυχθούν από εδώ.
# 6) Κάντε κλικ στο Επιλογή για να ορίσετε τις παραμέτρους υποστήριξης και εμπιστοσύνης. Οι διάφορες παράμετροι που μπορούν να οριστούν εδώ είναι:
- ' lowerBoundMinSupport ' και ' άνωBoundMinSupport ', Αυτό είναι το διάστημα επιπέδου υποστήριξης στο οποίο θα λειτουργεί ο αλγόριθμος μας.
- Δέλτα είναι η αύξηση στην υποστήριξη. Σε αυτήν την περίπτωση, 0,05 είναι η αύξηση της υποστήριξης από 0,1 έως 1.
- τύπος μέτρησης μπορεί να είναι «Εμπιστοσύνη», «Αύξηση», «Μόχλευση» και «Πεποίθηση». Αυτό μας λέει πώς κατατάσσουμε τους κανόνες συσχέτισης. Γενικά, επιλέγεται η εμπιστοσύνη.
- αριθμοί λέει τον αριθμό των κανόνων συσχέτισης που πρέπει να εξορυχθούν Από προεπιλογή, ορίζεται ως 10.
- επίπεδο σημασίας απεικονίζει ποια είναι η σημασία του επιπέδου εμπιστοσύνης.
# 7) Το πλαίσιο κειμένου δίπλα στο κουμπί επιλογής, δείχνει το ' Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ', Που απεικονίζει τους συνοπτικούς κανόνες που έχουν οριστεί για τον αλγόριθμο στην καρτέλα ρυθμίσεων.
# 8) Κάντε κλικ στο κουμπί Έναρξη. Οι κανόνες συσχέτισης δημιουργούνται στο δεξί πλαίσιο. Αυτό το πάνελ αποτελείται από 2 ενότητες. Πρώτον είναι ο αλγόριθμος, το σύνολο δεδομένων που επιλέχθηκε για εκτέλεση. Το δεύτερο μέρος δείχνει τις πληροφορίες για το Apriori.
Ας κατανοήσουμε τις πληροφορίες εκτέλεσης στο δεξί πλαίσιο:
- Το Σχέδιο μας χρησιμοποίησε Apriori.
- Παρουσιάσεις και χαρακτηριστικά: Έχει 6 παρουσίες και 4 χαρακτηριστικά.
- Η ελάχιστη υποστήριξη και η ελάχιστη εμπιστοσύνη είναι 0,4 και 0,9 αντίστοιχα. Από 6 παρουσίες, 2 παρουσίες βρίσκονται με ελάχιστη υποστήριξη,
- Ο αριθμός των κύκλων που εκτελούνται για τον κανόνα της εξορυκτικής ένωσης είναι 12.
- Τα μεγάλα σετ αντικειμένων που δημιουργούνται είναι 3: L (1), L (2), L (3) αλλά αυτά δεν κατατάσσονται καθώς τα μεγέθη τους είναι 7, 11 και 5 αντίστοιχα.
- Οι κανόνες που βρέθηκαν κατατάσσονται. Η ερμηνεία αυτών των κανόνων έχει ως εξής:
- Βούτυρο T 4 => Μπύρα F 4: σημαίνει από 6, 4 περιπτώσεις που δείχνουν ότι για το βούτυρο αληθινό, η μπύρα είναι ψευδής. Αυτό δίνει μια ισχυρή σχέση. Το επίπεδο εμπιστοσύνης είναι 0,1.
Παραγωγή
Οι κανόνες συσχέτισης μπορούν να εξαλειφθούν χρησιμοποιώντας το WEKA Explorer με τον αλγόριθμο Apriori. Αυτός ο αλγόριθμος μπορεί να εφαρμοστεί σε όλους τους τύπους συνόλων δεδομένων που είναι διαθέσιμοι στον κατάλογο WEKA καθώς και σε άλλα σύνολα δεδομένων που έχουν δημιουργηθεί από τον χρήστη. Η υποστήριξη και η εμπιστοσύνη και άλλες παράμετροι μπορούν να ρυθμιστούν χρησιμοποιώντας το παράθυρο Ρύθμιση του αλγορίθμου.
Αλγόριθμος K-σημαίνει Χρήση του WEKA Explorer
Ας δούμε πώς να εφαρμόσουμε τον αλγόριθμο Κ-μέσων για ομαδοποίηση χρησιμοποιώντας το WEKA Explorer.
Τι είναι η ανάλυση συμπλέγματος
Οι αλγόριθμοι συμπλέγματος είναι αλγόριθμοι μάθησης χωρίς επίβλεψη που χρησιμοποιούνται για τη δημιουργία ομάδων δεδομένων με παρόμοια χαρακτηριστικά. Συγκεντρώνει αντικείμενα με ομοιότητες σε ομάδες και υποομάδες, οδηγώντας έτσι στο διαχωρισμό των συνόλων δεδομένων. Η ανάλυση συμπλέγματος είναι η διαδικασία κατανομής συνόλων δεδομένων σε υποσύνολα. Αυτά τα υποσύνολα ονομάζονται συμπλέγματα και το σύνολο συστάδων ονομάζεται συμπλέγματα.
Η ανάλυση συμπλέγματος χρησιμοποιείται σε πολλές εφαρμογές όπως η αναγνώριση εικόνας, η αναγνώριση προτύπων, η αναζήτηση στο διαδίκτυο και η ασφάλεια, στην επιχειρηματική ευφυΐα όπως η ομαδοποίηση πελατών με παρόμοιες προτιμήσεις.
Τι είναι το K-σημαίνει Ομαδοποίηση
Το K σημαίνει ότι το clustering είναι ο απλούστερος αλγόριθμος ομαδοποίησης. Στον αλγόριθμο K-Clustering, το σύνολο δεδομένων χωρίζεται σε K-clusters. Μια αντικειμενική συνάρτηση χρησιμοποιείται για την εύρεση της ποιότητας των κατατμήσεων έτσι ώστε παρόμοια αντικείμενα να βρίσκονται σε ένα σύμπλεγμα και διαφορετικά αντικείμενα σε άλλες ομάδες.
Σε αυτήν τη μέθοδο, το κέντρο του συμπλέγματος βρίσκεται να αντιπροσωπεύει ένα σύμπλεγμα. Το κεντροειδές λαμβάνεται ως το κέντρο του συμπλέγματος το οποίο υπολογίζεται ως η μέση τιμή των σημείων εντός του συμπλέγματος. Τώρα η ποιότητα της ομαδοποίησης βρίσκεται μετρώντας την Ευκλείδεια απόσταση μεταξύ του σημείου και του κέντρου. Αυτή η απόσταση πρέπει να είναι μέγιστη.
Πώς λειτουργεί ο αλγόριθμος συμπλέγματος K-Mean
Βήμα 1: Επιλέξτε μια τιμή K όπου K είναι ο αριθμός των συστάδων.
Βήμα 2: Επαναλάβετε κάθε σημείο και αντιστοιχίστε το σύμπλεγμα που έχει το πλησιέστερο κέντρο σε αυτό. Όταν κάθε στοιχείο επαναλαμβάνεται τότε υπολογίστε το κεντροειδές όλων των συστάδων.
Βήμα # 3: Επαναλάβετε κάθε στοιχείο από το σύνολο δεδομένων και υπολογίστε την Ευκλείδεια απόσταση μεταξύ του σημείου και του κεντροειδούς κάθε συμπλέγματος. Εάν υπάρχει κάποιο σημείο στο σύμπλεγμα που δεν είναι πλησιέστερο σε αυτό, επανατοποθετήστε το σημείο στο πλησιέστερο σύμπλεγμα και αφού το εκτελέσετε σε όλα τα σημεία του συνόλου δεδομένων, υπολογίστε ξανά το κέντρο του κάθε συμπλέγματος.
Βήμα # 4: Εκτελέστε το Βήμα # 3 μέχρι να μην υπάρξει νέα ανάθεση μεταξύ των δύο διαδοχικών επαναλήψεων.
K-σημαίνει Ομαδοποίηση υλοποίησης με χρήση του WEKA
Τα βήματα για την εφαρμογή χρησιμοποιώντας το Weka είναι τα εξής:
# 1) Ανοίξτε την Εξερεύνηση WEKA και κάντε κλικ στο Άνοιγμα αρχείου στην καρτέλα Προεπεξεργασία. Επιλέξτε το σύνολο δεδομένων 'vote.arff'.
#δύο) Μεταβείτε στην καρτέλα 'Σύμπλεγμα' και κάντε κλικ στο κουμπί 'Επιλογή'. Επιλέξτε τη μέθοδο συμπλέγματος ως 'SimpleKMeans'.
# 3) Επιλέξτε Ρυθμίσεις και, στη συνέχεια, ορίστε τα ακόλουθα πεδία:
- Λειτουργία απόστασης ως Ευκλείδης
- Ο αριθμός των συστάδων ως 6. Με μεγαλύτερο αριθμό συστάδων, το άθροισμα των τετραγώνων σφαλμάτων θα μειωθεί.
- Σπόρος ως 10. από
Κάντε κλικ στο Ok και ξεκινήστε τον αλγόριθμο.
# 4) Κάντε κλικ στο Έναρξη στον αριστερό πίνακα. Ο αλγόριθμος εμφανίζει αποτελέσματα στη λευκή οθόνη. Ας αναλύσουμε τις πληροφορίες εκτέλεσης:
- Το σχήμα, η σχέση, οι παρουσίες και τα χαρακτηριστικά περιγράφουν την ιδιότητα του συνόλου δεδομένων και τη μέθοδο ομαδοποίησης που χρησιμοποιείται. Σε αυτήν την περίπτωση, το σύνολο δεδομένων vote.arff έχει 435 παρουσίες και 13 χαρακτηριστικά.
- Με το σύμπλεγμα Kmeans, ο αριθμός των επαναλήψεων είναι 5.
- Το άθροισμα του τετραγωνικού σφάλματος είναι 1098.0. Αυτό το σφάλμα θα μειωθεί με την αύξηση του αριθμού των συστάδων.
- Οι 5 τελικές συστάδες με κεντροειδή αντιπροσωπεύονται με τη μορφή πίνακα. Στην περίπτωσή μας, τα Centroids των συστάδων είναι 168.0, 47.0, 37.0, 122.0.33.0 και 28.0.
- Οι παρουσίες συμπλέγματος αντιπροσωπεύουν τον αριθμό και το ποσοστό των συνολικών εμφανίσεων που εμπίπτουν στο σύμπλεγμα.
# 5) Επιλέξτε 'Classes to Clusters Evaluations' και κάντε κλικ στο Start.
Ο αλγόριθμος θα εκχωρήσει την ετικέτα τάξης στο σύμπλεγμα. Το σύμπλεγμα 0 αντιπροσωπεύει δημοκρατικό και το σύμπλεγμα 3 αντιπροσωπεύει δημοκράτη. Η περίπτωση εσφαλμένης ομαδοποίησης είναι 39,77%, η οποία μπορεί να μειωθεί αγνοώντας τα ασήμαντα χαρακτηριστικά.
# 6) Για να αγνοήσετε τα ασήμαντα χαρακτηριστικά. Κάντε κλικ στο κουμπί 'Παράβλεψη χαρακτηριστικών' και επιλέξτε τα χαρακτηριστικά που θα αφαιρεθούν.
# 7) Χρησιμοποιήστε την καρτέλα 'Οπτικοποίηση' για να απεικονίσετε το αποτέλεσμα του αλγορίθμου συμπλέγματος. Μεταβείτε στην καρτέλα και κάντε κλικ σε οποιοδήποτε πλαίσιο. Μετακινήστε το Jitter στο μέγιστο.
- Ο άξονας Χ και ο άξονας Υ αντιπροσωπεύουν το χαρακτηριστικό.
- Το μπλε χρώμα αντιπροσωπεύει δημοκρατική ετικέτα τάξης και το κόκκινο χρώμα αντιπροσωπεύει δημοκρατική ετικέτα τάξης.
- Το Jitter χρησιμοποιείται για την προβολή συστάδων.
- Κάντε κλικ στο πλαίσιο στη δεξιά πλευρά του παραθύρου για να αλλάξετε το χαρακτηριστικό x συντεταγμένων και να προβάλετε τη συγκέντρωση σε σχέση με άλλα χαρακτηριστικά.
Παραγωγή
Το K σημαίνει ότι το clustering είναι μια απλή μέθοδος ανάλυσης συμπλέγματος. Ο αριθμός των συστάδων μπορεί να οριστεί χρησιμοποιώντας την καρτέλα ρύθμισης. Το κεντροειδές κάθε συστάδας υπολογίζεται ως ο μέσος όρος όλων των σημείων εντός των συστάδων. Με την αύξηση του αριθμού των συστάδων, μειώνεται το άθροισμα των τετραγωνικών σφαλμάτων. Τα αντικείμενα μέσα στο σύμπλεγμα παρουσιάζουν παρόμοια χαρακτηριστικά και ιδιότητες. Οι συστάδες αντιπροσωπεύουν τις ετικέτες κλάσης.
Εφαρμογή οπτικοποίησης δεδομένων χρησιμοποιώντας το WEKA
Οπτικοποίηση δεδομένων
Η μέθοδος αναπαράστασης δεδομένων μέσω γραφημάτων και γραφημάτων με σκοπό την κατανόηση των δεδομένων με σαφήνεια είναι η οπτικοποίηση δεδομένων.
Υπάρχουν πολλοί τρόποι αναπαραγωγής δεδομένων. Μερικά από αυτά έχουν ως εξής:
προηγμένες ερωτήσεις και απαντήσεις συνέντευξης sql pdf
# 1) Οπτικοποίηση προσανατολισμένη στα pixel: Εδώ το χρώμα του pixel αντιπροσωπεύει την τιμή διάστασης. Το χρώμα του pixel αντιπροσωπεύει τις αντίστοιχες τιμές.
# 2) Γεωμετρική αναπαράσταση: Τα πολυδιάστατα σύνολα δεδομένων αντιπροσωπεύονται σε διαγράμματα 2D, 3D και 4D.
# 3) Οπτικοποίηση βάσει εικονιδίου: Τα δεδομένα απεικονίζονται χρησιμοποιώντας τα πρόσωπα και τις φιγούρες του Chernoff. Τα πρόσωπα του Τσέρνοφ χρησιμοποιούν την ικανότητα του ανθρώπινου νου να αναγνωρίζει τα χαρακτηριστικά του προσώπου και τις διαφορές μεταξύ τους. Η φιγούρα χρησιμοποιεί 5 φιγούρες για την αναπαραγωγή πολυδιάστατων δεδομένων.
# 4) Ιεραρχική οπτικοποίηση δεδομένων: Τα σύνολα δεδομένων απεικονίζονται χρησιμοποιώντας χάρτες. Αντιπροσωπεύει ιεραρχικά δεδομένα ως ένα σύνολο ένθετων τριγώνων.
Οπτικοποίηση δεδομένων με χρήση του WEKA Explorer
Η οπτικοποίηση δεδομένων χρησιμοποιώντας το WEKA γίνεται στο σύνολο δεδομένων IRIS.arff.
Τα βήματα που ακολουθούν είναι τα εξής:
# 1) Μεταβείτε στην καρτέλα Preprocess και ανοίξτε το σύνολο δεδομένων IRIS.arff.
#δύο) Το σύνολο δεδομένων έχει 4 χαρακτηριστικά και 1 ετικέτα κλάσης. Τα χαρακτηριστικά σε αυτό το σύνολο δεδομένων είναι:
- Μήκος Τύπος-αριθμητικός
- Sepalwidth: Τύπος- αριθμητικός
- Μήκος πέταλου: Τύπος-αριθμητικός
- Petalwidth: Τύπος-αριθμητικός
- Τάξη: Τύπος-ονομαστική
# 3) Για να οπτικοποιήσετε το σύνολο δεδομένων, μεταβείτε στην καρτέλα Οπτικοποίηση. Η καρτέλα εμφανίζει τα χαρακτηριστικά του πίνακα. Τα χαρακτηριστικά του συνόλου δεδομένων επισημαίνονται στον άξονα x και στον άξονα y ενώ οι παρουσίες είναι γραφικές παραστάσεις. Το πλαίσιο με το χαρακτηριστικό του άξονα x και το χαρακτηριστικό του άξονα y μπορεί να διευρυνθεί.
# 4) Κάντε κλικ στο πλαίσιο του οικοπέδου για μεγέθυνση. Για παράδειγμα, x: μήκος petall και y: πλάτος πέταλου. Οι ετικέτες τάξης παρουσιάζονται σε διαφορετικά χρώματα.
- Ετικέτα κλάσης- Iris-setosa: μπλε χρώμα
- Ετικέτα κλάσης- Ίρις-versicolor: κόκκινο
- Κατηγορία ετικέτα-Iris-virginica-green
Αυτά τα χρώματα μπορούν να αλλάξουν. Για να αλλάξετε το χρώμα, κάντε κλικ στην ετικέτα τάξης στο κάτω μέρος, θα εμφανιστεί ένα παράθυρο χρώματος.
# 5) Κάντε κλικ στην παρουσία που αντιπροσωπεύεται από το «x» στην πλοκή. Θα δώσει τις λεπτομέρειες της παρουσίας. Για παράδειγμα:
- Αριθμός παρουσίας: 91
- Μήκος: 5.5
- Sepalwidth: 2.6
- Μήκος πέταλου: 4.4
- Petalwidth: 1.2
- Τάξη: Ίρις-versicolor
Μερικά από τα σημεία στην πλοκή φαίνονται πιο σκοτεινά από άλλα σημεία. Αυτά τα σημεία αντιπροσωπεύουν 2 ή περισσότερες εμφανίσεις με την ίδια ετικέτα κλάσης και την ίδια τιμή χαρακτηριστικών που απεικονίζονται στο γράφημα, όπως πλάτος πλάτους και μήκος petall.
Το παρακάτω σχήμα αντιπροσωπεύει ένα σημείο με 2 πληροφορίες παρουσίας.
# 6) Τα χαρακτηριστικά του άξονα X και Y μπορούν να αλλάξουν από το δεξί πλαίσιο στο γράφημα Visualize. Ο χρήστης μπορεί να δει διαφορετικές γραφικές παραστάσεις.
# 7) Το Jitter χρησιμοποιείται για να προσθέσει τυχαιότητα στην πλοκή. Μερικές φορές τα σημεία αλληλεπικαλύπτονται. Με το jitter, τα πιο σκοτεινά σημεία αντιπροσωπεύουν πολλές εμφανίσεις.
# 8) Για να έχετε μια πιο ξεκάθαρη προβολή του συνόλου δεδομένων και να καταργήσετε τα ακραία σημεία, ο χρήστης μπορεί να επιλέξει μια παρουσία από το αναπτυσσόμενο μενού. Κάντε κλικ στο αναπτυσσόμενο μενού 'select instance'. Επιλέξτε 'ορθογώνιο'. Με αυτό, ο χρήστης θα μπορεί να επιλέξει σημεία στο γράφημα σχεδιάζοντας ένα ορθογώνιο.
# 9) Κάντε κλικ στο 'Υποβολή'. Μόνο τα επιλεγμένα σημεία συνόλου δεδομένων θα εμφανίζονται και τα άλλα σημεία θα εξαιρούνται από το γράφημα.
Το παρακάτω σχήμα δείχνει τα σημεία από το επιλεγμένο ορθογώνιο σχήμα. Το οικόπεδο αντιπροσωπεύει σημεία με μόνο 3 ετικέτες κατηγορίας. Ο χρήστης μπορεί να κάνει κλικ στο 'Αποθήκευση' για να αποθηκεύσει το σύνολο δεδομένων ή 'Επαναφορά' για να επιλέξει μια άλλη παρουσία. Το σύνολο δεδομένων θα αποθηκευτεί σε ξεχωριστό αρχείο .ARFF.
Παραγωγή:
Η οπτικοποίηση δεδομένων χρησιμοποιώντας το WEKA απλοποιείται με τη βοήθεια του πλαισίου κουτιού. Ο χρήστης μπορεί να δει οποιοδήποτε επίπεδο ευαισθησίας. Τα χαρακτηριστικά απεικονίζονται στον άξονα Χ και στον άξονα y ενώ οι παρουσίες γράφονται στον άξονα Χ και Υ. Ορισμένα σημεία αντιπροσωπεύουν πολλαπλές παρουσίες που αντιπροσωπεύονται από σημεία με σκούρο χρώμα.
συμπέρασμα
Το WEKA είναι ένα αποτελεσματικό εργαλείο εξόρυξης δεδομένων για την εκτέλεση πολλών εργασιών εξόρυξης δεδομένων, καθώς και για πειραματισμούς με νέες μεθόδους μέσω συνόλων δεδομένων. Το WEKA έχει αναπτυχθεί από το Τμήμα Επιστήμης Υπολογιστών, το Πανεπιστήμιο του Waikato στη Νέα Ζηλανδία.
Ο σημερινός κόσμος κατακλύζεται από δεδομένα, από ψώνια στο σούπερ μάρκετ έως κάμερες ασφαλείας στο σπίτι μας. Η εξόρυξη δεδομένων χρησιμοποιεί αυτά τα πρωτογενή δεδομένα, το μετατρέπει σε πληροφορίες για να κάνει προβλέψεις. Η WEKA με τη βοήθεια του αλγορίθμου Apriori βοηθά στην εξόρυξη κανόνων συσχέτισης στο σύνολο δεδομένων. Το Apriori είναι ένας συχνός αλγόριθμος εξόρυξης μοτίβων που μετρά τον αριθμό των εμφανίσεων ενός αντικειμένου στη συναλλαγή.
Η ανάλυση συμπλέγματος είναι μια τεχνική για την εύρεση ομάδων δεδομένων που αντιπροσωπεύουν παρόμοια χαρακτηριστικά. Το WEKA παρέχει πολλούς αλγόριθμους για την εκτέλεση ανάλυσης συμπλεγμάτων, από τους οποίους χρησιμοποιούνται απλά εργαλεία.
Η οπτικοποίηση δεδομένων στο WEKA μπορεί να πραγματοποιηθεί σε όλα τα σύνολα δεδομένων στον κατάλογο WEKA. Το ακατέργαστο σύνολο δεδομένων μπορεί να προβληθεί, καθώς και άλλα προκύπτοντα σύνολα δεδομένων άλλων αλγορίθμων, όπως η ταξινόμηση, η ομαδοποίηση και η συσχέτιση μπορούν να απεικονιστούν χρησιμοποιώντας το WEKA.
=> Επισκεφθείτε εδώ για τη σειρά αποκλειστικής μηχανικής εκμάθησης
Συνιστώμενη ανάγνωση
- Weka Tutorial - Τρόπος λήψης, εγκατάστασης και χρήσης του εργαλείου Weka
- WEKA Dataset, Classifier και J48 Algorithm For Decision Tree
- 15 ΚΑΛΥΤΕΡΑ εργαλεία και λογισμικό οπτικοποίησης δεδομένων το 2021
- D3.js Tutorial - Πλαίσιο οπτικοποίησης δεδομένων για αρχάριους
- Οδηγός Οπτικοποίησης Δεδομένων D3.js - Σχήματα, Γράφημα, Κινούμενα Σχέδια
- 7 Αρχές δοκιμής λογισμικού: Σύμπλεγμα ελαττωμάτων και Αρχή Pareto
- Εξόρυξη δεδομένων: Διαδικασία, τεχνικές και σημαντικά ζητήματα στην ανάλυση δεδομένων
- Τεχνικές Εξόρυξης Δεδομένων: Αλγόριθμος, Μέθοδοι & Κορυφαία Εργαλεία Εξόρυξης Δεδομένων