weka dataset classifier
Αυτό το σεμινάριο εξηγεί τον αλγόριθμο WEKA Dataset, Classifier και J48 for Decision Tree. Παρέχει επίσης πληροφορίες σχετικά με δείγματα συνόλων δεδομένων ARFF για το Weka:
Στο Προηγούμενο σεμινάριο , μάθαμε για το εργαλείο Weka Machine Learning, τις δυνατότητές του και τον τρόπο λήψης, εγκατάστασης και χρήσης του λογισμικού Weka Machine Learning.
Το WEKA είναι μια βιβλιοθήκη αλγορίθμων μηχανικής μάθησης για την επίλυση προβλημάτων εξόρυξης δεδομένων σε πραγματικά δεδομένα. Το WEKA παρέχει επίσης ένα περιβάλλον για την ανάπτυξη πολλών αλγορίθμων μηχανικής μάθησης. Διαθέτει ένα σύνολο εργαλείων για την εκτέλεση διαφόρων εργασιών εξόρυξης δεδομένων, όπως ταξινόμηση δεδομένων, ομαδοποίηση δεδομένων, παλινδρόμηση, επιλογή χαρακτηριστικών, συχνή εξόρυξη αντικειμένων και ούτω καθεξής.
Όλες αυτές οι εργασίες μπορούν να εκτελεστούν στο δείγμα. Το αρχείο ARFF είναι διαθέσιμο στο αποθετήριο WEKA ή οι χρήστες μπορούν να προετοιμάσουν τα αρχεία δεδομένων τους. Τα δείγματα .arff είναι σύνολα δεδομένων που έχουν ενσωματωμένα ιστορικά δεδομένα που συλλέγονται από ερευνητές.
=> Διαβάστε ολόκληρη τη σειρά εκπαίδευσης μηχανικής εκμάθησης
Σε αυτό το σεμινάριο, θα δούμε μερικά δείγματα συνόλων δεδομένων στο WEKA και θα πραγματοποιήσουμε επίσης εξόρυξη δεδομένων αλγορίθμου δένδρων αποφάσεων χρησιμοποιώντας το σύνολο δεδομένων weather.arff.
Τι θα μάθετε:
Εξερεύνηση συνόλων δεδομένων WEKA
Το εργαλείο μηχανικής εκμάθησης WEKA παρέχει έναν κατάλογο ορισμένων δειγμάτων συνόλων δεδομένων. Αυτά τα σύνολα δεδομένων μπορούν να φορτωθούν απευθείας στο WEKA για τους χρήστες να ξεκινήσουν αμέσως την ανάπτυξη μοντέλων.
Μπορείτε να εξερευνήσετε τα σύνολα δεδομένων WEKA από το σύνδεσμο 'C: Program Files Weka-3-8 data'. Τα σύνολα δεδομένων είναι σε μορφή .arff.
Δείγμα συνόλων δεδομένων WEKA
Ορισμένα δείγματα συνόλων δεδομένων που υπάρχουν στο WEKA παρατίθενται στον παρακάτω πίνακα:
S.No. | Δείγμα συνόλων δεδομένων |
---|---|
7. | διαβήτης |
1. | αεροπορική εταιρεία |
2. | καρκίνος του μαστού |
3. | contact-lens.arff |
Τέσσερις. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | πίστωση-g.arff |
8. | glass.arff |
9. | hypothyroid.arff |
10. | ionospehre.arff |
έντεκα. | iris.2D.arff |
12. | iris.arff |
13. | labor.arff |
14. | ReutersCorn-train.arff |
δεκαπέντε. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-Challeng.arff |
19. | segment-test.arff |
είκοσι. | σόγια |
είκοσι ένα. | supermarket.arff |
22. | unbalanced.arff |
2. 3. | vote.arff |
24. | weather.numeric.arff |
25. | weather.nominal.arff |
Ας ρίξουμε μια ματιά σε μερικά από αυτά:
contact-lens.arff
Το σύνολο δεδομένων contact-lens.arff είναι μια βάση δεδομένων για την τοποθέτηση φακών επαφής. Δωρίστηκε από τον δωρητή, Benoit Julien το έτος 1990.
Βάση δεδομένων: Αυτή η βάση δεδομένων είναι πλήρης. Τα παραδείγματα που χρησιμοποιούνται σε αυτήν τη βάση δεδομένων είναι πλήρη και χωρίς θόρυβο. Η βάση δεδομένων έχει 24 παρουσίες και 4 χαρακτηριστικά.
Γνωρίσματα: Και τα τέσσερα χαρακτηριστικά είναι ονομαστικά. Δεν λείπουν τιμές χαρακτηριστικών. Τα τέσσερα χαρακτηριστικά έχουν ως εξής:
# 1) Ηλικία του ασθενούς: Η ηλικία χαρακτηριστικών μπορεί να έχει τιμές:
- νέος
- προ-πρεσβυωπικό
- πρεσβυωπικός
#δύο) Συνταγή θεάματος: Αυτό το χαρακτηριστικό μπορεί να λάβει τιμές:
- μυωπικός
- υπερμετρία
# 3) Astigmatic: Αυτό το χαρακτηριστικό μπορεί να λάβει τιμές
- όχι
- Ναί
# 4) Ρυθμός παραγωγής δακρύων: Οι τιμές μπορεί να είναι
- μειωμένος
- κανονικός
Κατηγορία: Τρεις ετικέτες κατηγορίας ορίζονται εδώ. Αυτά είναι:
- ο ασθενής πρέπει να διαθέτει σκληρούς φακούς επαφής.
- ο ασθενής πρέπει να διαθέτει μαλακούς φακούς επαφής.
- ο ασθενής δεν πρέπει να διαθέτει φακούς επαφής.
Κατανομή κλάσης: Οι παρουσίες που ταξινομούνται σε ετικέτες τάξης παρατίθενται παρακάτω:
Ετικέτα τάξης | Αριθμός παρουσιών | |
---|---|---|
1. | Σκληροί φακοί επαφής | 4 |
2. | Μαλακοί φακοί επαφής | 5 |
3. | Χωρίς φακούς επαφής | δεκαπέντε |
iris.arff
Το σύνολο δεδομένων iris.arff δημιουργήθηκε το 1988 από τον Michael Marshall. Είναι η βάση δεδομένων Iris Plants.
το καλύτερο δωρεάν εργαλείο βελτιστοποίησης για τα Windows 10
Βάση δεδομένων: Αυτή η βάση δεδομένων χρησιμοποιείται για την αναγνώριση προτύπων. Το σύνολο δεδομένων περιέχει 3 κλάσεις των 50 παρουσιών. Κάθε τάξη αντιπροσωπεύει έναν τύπο φυτού ίριδας. Η μία τάξη διαχωρίζεται γραμμικά από την άλλη 2 αλλά η δεύτερη δεν είναι γραμμικά διαχωρισμένη μεταξύ τους. Προβλέπει σε ποια είδη των 3 λουλουδιών ίριδας ανήκει η παρατήρηση. Αυτό ονομάζεται σύνολο δεδομένων ταξινόμησης πολλαπλών κατηγοριών.
Γνωρίσματα: Έχει 4 αριθμητικά, προγνωστικά χαρακτηριστικά και την τάξη. Δεν υπάρχουν χαρακτηριστικά που λείπουν.
Τα χαρακτηριστικά είναι:
- μήκος σέπαλου σε cm
- πλάτος σέπας σε cm
- μήκος πετάλου σε cm
- πλάτος πετάλου σε cm
- τάξη:
- Ίρις Σετούσα
- Iris Versicolor
- Ίρις Virginica
Συνοπτικές στατιστικές:
Ελάχ | Μέγιστη | Σημαίνω | SD | Συσχέτιση τάξης | |
---|---|---|---|---|---|
σέπαλο μήκος | 4.3 | 7.9 | 5.84 | 0,83 | 0,7826 |
πλάτος σέπαλ | 2.0 | 4.4 | 3.05 | 0,43 | -0.4194 |
μήκος πετάλου | 1.0 | 6.9 | 3.76 | 1.76 | 0,9490 (υψηλό!) |
πλάτος πετάλου | 0.1 | 2.5 | 1.20 | 0,76 | 0,9565 (υψηλό!) |
Διανομή τάξης: 33,3% για κάθε μία από τις 3 τάξεις
Μερικά άλλα σύνολα δεδομένων:
διαβήτης
Η βάση δεδομένων αυτού του συνόλου δεδομένων είναι Pima Indians Diabetes. Αυτό το σύνολο δεδομένων προβλέπει εάν ο ασθενής είναι επιρρεπής σε διαβητικό τα επόμενα 5 χρόνια. Οι ασθενείς σε αυτό το σύνολο δεδομένων είναι όλες γυναίκες ηλικίας τουλάχιστον 21 ετών από την Pima Indian Heritage. Έχει 768 εμφανίσεις και 8 αριθμητικά χαρακτηριστικά συν μια κλάση. Αυτό είναι ένα δυαδικό σύνολο δεδομένων ταξινόμησης όπου η προβλεπόμενη μεταβλητή εξόδου είναι ονομαστική και αποτελείται από δύο κατηγορίες.
ιονόσφαιρα
Αυτό είναι ένα δημοφιλές σύνολο δεδομένων για δυαδική ταξινόμηση. Η παρουσία σε αυτό το σύνολο δεδομένων περιγράφει τις ιδιότητες των επιστροφών ραντάρ από την ατμόσφαιρα. Χρησιμοποιείται για να προβλέψει πού η ιονόσφαιρα έχει κάποια δομή ή όχι. Έχει 34 αριθμητικά χαρακτηριστικά και μια κλάση.
Το χαρακτηριστικό class είναι 'καλό' ή 'κακό' το οποίο προβλέπεται βάσει 34 παρατήρησης χαρακτηριστικών. Τα λαμβανόμενα σήματα υποβάλλονται σε επεξεργασία με συνάρτηση αυτοσυσχέτισης λαμβάνοντας χρόνο παλμό και αριθμό παλμού ως ορίσματα.
Σύνολα δεδομένων παλινδρόμησης
Μπορείτε να κατεβάσετε τα σύνολα δεδομένων παλινδρόμησης από την ιστοσελίδα της WEKA “ Συλλογές συνόλων δεδομένων '. Έχει 37 προβλήματα παλινδρόμησης που λαμβάνονται από διαφορετικές πηγές. Το ληφθέν αρχείο θα δημιουργήσει αριθμητικό / κατάλογο με σύνολα δεδομένων παλινδρόμησης σε μορφή .arff.
Τα δημοφιλή σύνολα δεδομένων που υπάρχουν στον κατάλογο είναι: Σύνολο δεδομένων οικονομικών δεδομένων Longley (longley.arff), σύνολο δεδομένων τιμής κατοικίας της Βοστώνης (housing.arff) και σύνολο δεδομένων ύπνου σε θηλαστικά (sleep.arff).
Ας δούμε τώρα πώς να αναγνωρίζουμε πραγματικά και ονομαστικά χαρακτηριστικά στο σύνολο δεδομένων χρησιμοποιώντας το WEKA explorer.
Τι είναι τα πραγματικά και ονομαστικά χαρακτηριστικά
Τα πραγματικά εκτιμημένα χαρακτηριστικά είναι αριθμητικά χαρακτηριστικά που περιέχουν μόνο πραγματικές τιμές. Αυτές είναι μετρήσιμες ποσότητες. Αυτά τα χαρακτηριστικά μπορούν να κλιμακωθούν κατά διαστήματα όπως η θερμοκρασία ή η αναλογία κλιμάκωσης όπως μέσος όρος, διάμεσος.
Τα ονομαστικά χαρακτηριστικά αντιπροσωπεύουν ονόματα ή κάποια αναπαράσταση πραγμάτων. Δεν υπάρχει σειρά σε τέτοια χαρακτηριστικά και αντιπροσωπεύουν κάποια κατηγορία. Για παράδειγμα, χρώμα.
Ακολουθήστε τα βήματα που αναφέρονται παρακάτω για να χρησιμοποιήσετε το WEKA για τον εντοπισμό πραγματικών τιμών και ονομαστικών χαρακτηριστικών στο σύνολο δεδομένων.
# 1) Ανοίξτε το WEKA και επιλέξτε 'Explorer' στην ενότητα 'Εφαρμογές'.
#δύο) Επιλέξτε την καρτέλα 'Προ-διαδικασία'. Κάντε κλικ στο 'Άνοιγμα αρχείου'. Με τον χρήστη WEKA, μπορείτε να έχετε πρόσβαση σε δείγματα αρχείων WEKA.
# 3) Επιλέξτε το αρχείο εισαγωγής από το φάκελο WEKA3.8 που είναι αποθηκευμένο στο τοπικό σύστημα. Επιλέξτε το προκαθορισμένο αρχείο .arff 'credit-g.arff' και κάντε κλικ στο 'Άνοιγμα'.
# 4) Θα ανοίξει μια λίστα χαρακτηριστικών στον αριστερό πίνακα. Τα επιλεγμένα στατιστικά στοιχεία θα εμφανίζονται στο δεξί πλαίσιο μαζί με το ιστόγραμμα.
Ανάλυση του συνόλου δεδομένων:
Στο αριστερό πλαίσιο, η τρέχουσα σχέση δείχνει:
- Όνομα σχέσης: Το german_credit είναι το δείγμα αρχείου.
- Περιπτώσεις: 1000 αριθμός σειρών δεδομένων στο σύνολο δεδομένων.
- Γνωρίσματα: 21 χαρακτηριστικά στο σύνολο δεδομένων.
Ο πίνακας κάτω από την τρέχουσα σχέση δείχνει το όνομα των χαρακτηριστικών.
Στο δεξί πλαίσιο, εμφανίζονται τα επιλεγμένα στατιστικά χαρακτηριστικά. Επίλεξε το χαρακτηριστικό 'check_status'.
Δείχνει:
- Όνομα του χαρακτηριστικού
- Λείπει: Τυχόν λείπουν τιμές του χαρακτηριστικού στο σύνολο δεδομένων. 0% σε αυτήν την περίπτωση.
- Διακριτή: Το χαρακτηριστικό έχει 4 διαφορετικές τιμές.
- Τύπος: Το χαρακτηριστικό είναι ονομαστικού τύπου, δηλαδή δεν λαμβάνει καμία αριθμητική τιμή.
- Μετρώ: Μεταξύ των 1000 παρουσιών, η μέτρηση κάθε ξεχωριστής ετικέτας κλάσης γράφεται στη στήλη μέτρησης.
- Ιστόγραμμα: Θα εμφανίσει την ετικέτα κλάσης εξόδου για το χαρακτηριστικό. Η ετικέτα τάξης σε αυτό το σύνολο δεδομένων είναι είτε καλή είτε κακή. Υπάρχουν 700 περιπτώσεις καλού (επισημαίνονται με μπλε) και 300 περιπτώσεις κακού (επισημαίνονται με κόκκινο χρώμα).
- Για την ετικέτα<0, the instances for good or bad are almost the same in number.
- Για την ετικέτα, 0<= X<200, the instances with decision good are more than instances with bad.
- Ομοίως, για την ετικέτα> = 200, οι μέγιστες εμφανίσεις εμφανίζονται για καλή και καμία ετικέτα ελέγχου δεν έχει περισσότερες εμφανίσεις με καλή απόφαση.
Για το επόμενο χαρακτηριστικό 'διάρκεια'.
Το δεξί πλαίσιο δείχνει:
- Ονομα: Αυτό είναι το όνομα του χαρακτηριστικού.
- Τύπος: Ο τύπος του χαρακτηριστικού είναι αριθμητικός.
- Λείπει η τιμή: Το χαρακτηριστικό δεν έχει καμία τιμή που λείπει.
- Διακριτή: Έχει 33 ξεχωριστές τιμές σε 1000 περιπτώσεις. Αυτό σημαίνει ότι σε 1000 περιπτώσεις έχει 33 διαφορετικές τιμές.
- Μοναδικός: Έχει 5 μοναδικές τιμές που δεν ταιριάζουν μεταξύ τους.
- Ελάχιστη τιμή: Η ελάχιστη τιμή του χαρακτηριστικού είναι 4.
- Μέγιστη αξία: Η μέγιστη τιμή του χαρακτηριστικού είναι 72.
- Σημαίνω: Το μέσο προσθέτει όλες τις τιμές διαιρούμενες με παρουσίες.
- Τυπική απόκλιση: Stddeviation της διάρκειας χαρακτηριστικών.
- Ιστόγραμμα: Το ιστόγραμμα απεικονίζει τη διάρκεια 4 μονάδων, οι μέγιστες εμφανίσεις εμφανίζονται για μια καλή τάξη. Καθώς η διάρκεια αυξάνεται σε 38 μονάδες, ο αριθμός των παρουσιών μειώνεται για ετικέτες καλής κατηγορίας. Η διάρκεια φτάνει τις 72 μονάδες που έχουν μόνο μία παρουσία που χαρακτηρίζει την απόφαση ως κακή.
Το μάθημα είναι το χαρακτηριστικό χαρακτηρισμού του ονομαστικού τύπου. Έχει δύο ξεχωριστές τιμές: καλο και κακο. Η ετικέτα καλής κατηγορίας έχει 700 παρουσίες και η ετικέτα κακής τάξης έχει 300 παρουσίες.
Για να απεικονίσετε όλα τα χαρακτηριστικά του συνόλου δεδομένων, κάντε κλικ στο 'Οπτικοποίηση όλων'.
# 5) Για να μάθετε μόνο αριθμητικά χαρακτηριστικά, κάντε κλικ στο κουμπί Φίλτρο. Από εκεί, κάντε κλικ στο Επιλέξτε -> WEKA> ΦΙΛΤΡΑ -> Τύπος χωρίς επίβλεψη -> Τύπος κατάργησης.
Τα φίλτρα WEKA έχουν πολλές λειτουργίες για να μετατρέψουν τις τιμές χαρακτηριστικών του συνόλου δεδομένων ώστε να είναι κατάλληλες για τους αλγόριθμους. Για παράδειγμα, τον αριθμητικό μετασχηματισμό των χαρακτηριστικών.
Το φιλτράρισμα των ονομαστικών και πραγματικών τιμών από το σύνολο δεδομένων είναι ένα άλλο παράδειγμα χρήσης φίλτρων WEKA.
# 6) Κάντε κλικ στο RemoveType στην καρτέλα φίλτρου. Θα ανοίξει ένα παράθυρο επεξεργαστή αντικειμένων. Επιλέξτε χαρακτηριστικό Τύπος 'Διαγραφή αριθμητικών χαρακτηριστικών' και κάντε κλικ στο OK.
# 7) Εφαρμόστε το φίλτρο. Θα εμφανίζονται μόνο αριθμητικά χαρακτηριστικά.
Το χαρακτηριστικό class είναι ονομαστικού τύπου. Κατατάσσει την έξοδο και ως εκ τούτου δεν μπορεί να διαγραφεί. Έτσι φαίνεται με το αριθμητικό χαρακτηριστικό.
Παραγωγή:
Τα χαρακτηριστικά πραγματικής αξίας και ονομαστικών τιμών στο σύνολο δεδομένων προσδιορίζονται. Η οπτικοποίηση με την ετικέτα τάξης εμφανίζεται με τη μορφή ιστογραμμάτων.
Αλγόριθμοι ταξινόμησης δέντρων απόφασης Weka
Τώρα, θα δούμε πώς να εφαρμόσουμε την ταξινόμηση δέντρων αποφάσεων στο σύνολο δεδομένων weather.nominal.arff χρησιμοποιώντας τον ταξινομητή J48.
weather.nominal.arff
Είναι ένα δείγμα συνόλου δεδομένων που υπάρχει απευθείας στο WEKA. Αυτό το σύνολο δεδομένων προβλέπει εάν ο καιρός είναι κατάλληλος για παιχνίδι κρίκετ. Το σύνολο δεδομένων έχει 5 χαρακτηριστικά και 14 παρουσίες. Η ετικέτα τάξης 'play' ταξινομεί την έξοδο ως 'ναι' ή 'όχι'.
Τι είναι το δέντρο αποφάσεων
Το Tree Tree είναι η τεχνική ταξινόμησης που αποτελείται από τρία συστατικά ριζικό κόμβο, κλάδο (άκρη ή σύνδεσμος) και κόμβο φύλλων. Η ρίζα αντιπροσωπεύει την κατάσταση δοκιμής για διαφορετικά χαρακτηριστικά, ο κλάδος αντιπροσωπεύει όλα τα πιθανά αποτελέσματα που μπορεί να υπάρχουν εκεί στη δοκιμή και οι κόμβοι φύλλων περιέχουν την ετικέτα της κλάσης στην οποία ανήκει. Ο ριζικός κόμβος βρίσκεται στην αρχή του δέντρου που ονομάζεται επίσης κορυφή του δέντρου.
Ταξινομητής J48
Είναι ένας αλγόριθμος για τη δημιουργία ενός δέντρου αποφάσεων που δημιουργείται από το C4.5 (επέκταση του ID3). Είναι επίσης γνωστό ως στατιστικός ταξινομητής. Για την ταξινόμηση δέντρων αποφάσεων, χρειαζόμαστε μια βάση δεδομένων.
Τα βήματα περιλαμβάνουν:
# 1) Ανοίξτε τον εξερευνητή WEKA.
#δύο) Επιλέξτε το αρχείο weather.nominal.arff από το 'select file' κάτω από την καρτέλα preprocess.
# 3) Μεταβείτε στην καρτέλα 'Ταξινόμηση' για την ταξινόμηση των μη ταξινομημένων δεδομένων. Κάντε κλικ στο κουμπί 'Επιλογή'. Από αυτό, επιλέξτε 'δέντρα -> J48'. Ας ρίξουμε επίσης μια γρήγορη ματιά σε άλλες επιλογές στο κουμπί Επιλογή:
- Bayes: Είναι μια εκτίμηση πυκνότητας για αριθμητικά χαρακτηριστικά.
- Μετα: Είναι μια γραμμική παλινδρόμηση πολλαπλών αποκρίσεων.
- Λειτουργίες: Είναι λογιστική παλινδρόμηση.
- Τεμπέλης: Ρυθμίζει αυτόματα την εντροπία μίγματος.
- Κανόνας: Είναι μαθητής κανόνα.
- Δέντρα: Τα δέντρα ταξινομούν τα δεδομένα.
# 4) Κάντε κλικ στο κουμπί Έναρξη. Η έξοδος του ταξινομητή θα φαίνεται στο δεξί πλαίσιο. Δείχνει τις πληροφορίες εκτέλεσης στον πίνακα ως:
- Σχέδιο: Ο αλγόριθμος ταξινόμησης που χρησιμοποιήθηκε.
- Περιπτώσεις: Αριθμός σειρών δεδομένων στο σύνολο δεδομένων.
- Γνωρίσματα: Το σύνολο δεδομένων έχει 5 χαρακτηριστικά.
- Ο αριθμός των φύλλων και το μέγεθος του δέντρου περιγράφουν το δέντρο αποφάσεων.
- Χρόνος που απαιτείται για την κατασκευή του μοντέλου: Ώρα για την έξοδο.
- Πλήρης ταξινόμηση του J48 κλαδευμένο με τα χαρακτηριστικά και τον αριθμό των παρουσιών.
# 5) Για να απεικονίσετε το δέντρο, κάντε δεξί κλικ στο αποτέλεσμα και επιλέξτε οπτικοποιήστε το δέντρο.
Παραγωγή :
Η έξοδος έχει τη μορφή ενός δέντρου αποφάσεων. Το κύριο χαρακτηριστικό είναι «προοπτική».
Εάν η προοπτική είναι ηλιόλουστη, τότε το δέντρο αναλύει περαιτέρω την υγρασία. Εάν η υγρασία είναι υψηλή, τότε η ετικέτα κατηγορίας παίζει = 'ναι'.
Εάν οι προοπτικές είναι συννεφιά, η ετικέτα της τάξης, το παιχνίδι είναι «ναι». Ο αριθμός των παρουσιών που υπακούουν στην ταξινόμηση είναι 4.
Εάν η προοπτική είναι βροχερή, γίνεται περαιτέρω ταξινόμηση για την ανάλυση του χαρακτηριστικού 'θυελλώδης'. Εάν είναι άνεμος = αληθινός, το παιχνίδι = 'όχι'. Ο αριθμός των παρουσιών που υπακούουν στην ταξινόμηση για outlook = windy και windy = true είναι 2.
συμπέρασμα
Η WEKA προσφέρει ένα ευρύ φάσμα δειγμάτων συνόλων δεδομένων για την εφαρμογή αλγορίθμων μηχανικής μάθησης. Οι χρήστες μπορούν να εκτελέσουν εργασίες μηχανικής εκμάθησης όπως ταξινόμηση, παλινδρόμηση, επιλογή χαρακτηριστικών, συσχέτιση σε αυτά τα δείγματα συνόλων δεδομένων, και μπορούν επίσης να μάθουν το εργαλείο που τα χρησιμοποιεί.
Το WEKA explorer χρησιμοποιείται για την εκτέλεση πολλών λειτουργιών, ξεκινώντας από την προεπεξεργασία. Η προεπεξεργασία λαμβάνει είσοδο ως αρχείο .arff, επεξεργάζεται την είσοδο και δίνει έξοδο που μπορεί να χρησιμοποιηθεί από άλλα προγράμματα υπολογιστών. Στο WEKA η έξοδος της προεπεξεργασίας δίνει τα χαρακτηριστικά που υπάρχουν στο σύνολο δεδομένων, τα οποία μπορούν να χρησιμοποιηθούν περαιτέρω για στατιστική ανάλυση και σύγκριση με ετικέτες κλάσης.
Το WEKA προσφέρει επίσης πολλούς αλγόριθμους ταξινόμησης για το δέντρο αποφάσεων. Το J48 είναι ένας από τους δημοφιλείς αλγόριθμους ταξινόμησης που εξάγει ένα δέντρο αποφάσεων. Χρησιμοποιώντας την καρτέλα Ταξινόμηση, ο χρήστης μπορεί να απεικονίσει το δέντρο αποφάσεων. Εάν το δέντρο αποφάσεων είναι πολύ γεμάτο, το κλάδεμα δέντρων μπορεί να εφαρμοστεί από την καρτέλα Προεπεξεργασία αφαιρώντας τα χαρακτηριστικά που δεν απαιτούνται και ξεκινήστε ξανά τη διαδικασία ταξινόμησης.
=> Επισκεφθείτε εδώ για τη σειρά αποκλειστικής μηχανικής εκμάθησης
Συνιστώμενη ανάγνωση
- Weka Tutorial - Πώς να κάνετε λήψη, εγκατάσταση και χρήση του εργαλείου Weka
- Πώς να γράψετε σύνθετα σενάρια επιχειρησιακής λογικής χρησιμοποιώντας τεχνική πίνακα αποφάσεων
- WEKA Explorer: Οπτικοποίηση, ομαδοποίηση, εξόρυξη κανόνα σύνδεσης
- Παραδείγματα αλγορίθμου δέντρων απόφασης στην εξόρυξη δεδομένων
- Κατασκευές λήψης αποφάσεων σε C ++
- B Δομή Δέντρων και Δ + Δέντρων Δεδομένων σε C ++
- Δομή Δυαδικών Δέντρων Στο C ++
- Δομή δεδομένων δέντρων και σωρού AVL σε C ++