weka tutorial how download
Αυτό το σεμινάριο WEKA εξηγεί τι είναι το εργαλείο Weka Machine Learning, τις δυνατότητές του και τον τρόπο λήψης, εγκατάστασης και χρήσης του λογισμικού Weka Machine Learning:
Στο Προηγούμενο σεμινάριο , μάθαμε για το Support Vector Machine σε ML και σχετικές έννοιες όπως το Hyperplane, Support Vectors & Applications of SVM.
Η Μηχανική Εκμάθηση είναι ένας τομέας της επιστήμης όπου οι μηχανές λειτουργούν ως ένα τεχνητά έξυπνο σύστημα. Οι μηχανές μπορούν να μάθουν μόνες τους χωρίς να απαιτούν ρητή κωδικοποίηση. Είναι μια επαναληπτική διαδικασία που αποκτά πρόσβαση στα δεδομένα, μαθαίνει από μόνη της και προβλέπει το αποτέλεσμα. Για την εκτέλεση εργασιών μηχανικής εκμάθησης απαιτούνται πολλά εργαλεία και σενάρια.
Το WEKA είναι μια πλατφόρμα μηχανικής μάθησης που αποτελείται από πολλά εργαλεία που διευκολύνουν πολλές δραστηριότητες μηχανικής μάθησης.
=> Διαβάστε ολόκληρη τη σειρά εκπαίδευσης μηχανικής εκμάθησης
ερωτήσεις συνέντευξης για html και css
Τι θα μάθετε:
- Τι είναι το WEKA
- συμπέρασμα
Τι είναι το WEKA
Το Weka είναι ένα εργαλείο ανοιχτού κώδικα που σχεδιάστηκε και αναπτύχθηκε από τους επιστήμονες / ερευνητές στο Πανεπιστήμιο του Waikato της Νέας Ζηλανδίας. Το WEKA σημαίνει Waikato Environment for Knowledge Analysis. Αναπτύσσεται από τη διεθνή επιστημονική κοινότητα και διανέμεται με τη δωρεάν άδεια GNU GPL.
Το WEKA έχει αναπτυχθεί πλήρως στην Java. Παρέχει ενοποίηση με τη βάση δεδομένων SQL χρησιμοποιώντας συνδεσιμότητα βάσης δεδομένων Java. Παρέχει πολλούς αλγόριθμους μηχανικής μάθησης για την εφαρμογή εργασιών εξόρυξης δεδομένων. Αυτοί οι αλγόριθμοι μπορούν είτε να χρησιμοποιηθούν απευθείας χρησιμοποιώντας το εργαλείο WEKA είτε μπορούν να χρησιμοποιηθούν με άλλες εφαρμογές χρησιμοποιώντας τη γλώσσα προγραμματισμού Java.
Παρέχει πολλά εργαλεία για προεπεξεργασία δεδομένων, ταξινόμηση, ομαδοποίηση, ανάλυση παλινδρόμησης, δημιουργία κανόνων συσχέτισης, εξαγωγή χαρακτηριστικών και οπτικοποίηση δεδομένων. Είναι ένα ισχυρό εργαλείο που υποστηρίζει την ανάπτυξη νέων αλγορίθμων στη μηχανική μάθηση.
Γιατί να χρησιμοποιήσετε το WEKA Machine Learning Tool
Με το WEKA, οι αλγόριθμοι μηχανικής μάθησης είναι άμεσα διαθέσιμοι στους χρήστες. Οι ειδικοί ML μπορούν να χρησιμοποιήσουν αυτές τις μεθόδους για να εξαγάγουν χρήσιμες πληροφορίες από μεγάλους όγκους δεδομένων. Εδώ, οι ειδικοί μπορούν να δημιουργήσουν ένα περιβάλλον για να αναπτύξουν νέες μεθόδους μηχανικής μάθησης και να τις εφαρμόσουν σε πραγματικά δεδομένα.
Το WEKA χρησιμοποιείται από ερευνητές μηχανικής μάθησης και εφαρμοσμένων επιστημών για μαθησιακούς σκοπούς. Είναι ένα αποτελεσματικό εργαλείο για την εκτέλεση πολλών εργασιών εξόρυξης δεδομένων.
Λήψη και εγκατάσταση WEKA
# 1) Κατεβάστε το λογισμικό από εδώ .
Ελέγξτε τη διαμόρφωση του συστήματος υπολογιστή και πραγματοποιήστε λήψη της σταθερής έκδοσης του WEKA (επί του παρόντος 3.8) από αυτήν τη σελίδα.
#δύο) Μετά την επιτυχή λήψη, ανοίξτε τη θέση του αρχείου και κάντε διπλό κλικ στο ληφθέν αρχείο. Θα εμφανιστεί ο οδηγός Step Up. Κάντε κλικ στο Επόμενο.
# 3) Θα ανοίξουν οι όροι της άδειας χρήσης. Διαβάστε προσεκτικά και κάντε κλικ στο 'Συμφωνώ'.
# 4) Σύμφωνα με τις απαιτήσεις σας, επιλέξτε τα εξαρτήματα που θα εγκατασταθούν. Συνιστάται η εγκατάσταση πλήρων εξαρτημάτων. Κάντε κλικ στο Επόμενο.
# 5) Επιλέξτε το φάκελο προορισμού και κάντε κλικ στο Επόμενο.
# 6) Στη συνέχεια, θα ξεκινήσει η εγκατάσταση.
# 7) Εάν η Java δεν είναι εγκατεστημένη στο σύστημα, θα εγκαταστήσει πρώτα την Java.
# 8) Αφού ολοκληρωθεί η εγκατάσταση, θα εμφανιστεί το ακόλουθο παράθυρο. Κάντε κλικ στο Επόμενο.
# 9) Επιλέξτε το πλαίσιο ελέγχου Έναρξη Weka. Κάντε κλικ στο Τέλος.
# 10) Ανοίγει το παράθυρο WEKA Tool and Explorer.
#έντεκα) Μπορείτε να κατεβάσετε το εγχειρίδιο WEKA από εδώ.
Γραφικό περιβάλλον εργασίας χρήστη της WEKA
Το GUI του WEKA δίνει πέντε επιλογές: Explorer, Experimenter, Knowledge flow, Workbench και Simple CLI. Ας καταλάβουμε κάθε ένα από αυτά ξεχωριστά.
# 1) Απλό CLI
Το Simple CLI είναι το Weka Shell με γραμμή εντολών και έξοδο. Με τη βοήθεια, μπορείτε να δείτε την επισκόπηση όλων των εντολών. Το Simple CLI προσφέρει πρόσβαση σε όλες τις κατηγορίες, όπως ταξινομητές, συστάδες και φίλτρα κ.λπ.
Μερικές από τις απλές εντολές CLI είναι:
- Διακοπή: Για να σταματήσετε το τρέχον νήμα
- Εξοδος: Έξοδος από το CLI
- Βοήθεια[] : Εξάγει τη βοήθεια για την καθορισμένη εντολή
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Για να καλέσετε ένα μάθημα WEKA, προθέστε το με Java. Αυτή η εντολή θα κατευθύνει το WEKA να φορτώσει την κλάση και να την εκτελέσει με δεδομένες παραμέτρους. Σε αυτήν την εντολή καλείται ο ταξινομητής J48 στο σύνολο δεδομένων IRIS.
# 2) Εξερεύνηση
Τα παράθυρα του WEKA Explorer εμφανίζουν διαφορετικές καρτέλες ξεκινώντας από την προεπεξεργασία. Αρχικά, η καρτέλα προεπεξεργασίας είναι ενεργή, καθώς πρώτα το σύνολο δεδομένων προεπεξεργάζεται πριν εφαρμόσει αλγόριθμους σε αυτό και εξερευνήσει το σύνολο δεδομένων.
Οι καρτέλες έχουν ως εξής:
- Προεπεξεργασία: Επιλέξτε και τροποποιήστε τα φορτωμένα δεδομένα.
- Ταξινόμηση: Εφαρμόστε αλγόριθμους εκπαίδευσης και δοκιμών στα δεδομένα που θα ταξινομήσουν και θα υποχωρήσουν τα δεδομένα.
- Σύμπλεγμα: Φόρμες συμπλεγμάτων από τα δεδομένα.
- Σύντροφος: Εξουδετερώστε τον κανόνα συσχέτισης για τα δεδομένα.
- Επιλογή χαρακτηριστικών: Εφαρμόζονται μέτρα επιλογής χαρακτηριστικών.
- Απεικονίζω: Η δισδιάστατη αναπαράσταση των δεδομένων φαίνεται.
- Γραμμή κατάστασης: Το κάτω μέρος του παραθύρου δείχνει τη γραμμή κατάστασης. Αυτή η ενότητα δείχνει τι συμβαίνει αυτήν τη στιγμή με τη μορφή μηνύματος, όπως ένα αρχείο φορτώνεται. Κάντε δεξί κλικ σε αυτό, Μνήμη πληροφορίες μπορεί να δει, και επίσης Τρέξιμο σκουπίδια συλλέκτης για να ελευθερώσετε χώρο μπορεί να εκτελεστεί.
- Κουμπί καταγραφής: Αποθηκεύει ένα αρχείο καταγραφής όλων των ενεργειών στο Weka με τη χρονική σήμανση. Τα αρχεία καταγραφής εμφανίζονται σε ξεχωριστό παράθυρο όταν κάνετε κλικ στο κουμπί καταγραφής.
- Εικονίδιο πουλιού WEKA: Το παρόν στην κάτω δεξιά γωνία δείχνει το πουλί WEKA με αντιπροσωπεύει τον αριθμό των διαδικασιών που εκτελούνται ταυτόχρονα (κατά x.). Όταν η διαδικασία εκτελείται, το πουλί θα μετακινηθεί.
# 3) Πειραματιστής
Το κουμπί του πειραματιστή WEKA επιτρέπει στους χρήστες να δημιουργούν, να εκτελούν και να τροποποιούν διαφορετικά σχήματα σε ένα πείραμα σε ένα σύνολο δεδομένων. Ο πειραματιστής έχει 2 τύπους διαμόρφωσης: Απλό και προηγμένο. Και οι δύο διαμορφώσεις επιτρέπουν στους χρήστες να εκτελούν πειράματα τοπικά και σε απομακρυσμένους υπολογιστές.
- Το κουμπί 'Άνοιγμα' και 'Νέο' θα ανοίξει ένα νέο παράθυρο πειράματος που μπορούν να κάνουν οι χρήστες.
- Αποτελέσματα: Ορίστε το αρχείο προορισμού αποτελεσμάτων από το αρχείο ARFF, JDFC και CSV.
- Τύπος πειράματος: Ο χρήστης μπορεί να επιλέξει μεταξύ διασταυρούμενης επικύρωσης και διαίρεσης ποσοστού αμαξοστοιχίας / δοκιμής. Ο χρήστης μπορεί να επιλέξει μεταξύ ταξινόμησης και παλινδρόμησης βάσει του συνόλου δεδομένων και του ταξινομητή που χρησιμοποιείται.
- Σύνολα δεδομένων: Ο χρήστης μπορεί να περιηγηθεί και να επιλέξει σύνολα δεδομένων από εδώ. Το πλαίσιο ελέγχου σχετικής διαδρομής είναι κλικ εάν εργάζεστε σε διαφορετικά μηχανήματα. Η μορφή των υποστηριζόμενων συνόλων δεδομένων είναι ARFF, C4.5, CSV, libsvm, bsi και XRFF.
- Επανάληψη: Ο προεπιλεγμένος αριθμός επανάληψης ορίζεται σε 10. Τα πρώτα σύνολα δεδομένων και οι αλγόριθμοι βοηθούν πρώτα στην εναλλαγή μεταξύ συνόλων δεδομένων και αλγορίθμων, έτσι ώστε οι αλγόριθμοι να μπορούν να εκτελούνται σε όλα τα σύνολα δεδομένων.
- Αλγόριθμοι: Νέοι αλγόριθμοι προστίθενται από το 'New Button'. Ο χρήστης μπορεί να επιλέξει έναν ταξινομητή.
- Αποθηκεύστε το πείραμα χρησιμοποιώντας το κουμπί Αποθήκευση.
- Εκτελέστε το πείραμα χρησιμοποιώντας το κουμπί Εκτέλεση.
# 4) Ροή γνώσεων
Η ροή γνώσεων δείχνει μια γραφική αναπαράσταση των αλγορίθμων WEKA. Ο χρήστης μπορεί να επιλέξει τα στοιχεία και να δημιουργήσει μια ροή εργασίας για την ανάλυση των συνόλων δεδομένων. Ο χειρισμός των δεδομένων γίνεται κατά παρτίδες ή σταδιακά. Μπορούν να σχεδιαστούν παράλληλες ροές εργασίας και κάθε μία θα εκτελείται σε ξεχωριστό νήμα.
Τα διάφορα διαθέσιμα στοιχεία είναι Πηγές δεδομένων, Αποθήκευση δεδομένων, Φίλτρα, Ταξινομητές, Συστάδες, Αξιολόγηση και Οπτικοποίηση.
# 5) Πάγκος εργασίας
Το WEKA διαθέτει μονάδα πάγκου εργασίας που περιέχει όλα τα GUI σε ένα μόνο παράθυρο.
Χαρακτηριστικά του WEKA Explorer
# 1) Σύνολο δεδομένων
Ένα σύνολο δεδομένων αποτελείται από στοιχεία. Αντιπροσωπεύει ένα αντικείμενο για παράδειγμα: Στη βάση δεδομένων μάρκετινγκ, θα αντιπροσωπεύει πελάτες και προϊόντα. Τα σύνολα δεδομένων περιγράφονται με χαρακτηριστικά. Το σύνολο δεδομένων περιέχει πλειάδες δεδομένων σε μια βάση δεδομένων. Ένα σύνολο δεδομένων έχει χαρακτηριστικά που μπορούν να είναι ονομαστικά, αριθμητικά ή συμβολοσειρά. Στο Weka, το σύνολο δεδομένων αντιπροσωπεύεται από weka.core. Περιπτώσεις τάξη.
Αναπαράσταση συνόλου δεδομένων με 5 παραδείγματα:
@δεδομένα
ηλιόλουστη, FALSE, 85,85, αρ
ηλιόλουστη, ΑΛΗΘΕΙΑ, 80,90, όχι
συννεφιά, FALSE, 83,86, ναι
βροχερό, FALSE, 70,96, ναι
βροχερό, FALSE, 68,80, ναι
Τι είναι ένα χαρακτηριστικό;
Ένα χαρακτηριστικό είναι ένα πεδίο δεδομένων που αντιπροσωπεύει το χαρακτηριστικό ενός αντικειμένου δεδομένων. Για παράδειγμα, Σε μια βάση δεδομένων πελατών, τα χαρακτηριστικά θα είναι customer_id, customer_email, customer_address κ.λπ. Τα χαρακτηριστικά έχουν διαφορετικούς τύπους.
Αυτοί οι πιθανοί τύποι είναι:
Α) Ονομαστικά χαρακτηριστικά: Χαρακτηριστικό που σχετίζεται με ένα όνομα και έχει προκαθορισμένες τιμές, όπως χρώμα, καιρός. Αυτά τα χαρακτηριστικά ονομάζονται κατηγορηματικά χαρακτηριστικά . Αυτά τα χαρακτηριστικά δεν έχουν καμία σειρά και οι τιμές τους ονομάζονται επίσης απαρίθμηση.
@attribute outlook {ηλιόλουστη, συννεφιά, βροχερή}: δήλωση του ονομαστικού χαρακτηριστικού.
B) Δυαδικά χαρακτηριστικά: Αυτά τα χαρακτηριστικά αντιπροσωπεύουν μόνο τις τιμές 0 και 1. Πρόκειται για τον τύπο των ονομαστικών χαρακτηριστικών με μόνο 2 κατηγορίες. Αυτά τα χαρακτηριστικά ονομάζονται επίσης Boolean.
Γ) Συνήθη χαρακτηριστικά: Τα χαρακτηριστικά που διατηρούν κάποια τάξη ή κατάταξη μεταξύ τους είναι τακτικά χαρακτηριστικά. Δεν είναι δυνατή η πρόβλεψη διαδοχικών τιμών, αλλά διατηρείται μόνο η σειρά. Παράδειγμα: μέγεθος, βαθμό κ.λπ.
Δ) Αριθμητικά χαρακτηριστικά: Τα χαρακτηριστικά που αντιπροσωπεύουν μετρήσιμες ποσότητες είναι αριθμητικά χαρακτηριστικά. Αυτά αντιπροσωπεύονται από πραγματικούς αριθμούς ή ακέραιους αριθμούς. Παράδειγμα: θερμοκρασία, υγρασία.
@ atribut υγρασία πραγματική: δήλωση αριθμητικού χαρακτηριστικού
E) Χαρακτηριστικά συμβολοσειράς: Αυτά τα χαρακτηριστικά αντιπροσωπεύουν μια λίστα χαρακτήρων που αντιπροσωπεύονται σε διπλά εισαγωγικά.
# 2) Μορφή δεδομένων ARFF
Η WEKA εργάζεται στο αρχείο ARFF για ανάλυση δεδομένων. Το ARFF σημαίνει μορφή αρχείου συσχέτισης χαρακτηριστικών. Έχει 3 ενότητες: σχέση, χαρακτηριστικά και δεδομένα. Κάθε ενότητα ξεκινά με '@'.
Τα αρχεία ARFF λαμβάνουν χαρακτηριστικά δεδομένων Nominal, Numeric, String, Date και Relational. Μερικά από τα γνωστά σύνολα δεδομένων μηχανικής μάθησης υπάρχουν στο WEKA ως ARFF.
Η μορφή για το ARFF είναι:
@σχέση
@Χαρακτηριστικό
@δεδομένα
Ένα παράδειγμα αρχείου ARFF είναι:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Μορφή δεδομένων XRFF
Το XRFF σημαίνει τη μορφή αρχείου συσχέτισης χαρακτηριστικού XML. Αντιπροσωπεύει δεδομένα που μπορούν να αποθηκεύσουν σχόλια, χαρακτηριστικά και βάρη παρουσίας. Έχει επέκταση .xrff και επέκταση αρχείου .xrff.gz (συμπιεσμένη μορφή). Τα αρχεία XRFF αντιπροσώπευαν δεδομένα σε μορφή XML.
# 4) Συνδεσιμότητα βάσης δεδομένων
Με το WEKA, είναι εύκολο να συνδεθείτε σε μια βάση δεδομένων χρησιμοποιώντας ένα πρόγραμμα οδήγησης JDBC. Το πρόγραμμα οδήγησης JDBC είναι απαραίτητο για σύνδεση στη βάση δεδομένων, παράδειγμα:
Διακομιστής MS SQL (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Μαντείο (oracle.jdbc.driver.OracleDriver)
# 5) Ταξινομητές
Για την πρόβλεψη των δεδομένων εξόδου, το WEKA περιέχει ταξινομητές. Οι αλγόριθμοι ταξινόμησης που διατίθενται για μάθηση είναι δέντρα αποφάσεων, μηχανές διανυσμάτων υποστήριξης, ταξινομητές με βάση στιγμιότυπα και λογιστική παλινδρόμηση και δίκτυα Bayesian. Ανάλογα με την απαίτηση χρήσης δοκιμής και δοκιμής, ο χρήστης μπορεί να βρει έναν κατάλληλο αλγόριθμο για την ανάλυση των δεδομένων. Οι ταξινομητές χρησιμοποιούνται για την ταξινόμηση των συνόλων δεδομένων με βάση τα χαρακτηριστικά των χαρακτηριστικών.
# 6) Ομαδοποίηση
Το WEKA χρησιμοποιεί την καρτέλα συμπλέγματος για να προβλέψει τις ομοιότητες στο σύνολο δεδομένων. Με βάση την ομαδοποίηση, ο χρήστης μπορεί να βρει τα χαρακτηριστικά χρήσιμα για ανάλυση και να αγνοήσει άλλα χαρακτηριστικά. Οι διαθέσιμοι αλγόριθμοι για την ομαδοποίηση στο WEKA είναι k-means, EM, Cobweb, X-means και FarhtestFirst.
# 7) Σύλλογος
Ο μόνος διαθέσιμος αλγόριθμος στο WEKA για την εύρεση κανόνων συσχέτισης είναι το Apriori.
# 8) Μέτρα ενότητας χαρακτηριστικών
Η WEKA χρησιμοποιεί 2 προσεγγίσεις για την καλύτερη επιλογή χαρακτηριστικών για τον υπολογισμό:
- Χρήση αλγορίθμου μεθόδου αναζήτησης: Καλύτερη πρώτη, εμπρός επιλογή, τυχαίος, εξαντλητικός, γενετικός αλγόριθμος και αλγόριθμος κατάταξης.
- Χρησιμοποιώντας αλγόριθμους μεθόδου αξιολόγησης: Βάση συσχέτισης, περιτύλιγμα, κέρδος πληροφοριών, chi-squared.
# 9) Οπτικοποίηση
Το WEKA υποστηρίζει την 2D αναπαράσταση δεδομένων, τρισδιάστατες απεικονίσεις με περιστροφή και 1D αναπαράσταση ενός μεμονωμένου χαρακτηριστικού. Έχει την επιλογή 'Jitter' για ονομαστικά χαρακτηριστικά και 'κρυμμένα' σημεία δεδομένων.
Άλλα κύρια χαρακτηριστικά του WEKA είναι:
- Είναι ένα εργαλείο ανοιχτού κώδικα με γραφικό περιβάλλον εργασίας χρήστη με τη μορφή «Εξερεύνηση», «Πειραματικό» και «Ροή γνώσεων».
- Είναι ανεξάρτητη από την πλατφόρμα.
- Περιέχει 49 εργαλεία προεπεξεργασίας δεδομένων.
- 76 αλγόριθμοι ταξινόμησης και παλινδρόμησης, 8 αλγόριθμοι ομαδοποίησης υπάρχουν στο WEKA
- Διαθέτει 15 αλγόριθμους επιλογής χαρακτηριστικών και 10 αλγόριθμους επιλογής χαρακτηριστικών.
- Διαθέτει 3 αλγόριθμους για την εξεύρεση κανόνα συσχέτισης.
- Χρησιμοποιώντας το WEKA, οι χρήστες μπορούν να αναπτύξουν προσαρμοσμένο κώδικα για μηχανική μάθηση.
συμπέρασμα
Σε αυτό το σεμινάριο WEKA, παρέχουμε μια εισαγωγή στο λογισμικό εκμάθησης μηχανών WEKA ανοιχτού κώδικα και εξηγήσαμε βήμα προς βήμα τη διαδικασία λήψης και εγκατάστασης. Έχουμε επίσης δει τις πέντε διαθέσιμες επιλογές για το Weka Graphical User Interface, δηλαδή, Explorer, Experimenter, Knowledge flow, Workbench και Simple CLI.
Έχουμε επίσης μάθει για τα χαρακτηριστικά του WEKA με παραδείγματα. Οι δυνατότητες περιλαμβάνουν σύνολο δεδομένων, μορφή δεδομένων ARFF, συνδεσιμότητα βάσης δεδομένων κ.λπ.
=> Επισκεφθείτε εδώ για τη σειρά αποκλειστικής μηχανικής εκμάθησης
Συνιστώμενη ανάγνωση
- WEKA σύνολο δεδομένων, ταξινομητής και αλγόριθμος J48 για το δέντρο αποφάσεων
- WEKA Explorer: Οπτικοποίηση, ομαδοποίηση, εξόρυξη κανόνα σύνδεσης
- 11 πιο δημοφιλή εργαλεία λογισμικού μηχανικής εκμάθησης το 2021
- Ένας πλήρης οδηγός για το τεχνητό νευρικό δίκτυο στη μηχανική μάθηση
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Εκμάθηση μηχανικής εκμάθησης: Εισαγωγή στο ML και τις εφαρμογές του
- Κορυφαίες 13 καλύτερες εταιρείες μηχανικής μάθησης [Ενημερώθηκε η λίστα του 2021]
- Τι είναι το Vector Machine Support (SVM) στη μηχανική εκμάθηση