decision tree algorithm examples data mining
Αυτός ο σε βάθος οδηγός εξηγεί τα πάντα σχετικά με τον αλγόριθμο δέντρων απόφασης στην εξόρυξη δεδομένων. Θα μάθετε για τα παραδείγματα, τον αλγόριθμο και την ταξινόμηση του δέντρου απόφασης:
Ρίξαμε μια ματιά σε δύο Παραδείγματα εξόρυξης δεδομένων στο προηγούμενο σεμινάριό μας στο Δωρεάν Σειρά Εκπαίδευσης Εξόρυξης Δεδομένων .
Η απόφαση Mining Tree είναι ένας τύπος τεχνικής εξόρυξης δεδομένων που χρησιμοποιείται για τη δημιουργία μοντέλων ταξινόμησης. Κατασκευάζει μοντέλα ταξινόμησης με τη μορφή δομής που μοιάζει με δέντρο, όπως και το όνομά του. Αυτός ο τύπος εξόρυξης ανήκει σε εποπτευόμενη μάθηση τάξης.
Στην εποπτευόμενη μάθηση, το αποτέλεσμα-στόχος είναι ήδη γνωστό. Τα δέντρα αποφάσεων μπορούν να χρησιμοποιηθούν τόσο για κατηγορικά όσο και για αριθμητικά δεδομένα. Τα κατηγορικά δεδομένα αντιπροσωπεύουν το φύλο, την οικογενειακή κατάσταση κ.λπ. ενώ τα αριθμητικά δεδομένα αντιπροσωπεύουν την ηλικία, τη θερμοκρασία κ.λπ.
ερωτήσεις και απαντήσεις συνέντευξης μηχανικού δικτύου στο cisco
Ένα παράδειγμα δέντρου αποφάσεων με το σύνολο δεδομένων φαίνεται παρακάτω.
(εικόνα πηγή )
Τι θα μάθετε:
- Ποια είναι η χρήση ενός δέντρου απόφασης;
- Ανάλυση ταξινόμησης
- Ανάλυση παλινδρόμησης
- Πώς λειτουργεί ένα δέντρο αποφάσεων;
- Αλγόριθμος επαγωγής δέντρων απόφασης
- Επαγωγή δέντρων απόφασης
- ΚΑΡΟΤΣΑΚΙ
- Αποκατάσταση δέντρων απόφασης για μηχανική εκμάθηση: ID3
- Τι είναι το άπληστο αναδρομικό δυαδικό διαχωρισμό;
- Πώς να επιλέξετε τα χαρακτηριστικά για τη δημιουργία ενός δέντρου;
- Υπερφόρτωση στα δέντρα απόφασης
- Τι είναι το κλάδεμα δέντρων;
- Τι είναι η Προγνωστική Μοντελοποίηση;
- Πλεονεκτήματα της ταξινόμησης δέντρων απόφασης
- Μειονεκτήματα της ταξινόμησης δέντρων απόφασης
- συμπέρασμα
- Συνιστώμενη ανάγνωση
Ποια είναι η χρήση ενός δέντρου απόφασης;
Το Tree Tree χρησιμοποιείται για τη δημιουργία μοντέλων ταξινόμησης και παλινδρόμησης. Χρησιμοποιείται για τη δημιουργία μοντέλων δεδομένων που θα προβλέπουν ετικέτες κλάσης ή τιμές για τη διαδικασία λήψης αποφάσεων. Τα μοντέλα κατασκευάζονται από το σύνολο δεδομένων εκπαίδευσης που τροφοδοτείται στο σύστημα (εποπτευόμενη μάθηση).
Χρησιμοποιώντας ένα δέντρο αποφάσεων, μπορούμε να απεικονίσουμε τις αποφάσεις που καθιστούν εύκολη την κατανόηση και επομένως είναι μια δημοφιλής τεχνική εξόρυξης δεδομένων.
Ανάλυση ταξινόμησης
Ταξινόμηση δεδομένων είναι μια μορφή ανάλυσης που δημιουργεί ένα μοντέλο που περιγράφει σημαντικές μεταβλητές τάξης.Για παράδειγμα, ένα μοντέλο που δημιουργήθηκε για να κατηγοριοποιήσει τις αιτήσεις τραπεζικών δανείων ως ασφαλείς ή επικίνδυνες. Οι μέθοδοι ταξινόμησης χρησιμοποιούνται στη μηχανική μάθηση και στην αναγνώριση προτύπων.
Η εφαρμογή της ταξινόμησης περιλαμβάνει ανίχνευση απάτης, ιατρική διάγνωση, μάρκετινγκ στόχου, κ.λπ. Η έξοδος του προβλήματος ταξινόμησης λαμβάνεται ως «Λειτουργία» όλων των παρατηρούμενων τιμών του τερματικού κόμβου.
Ακολουθείται μια διαδικασία δύο βημάτων, για τη δημιουργία ενός μοντέλου ταξινόμησης.
- Στο πρώτο βήμα, δηλαδή στη μάθηση: Δημιουργείται ένα μοντέλο ταξινόμησης που βασίζεται σε εκπαιδευτικά δεδομένα.
- Στο δεύτερο βήμα, δηλαδή στην ταξινόμηση, ελέγχεται η ακρίβεια του μοντέλου και στη συνέχεια το μοντέλο χρησιμοποιείται για την ταξινόμηση νέων δεδομένων. Οι ετικέτες τάξης που παρουσιάζονται εδώ έχουν τη μορφή διακριτών τιμών όπως «ναι» ή «όχι», «ασφαλές» ή «επικίνδυνο».
Η γενική προσέγγιση για τα μοντέλα ταξινόμησης κτιρίων δίνεται παρακάτω:
(εικόνα πηγή )
Ανάλυση παλινδρόμησης
Η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη των αριθμητικών χαρακτηριστικών.
Τα αριθμητικά χαρακτηριστικά ονομάζονται επίσης συνεχείς τιμές. Ένα μοντέλο που δημιουργήθηκε για να προβλέψει τις συνεχείς τιμές αντί για ετικέτες τάξης ονομάζεται μοντέλο παλινδρόμησης. Το αποτέλεσμα της ανάλυσης παλινδρόμησης είναι το «μέσο» όλων των παρατηρούμενων τιμών του κόμβου.
Πώς λειτουργεί ένα δέντρο αποφάσεων;
Το δέντρο αποφάσεων είναι ένας εποπτευόμενος αλγόριθμος μάθησης που λειτουργεί τόσο για διακριτές όσο και για συνεχείς μεταβλητές. Διαχωρίζει το σύνολο δεδομένων σε υποσύνολα με βάση το πιο σημαντικό χαρακτηριστικό στο σύνολο δεδομένων. Ο τρόπος με τον οποίο το δέντρο αποφάσεων προσδιορίζει αυτό το χαρακτηριστικό και πώς γίνεται αυτός ο διαχωρισμός αποφασίζεται από τους αλγόριθμους.
Ο πιο σημαντικός δείκτης πρόβλεψης ορίζεται ως ο ριζικός κόμβος, ο διαχωρισμός γίνεται για να σχηματίσουν υπο-κόμβους που ονομάζονται κόμβοι απόφασης και οι κόμβοι που δεν χωρίζονται περαιτέρω είναι τερματικοί ή κόμβοι φύλλων.
Στο δέντρο αποφάσεων, το σύνολο δεδομένων χωρίζεται σε ομοιογενείς και μη επικαλυπτόμενες περιοχές. Ακολουθεί μια προσέγγιση από πάνω προς τα κάτω καθώς η κορυφαία περιοχή παρουσιάζει όλες τις παρατηρήσεις σε ένα μόνο μέρος που χωρίζεται σε δύο ή περισσότερα κλαδιά που χωρίζονται περαιτέρω. Αυτή η προσέγγιση ονομάζεται επίσης άπληστη προσέγγιση καθώς λαμβάνει υπόψη μόνο τον τρέχοντα κόμβο μεταξύ των επεξεργασμένων χωρίς να επικεντρώνεται στους μελλοντικούς κόμβους.
Οι αλγόριθμοι δέντρων αποφάσεων θα συνεχίσουν να λειτουργούν έως ότου επιτευχθούν κριτήρια διακοπής, όπως ο ελάχιστος αριθμός παρατηρήσεων κ.λπ.
Μόλις δημιουργηθεί ένα δέντρο αποφάσεων, πολλοί κόμβοι ενδέχεται να αντιπροσωπεύουν ακραία ή θορυβώδη δεδομένα. Η μέθοδος κλάδεσης δέντρων εφαρμόζεται για την αφαίρεση ανεπιθύμητων δεδομένων. Αυτό, με τη σειρά του, βελτιώνει την ακρίβεια του μοντέλου ταξινόμησης.
Για να βρείτε την ακρίβεια του μοντέλου, χρησιμοποιείται ένα σετ δοκιμών που αποτελείται από πλειάδες δοκιμής και ετικέτες τάξης. Τα ποσοστά των πλειάδων του δοκιμαστικού συνόλου ταξινομούνται σωστά από το μοντέλο για να προσδιορίσουν την ακρίβεια του μοντέλου. Εάν το μοντέλο είναι ακριβές, τότε χρησιμοποιείται για την ταξινόμηση των πλειάδων δεδομένων για τις οποίες δεν είναι γνωστές οι ετικέτες κλάσης.
Μερικοί από τους αλγόριθμους δέντρων αποφάσεων περιλαμβάνουν τον Αλγόριθμο Hunt, ID3, CD4.5 και CART.
Παράδειγμα δημιουργίας δέντρου απόφασης
(Το παράδειγμα προέρχεται από το Data Mining Concepts: Han και Kimber)
# 1) Βήμα εκμάθησης: Τα δεδομένα εκπαίδευσης τροφοδοτούνται στο σύστημα για ανάλυση με αλγόριθμο ταξινόμησης. Σε αυτό το παράδειγμα, η ετικέτα τάξης είναι το χαρακτηριστικό, δηλαδή 'απόφαση δανείου'. Το μοντέλο που δημιουργήθηκε από αυτά τα δεδομένα εκπαίδευσης παρουσιάζεται με τη μορφή κανόνων απόφασης.
# 2) Ταξινόμηση: Το σύνολο δεδομένων δοκιμής τροφοδοτείται στο μοντέλο για να ελέγξει την ακρίβεια του κανόνα ταξινόμησης. Εάν το μοντέλο δίνει αποδεκτά αποτελέσματα, τότε εφαρμόζεται σε ένα νέο σύνολο δεδομένων με άγνωστες μεταβλητές κλάσης.
Αλγόριθμος επαγωγής δέντρων απόφασης
Επαγωγή δέντρων απόφασης
Η επαγωγή δέντρων απόφασης είναι η μέθοδος εκμάθησης των δέντρων απόφασης από το σετ εκπαίδευσης. Το σετ εκπαίδευσης αποτελείται από χαρακτηριστικά και ετικέτες τάξης. Οι εφαρμογές της επαγωγής δέντρων αποφάσεων περιλαμβάνουν την αστρονομία, την οικονομική ανάλυση, την ιατρική διάγνωση, την κατασκευή και την παραγωγή.
Ένα δέντρο αποφάσεων είναι μια δομή που μοιάζει με το διάγραμμα ροής που κατασκευάζεται από πλειάδες σετ κατάρτισης. Το σύνολο δεδομένων κατανέμεται σε μικρότερα υποσύνολα και υπάρχει με τη μορφή κόμβων ενός δέντρου. Η δομή του δέντρου έχει έναν ριζικό κόμβο, εσωτερικούς κόμβους ή κόμβους απόφασης, κόμβο φύλλων και κλάδους.
Ο ριζικός κόμβος είναι ο κορυφαίος κόμβος. Αντιπροσωπεύει το καλύτερο χαρακτηριστικό που έχει επιλεγεί για ταξινόμηση. Οι εσωτερικοί κόμβοι των κόμβων απόφασης αντιπροσωπεύουν μια δοκιμή ενός χαρακτηριστικού του κόμβου φύλλων συνόλου δεδομένων ή του κόμβου τερματικού που αντιπροσωπεύει την ταξινόμηση ή την ετικέτα απόφασης. Τα κλαδιά δείχνουν το αποτέλεσμα του τεστ που πραγματοποιήθηκε.
Ορισμένα δέντρα αποφάσεων έχουν μόνο δυαδικοί κόμβοι , αυτό σημαίνει ακριβώς δύο κλάδους ενός κόμβου, ενώ ορισμένα δέντρα αποφάσεων δεν είναι δυαδικά.
Η παρακάτω εικόνα δείχνει το δέντρο αποφάσεων για το σύνολο δεδομένων του Τιτανικού για να προβλέψει εάν ο επιβάτης θα επιβιώσει ή όχι.
(εικόνα πηγή )
ΚΑΡΟΤΣΑΚΙ
Το μοντέλο CART, δηλαδή τα μοντέλα ταξινόμησης και παλινδρόμησης είναι ένας αλγόριθμος δέντρων αποφάσεων για μοντέλα δόμησης. Μοντέλο απόφασης δέντρου όπου οι τιμές-στόχοι έχουν διακριτή φύση ονομάζονται μοντέλα ταξινόμησης.
Μια διακριτή τιμή είναι μια πεπερασμένη ή απίστευτα άπειρη σειρά τιμών, Για παράδειγμα, ηλικία, μέγεθος, κ.λπ. Τα μοντέλα όπου οι τιμές-στόχοι αντιπροσωπεύονται από συνεχείς τιμές είναι συνήθως αριθμοί που ονομάζονται Regression Models. Οι συνεχείς μεταβλητές είναι μεταβλητές κυμαινόμενου σημείου. Αυτά τα δύο μοντέλα μαζί ονομάζονται CART.
Το CART χρησιμοποιεί το Gini Index ως πίνακα ταξινόμησης.
Αποκατάσταση δέντρων απόφασης για μηχανική εκμάθηση: ID3
Στα τέλη της δεκαετίας του 1970 και στις αρχές της δεκαετίας του 1980, ο J.Ross Quinlan ήταν ερευνητής που δημιούργησε έναν αλγόριθμο δέντρων αποφάσεων για τη μηχανική μάθηση. Αυτός ο αλγόριθμος είναι γνωστός ως ID3, επαναληπτικό διχοτομερές . Αυτός ο αλγόριθμος ήταν μια επέκταση των συστημάτων μάθησης που περιγράφονται από τους E.B Hunt, J και Marin.
Το ID3 αργότερα έγινε γνωστό ως C4.5. Τα ID3 και C4.5 ακολουθούν μια άπληστη προσέγγιση από κάτω προς τα κάτω για την κατασκευή δέντρων αποφάσεων. Ο αλγόριθμος ξεκινά με ένα σύνολο δεδομένων εκπαίδευσης με ετικέτες τάξης που χωρίζονται σε μικρότερα υποσύνολα καθώς κατασκευάζεται το δέντρο.
# 1) Αρχικά, υπάρχουν τρεις παράμετροι, δηλαδή λίστα χαρακτηριστικών, μέθοδος επιλογής χαρακτηριστικών και διαμέρισμα δεδομένων . Η λίστα χαρακτηριστικών περιγράφει τα χαρακτηριστικά των πλειάδων του συνόλου κατάρτισης.
#δύο) Η μέθοδος επιλογής χαρακτηριστικών περιγράφει τη μέθοδο για την επιλογή του καλύτερου χαρακτηριστικού για διάκριση μεταξύ πλειάδων. Οι μέθοδοι που χρησιμοποιούνται για την επιλογή χαρακτηριστικών μπορούν είτε να είναι Information Gain είτε Gini Index.
# 3) Η δομή του δέντρου (δυαδικό ή μη δυαδικό) αποφασίζεται με τη μέθοδο επιλογής χαρακτηριστικών.
# 4) Κατά την κατασκευή ενός δέντρου αποφάσεων, ξεκινά ως ένας μόνο κόμβος που αντιπροσωπεύει τις πλειάδες.
# 5) Εάν οι πλειάδες του ριζικού κόμβου αντιπροσωπεύουν διαφορετικές ετικέτες κλάσης, τότε καλεί μια μέθοδο επιλογής χαρακτηριστικών για να χωρίσει ή να χωρίσει τις πλειάδες. Το βήμα θα οδηγήσει στο σχηματισμό κλάδων και κόμβων αποφάσεων.
# 6) Η μέθοδος διαχωρισμού θα καθορίσει ποιο χαρακτηριστικό πρέπει να επιλεγεί για να χωρίσει τις πλειάδες δεδομένων. Καθορίζει επίσης τους κλάδους που θα αναπτυχθούν από τον κόμβο σύμφωνα με το αποτέλεσμα της δοκιμής. Το κύριο κίνητρο των κριτηρίων διαχωρισμού είναι ότι το διαμέρισμα σε κάθε κλάδο του δέντρου αποφάσεων πρέπει να αντιπροσωπεύει την ίδια ετικέτα κλάσης.
Ένα παράδειγμα χαρακτηριστικού διαχωρισμού εμφανίζεται παρακάτω:
ένα. Η παραπάνω κατανομή είναι ξεχωριστή.
σι. Η παραπάνω κατανομή είναι για συνεχή αποτίμηση.
# 7) Τα παραπάνω βήματα διαμέρισης ακολουθούν αναδρομικά για να σχηματίσουν ένα δέντρο αποφάσεων για τις πλειάδες του συνόλου δεδομένων.
# 8) Η κατανομή σταματά μόνο όταν είτε γίνονται όλα τα διαμερίσματα είτε όταν τα υπόλοιπα πλειάδες δεν μπορούν να διαχωριστούν περαιτέρω.
# 9) Η πολυπλοκότητα του αλγορίθμου περιγράφεται από το n * | Δ | * log | D | όπου n είναι ο αριθμός χαρακτηριστικών στο σύνολο δεδομένων εκπαίδευσης D και | D | είναι ο αριθμός των πλειάδων.
Τι είναι το άπληστο αναδρομικό δυαδικό διαχωρισμό;
Στη μέθοδο δυαδικού διαχωρισμού, οι πλειάδες χωρίζονται και υπολογίζεται κάθε συνάρτηση διαχωρισμού κόστους. Επιλέγεται το χαμηλότερο διαχωρισμό κόστους. Η μέθοδος διαχωρισμού είναι δυαδική που διαμορφώνεται ως 2 κλάδοι. Είναι αναδρομικής φύσης καθώς χρησιμοποιείται η ίδια μέθοδος (υπολογισμός του κόστους) για τον διαχωρισμό των άλλων πλειάδων του συνόλου δεδομένων.
Αυτός ο αλγόριθμος ονομάζεται άπληστος καθώς εστιάζει μόνο στον τρέχοντα κόμβο. Επικεντρώνεται στη μείωση του κόστους, ενώ οι άλλοι κόμβοι αγνοούνται.
Πώς να επιλέξετε τα χαρακτηριστικά για τη δημιουργία ενός δέντρου;
Τα μέτρα επιλογής χαρακτηριστικών καλούνται επίσης κανόνες διαχωρισμού για να αποφασίσουν πώς θα χωριστούν οι πλειάδες. Τα κριτήρια διαχωρισμού χρησιμοποιούνται για την καλύτερη κατάτμηση του συνόλου δεδομένων. Αυτά τα μέτρα παρέχουν μια κατάταξη στα χαρακτηριστικά για την κατάτμηση των πλειάδων εκπαίδευσης.
Οι πιο δημοφιλείς μέθοδοι επιλογής του χαρακτηριστικού είναι το κέρδος πληροφοριών, το ευρετήριο Gini.
# 1) Κέρδος πληροφοριών
Αυτή η μέθοδος είναι η κύρια μέθοδος που χρησιμοποιείται για την κατασκευή δέντρων αποφάσεων. Μειώνει τις πληροφορίες που απαιτούνται για την ταξινόμηση των πλειάδων. Μειώνει τον αριθμό των δοκιμών που απαιτούνται για την ταξινόμηση της δεδομένης πλειάδας. Επιλέγεται το χαρακτηριστικό με το υψηλότερο κέρδος πληροφοριών.
Οι αρχικές πληροφορίες που απαιτούνται για την ταξινόμηση μιας πλειάδας στο σύνολο δεδομένων Δ δίνονται από:
συσκευές δικτύου και τα επίπεδα osi τους
Όπου p είναι η πιθανότητα ότι η πλειάδα ανήκει στην κλάση C. Οι πληροφορίες κωδικοποιούνται σε bits, επομένως χρησιμοποιείται το log to the base 2. Το E (s) αντιπροσωπεύει τον μέσο όρο πληροφοριών που απαιτούνται για να μάθετε την ετικέτα κλάσης του συνόλου δεδομένων D. Αυτό το κέρδος πληροφοριών ονομάζεται επίσης Εντροπία .
Οι πληροφορίες που απαιτούνται για την ακριβή ταξινόμηση μετά την κατανομή δίδονται από τον τύπο:
Όπου P (c) είναι το βάρος του διαμερίσματος. Αυτές οι πληροφορίες αντιπροσωπεύουν τις πληροφορίες που απαιτούνται για την ταξινόμηση του συνόλου δεδομένων D κατά την κατανομή με X.
Το κέρδος πληροφοριών είναι η διαφορά μεταξύ των αρχικών και των αναμενόμενων πληροφοριών που απαιτούνται για την ταξινόμηση των πλειάδων του συνόλου δεδομένων D.
Κέρδος είναι η μείωση των πληροφοριών που απαιτούνται γνωρίζοντας την τιμή του Χ. Το χαρακτηριστικό με το υψηλότερο κέρδος πληροφοριών επιλέγεται ως «καλύτερο».
# 2) Αναλογία κέρδους
Η απόκτηση πληροφοριών μπορεί μερικές φορές να οδηγήσει σε διαχωρισμό άχρηστο για ταξινόμηση. Ωστόσο, η αναλογία κέρδους χωρίζει το σύνολο δεδομένων εκπαίδευσης σε διαμερίσματα και λαμβάνει υπόψη τον αριθμό των πλειάδων του αποτελέσματος σε σχέση με τις συνολικές πλειάδες. Το χαρακτηριστικό με τη μέγιστη αναλογία κέρδους χρησιμοποιείται ως χαρακτηριστικό διαχωρισμού.
# 3) Δείκτης Gini
Ο δείκτης Gini υπολογίζεται μόνο για δυαδικές μεταβλητές. Μετρά την ακαθαρσία στις πλειάδες κατάρτισης του συνόλου δεδομένων D, ως
P είναι η πιθανότητα ότι η πλειάδα ανήκει στην κλάση C. Ο δείκτης Gini που υπολογίζεται για το σύνολο δεδομένων δυαδικού διαχωρισμού D με το χαρακτηριστικό Α δίνεται από:
Όπου n είναι το ένατο διαμέρισμα του συνόλου δεδομένων D.
Η μείωση της ακαθαρσίας δίνεται από τη διαφορά του δείκτη Gini του αρχικού συνόλου δεδομένων D και του δείκτη Gini μετά την κατάτμηση με το χαρακτηριστικό A.
Η μέγιστη μείωση της ακαθαρσίας ή ο δείκτης max Gini επιλέγεται ως το καλύτερο χαρακτηριστικό για διαχωρισμό.
Υπερφόρτωση στα δέντρα απόφασης
Η υπερφόρτωση συμβαίνει όταν ένα δέντρο αποφάσεων προσπαθεί να είναι όσο το δυνατόν πιο τέλειο, αυξάνοντας το βάθος των δοκιμών και μειώνοντας έτσι το σφάλμα. Αυτό έχει ως αποτέλεσμα πολύ σύνθετα δέντρα και οδηγεί σε υπερβολική τοποθέτηση.
Η υπερβολική τοποθέτηση μειώνει την προγνωστική φύση του δέντρου αποφάσεων. Οι προσεγγίσεις για την αποφυγή της υπερβολικής τοποθέτησης των δέντρων περιλαμβάνουν προ κλάδεμα και μετά το κλάδεμα.
Τι είναι το κλάδεμα δέντρων;
Το κλάδεμα είναι η μέθοδος αφαίρεσης των αχρησιμοποίητων κλάδων από το δέντρο αποφάσεων. Ορισμένοι κλάδοι του δέντρου αποφάσεων ενδέχεται να αντιπροσωπεύουν ακραία ή θορυβώδη δεδομένα.
Το κλάδεμα δέντρων είναι η μέθοδος μείωσης των ανεπιθύμητων κλαδιών του δέντρου. Αυτό θα μειώσει την πολυπλοκότητα του δέντρου και θα βοηθήσει στην αποτελεσματική προγνωστική ανάλυση. Μειώνει την υπερβολική τοποθέτηση καθώς αφαιρεί τα ασήμαντα κλαδιά από τα δέντρα.
Υπάρχουν δύο τρόποι κλαδέματος του δέντρου:
# 1) Κλάδεμα : Σε αυτήν την προσέγγιση, η κατασκευή του δέντρου αποφάσεων σταματά νωρίς. Αυτό σημαίνει ότι αποφασίζεται να μην χωριστούν περαιτέρω τα κλαδιά. Ο τελευταίος κόμβος που κατασκευάζεται γίνεται ο κόμβος φύλλων και αυτός ο κόμβος φύλλων μπορεί να διατηρεί την πιο συχνή κατηγορία μεταξύ των πλειάδων.
Τα μέτρα επιλογής χαρακτηριστικών χρησιμοποιούνται για να διαπιστωθεί η βαρύτητα του διαχωρισμού. Οι τιμές κατωφλίου ορίζονται για να αποφασίσουν ποια διαχωριστικά θεωρούνται χρήσιμα. Εάν η κατανομή του κόμβου έχει ως αποτέλεσμα τη διάσπαση πέφτοντας κάτω από το όριο, τότε η διαδικασία διακόπτεται.
# 2) Μετά τον κλάδεμα : Αυτή η μέθοδος αφαιρεί τα εξωτερικά κλαδιά από ένα πλήρως αναπτυγμένο δέντρο. Τα ανεπιθύμητα κλαδιά αφαιρούνται και αντικαθίστανται από έναν κόμβο φύλλων που δηλώνει την πιο συχνή ετικέτα κλάσης. Αυτή η τεχνική απαιτεί περισσότερους υπολογισμούς από την προεκκίνηση, ωστόσο, είναι πιο αξιόπιστη.
Τα κλαδεμένα δέντρα είναι πιο ακριβή και συμπαγή σε σύγκριση με τα μη κλαδεμένα δέντρα, αλλά φέρουν ένα μειονέκτημα της αναπαραγωγής και της επανάληψης.
Η επανάληψη εμφανίζεται όταν το ίδιο χαρακτηριστικό δοκιμάζεται ξανά και ξανά κατά μήκος ενός κλάδου ενός δέντρου. Αναπαραγωγή συμβαίνει όταν τα διπλά δευτερεύοντα δέντρα υπάρχουν μέσα στο δέντρο. Αυτά τα ζητήματα μπορούν να επιλυθούν με διαχωρισμούς πολλαπλών παραλλαγών.
Η παρακάτω εικόνα δείχνει ένα μη κλαδεμένο και κλαδεμένο δέντρο.
Παράδειγμα αλγορίθμου δέντρων απόφασης
Παράδειγμα Πηγή
σύνταξη python vs c ++
Κατασκευή ενός δέντρου αποφάσεων
Ας πάρουμε ένα παράδειγμα του συνόλου δεδομένων καιρού των τελευταίων 10 ημερών με χαρακτηριστικά, θερμοκρασία, άνεμο και υγρασία. Η μεταβλητή αποτελέσματος θα παίζει κρίκετ ή όχι. Θα χρησιμοποιήσουμε τον αλγόριθμο ID3 για να δημιουργήσουμε το δέντρο αποφάσεων.
Ημέρα | Αποψη | Θερμοκρασία | Υγρασία | Ανεμος | Παίζω κρίκετ |
---|---|---|---|---|---|
7 | Νεφελώδης | Δροσερός | Κανονικός | Ισχυρός | Ναί |
1 | Ηλιόλουστος | Ζεστό | Υψηλός | Αδύναμος | Μην |
δύο | Ηλιόλουστος | Ζεστό | Υψηλός | Ισχυρός | Μην |
3 | Νεφελώδης | Ζεστό | Υψηλός | Αδύναμος | Ναί |
4 | Βροχή | Ήπιος | Υψηλός | Αδύναμος | Ναί |
5 | Βροχή | Δροσερός | Κανονικός | Αδύναμος | Ναί |
6 | Βροχή | Δροσερός | Κανονικός | Ισχυρός | Μην |
8 | Ηλιόλουστος | Ήπιος | Υψηλός | Αδύναμος | Μην |
9 | Ηλιόλουστος | Δροσερός | Κανονικός | Αδύναμος | Ναί |
10 | Βροχή | Ήπιος | Κανονικός | Αδύναμος | Ναί |
έντεκα | Ηλιόλουστος | Ήπιος | Κανονικός | Ισχυρός | Ναί |
12 | Νεφελώδης | Ήπιος | Υψηλός | Ισχυρός | Ναί |
13 | Νεφελώδης | Ζεστό | Κανονικός | Αδύναμος | Ναί |
14 | Βροχή | Ήπιος | Υψηλός | Ισχυρός | Μην |
Βήμα 1: Το πρώτο βήμα θα είναι η δημιουργία ενός ριζικού κόμβου.
Βήμα 2: Εάν όλα τα αποτελέσματα είναι ναι, τότε ο κόμβος φύλλων 'ναι' θα επιστραφεί αλλιώς ο κόμβος φύλλων 'όχι' θα επιστραφεί.
Βήμα 3: Μάθετε την Εντροπία όλων των παρατηρήσεων και την εντροπία με το χαρακτηριστικό 'x' που είναι E (S) και E (S, x).
Βήμα 4: Μάθετε το κέρδος πληροφοριών και επιλέξτε το χαρακτηριστικό με υψηλό κέρδος πληροφοριών.
Βήμα 5: Επαναλάβετε τα παραπάνω βήματα μέχρι να καλυφθούν όλα τα χαρακτηριστικά.
Υπολογισμός εντροπίας:
ναι όχι
9 5
Εάν η εντροπία είναι μηδέν, αυτό σημαίνει ότι όλα τα μέλη ανήκουν στην ίδια τάξη και αν η εντροπία είναι μία τότε σημαίνει ότι τα μισά από τα πλειάκια ανήκουν σε μια τάξη και μία από αυτές ανήκει σε άλλη τάξη. 0,94 σημαίνει δίκαιη κατανομή.
Βρείτε το χαρακτηριστικό απόκτησης πληροφοριών που δίνει το μέγιστο κέρδος πληροφοριών.
Για παράδειγμα 'Wind', παίρνει δύο τιμές: Ισχυρή και αδύναμη, επομένως, x = {Ισχυρή, αδύναμη}.
Μάθετε H (x), P (x) για x = αδύναμο και x = ισχυρό. Το H (S) έχει ήδη υπολογιστεί παραπάνω.
Αδύναμο = 8
Ισχυρή = 8
Για τον «αδύναμο» άνεμο, 6 από αυτούς λένε «Ναι» για να παίξουν κρίκετ και 2 από αυτούς λένε «Όχι». Έτσι η εντροπία θα είναι:
Για τον «δυνατό» άνεμο, ο 3 είπε «Όχι» για να παίξει κρίκετ και ο 3 είπε «Ναι».
Αυτό δείχνει τέλεια τυχαιότητα καθώς τα μισά αντικείμενα ανήκουν σε μια τάξη και τα υπόλοιπα μισά ανήκουν σε άλλα.
Υπολογίστε το κέρδος πληροφοριών,
Ομοίως, το κέρδος πληροφοριών για άλλα χαρακτηριστικά είναι:
Η προοπτική χαρακτηριστικών έχει το υψηλότερο κέρδος πληροφοριών 0,246, έτσι επιλέγεται ως ρίζα.
Η συννεφιά έχει 3 τιμές: Sunny, Overcast και Rain. Συννεφιάζω με το παιχνίδι κρίκετ είναι πάντα «Ναι». Έτσι καταλήγει σε έναν κόμβο φύλλων, «ναι». Για τις άλλες τιμές 'Sunny' και 'Rain'.
Ο πίνακας για το Outlook ως 'Sunny' θα είναι:
Θερμοκρασία | Υγρασία | Ανεμος | Γκολφ |
---|---|---|---|
Ζεστό | Υψηλός | Αδύναμος | Μην |
Ζεστό | Υψηλός | Ισχυρός | Μην |
Ήπιος | Υψηλός | Αδύναμος | Μην |
Δροσερός | Κανονικός | Αδύναμος | Ναί |
Ήπιος | Κανονικός | Ισχυρός | Ναί |
Η εντροπία για το 'Outlook' 'Sunny' είναι:
Το κέρδος πληροφοριών για χαρακτηριστικά σχετικά με το Sunny είναι:
Το κέρδος πληροφοριών για την υγρασία είναι το υψηλότερο, επομένως επιλέγεται ως ο επόμενος κόμβος. Ομοίως, το Entropy υπολογίζεται για το Rain. Ο άνεμος δίνει το υψηλότερο κέρδος πληροφοριών .
Το δέντρο αποφάσεων θα μοιάζει παρακάτω:
Τι είναι η Προγνωστική Μοντελοποίηση;
Τα μοντέλα ταξινόμησης μπορούν να χρησιμοποιηθούν για την πρόβλεψη των αποτελεσμάτων ενός άγνωστου συνόλου χαρακτηριστικών.
Όταν ένα σύνολο δεδομένων με άγνωστες ετικέτες κλάσης τροφοδοτείται στο μοντέλο, τότε θα εκχωρήσει αυτόματα την ετικέτα τάξης σε αυτό. Αυτή η μέθοδος εφαρμογής πιθανότητας πρόβλεψης των αποτελεσμάτων ονομάζεται προγνωστική μοντελοποίηση.
Πλεονεκτήματα της ταξινόμησης δέντρων απόφασης
Παρακάτω αναφέρονται τα διάφορα πλεονεκτήματα της ταξινόμησης δέντρων απόφασης:
- Η ταξινόμηση του δέντρου αποφάσεων δεν απαιτεί γνώση τομέα, επομένως, είναι κατάλληλο για τη διαδικασία ανακάλυψης γνώσεων.
- Η αναπαράσταση των δεδομένων με τη μορφή του δέντρου γίνεται εύκολα κατανοητή από τους ανθρώπους και είναι διαισθητική.
- Μπορεί να χειριστεί πολυδιάστατα δεδομένα.
- Είναι μια γρήγορη διαδικασία με μεγάλη ακρίβεια.
Μειονεκτήματα της ταξινόμησης δέντρων απόφασης
Παρακάτω αναφέρονται τα διάφορα μειονεκτήματα της ταξινόμησης δέντρων απόφασης:
- Μερικές φορές τα δέντρα αποφάσεων γίνονται πολύ περίπλοκα και αυτά ονομάζονται υπερδένια.
- Ο αλγόριθμος του δέντρου αποφάσεων μπορεί να μην είναι η βέλτιστη λύση.
- Τα δέντρα αποφάσεων ενδέχεται να επιστρέψουν μια προκατειλημμένη λύση εάν κυριαρχήσει κάποια ετικέτα κατηγορίας.
συμπέρασμα
Τα δέντρα απόφασης είναι τεχνικές εξόρυξης δεδομένων για ταξινόμηση και ανάλυση παλινδρόμησης.
Αυτή η τεχνική εκτείνεται τώρα σε πολλούς τομείς όπως ιατρική διάγνωση, μάρκετινγκ στόχου, κ.λπ. Αυτά τα δέντρα κατασκευάζονται ακολουθώντας έναν αλγόριθμο όπως το ID3, CART. Αυτοί οι αλγόριθμοι βρίσκουν διαφορετικούς τρόπους για να χωρίσουν τα δεδομένα σε κατατμήσεις.
Είναι η πιο γνωστή τεχνική εποπτευόμενης μάθησης που χρησιμοποιείται στη μηχανική μάθηση και στην ανάλυση προτύπων. Τα δέντρα αποφάσεων προβλέπουν τις τιμές της μεταβλητής στόχου με τη δημιουργία μοντέλων μέσω της εκμάθησης από το εκπαιδευτικό σύνολο που παρέχεται στο σύστημα.
Ελπίζουμε να έχετε μάθει τα πάντα σχετικά με το Decision Tree Mining από αυτό το ενημερωτικό σεμινάριο !!
Εκπαιδευτικό πρόγραμμα PREV | ΕΠΟΜΕΝΟ Φροντιστήριο
Συνιστώμενη ανάγνωση
- Παραδείγματα εξόρυξης δεδομένων: Οι πιο κοινές εφαρμογές της εξόρυξης δεδομένων 2021
- Τεχνικές Εξόρυξης Δεδομένων: Αλγόριθμος, Μέθοδοι & Κορυφαία Εργαλεία Εξόρυξης Δεδομένων
- Εξόρυξη δεδομένων: Διαδικασία, τεχνικές και σημαντικά ζητήματα στην ανάλυση δεδομένων
- B Δομή Δέντρων και Δ + Δέντρων Δεδομένων σε C ++
- Δομή Δυαδικών Δέντρων Στο C ++
- Διαδικασία εξόρυξης δεδομένων: Συμπεριλαμβάνονται μοντέλα, βήματα διαδικασίας και προκλήσεις
- Δομή δεδομένων δέντρων και σωρού AVL σε C ++
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning