Το Stochastic gradient descent (SGD) είναι ένας δημοφιλής αλγόριθμος βελτιστοποίησης που χρησιμοποιείται στη μηχανική μάθηση, τη βαθιά μάθηση και τα νευρωνικά δίκτυα για την ελαχιστοποίηση της συνάρτησης απώλειας (γνωστή και ως συνάρτηση κόστους, συνάρτηση σφάλματος ή αντικειμενική συνάρτηση) κατά τη διάρκεια της εκπαίδευσης.
Σε αντίθεση με τον παραδοσιακό αλγόριθμο gradient descent που ενημερώνει τις παραμέτρους του μοντέλου για κάθε παράδειγμα εκπαίδευσης (παρτίδα), το SGD ενημερώνει τις παραμέτρους για κάθε μεμονωμένο παράδειγμα εκπαίδευσης. Με άλλα λόγια, το SGD επιλέγει ένα μόνο παράδειγμα εκπαίδευσης τυχαία, υπολογίζει τη διαβάθμιση της συνάρτησης απώλειας σε σχέση με τις παραμέτρους του μοντέλου χρησιμοποιώντας αυτό το παράδειγμα και στη συνέχεια ενημερώνει τις παραμέτρους προς την κατεύθυνση αυτής της κλίσης.
Το SGD χρησιμοποιείται ευρέως επειδή είναι υπολογιστικά αποδοτικό, απαιτεί λιγότερη μνήμη από το batch gradient descent και μπορεί να συγκλίνει γρηγορότερα καθώς οι ενημερώσεις των παραμέτρων γίνονται πιο συχνά. Ωστόσο, μπορεί να είναι ευαίσθητο στον ρυθμό εκμάθησης και στην επιλογή του μεγέθους της μίνι παρτίδας που μπορεί να επηρεάσει την απόδοσή του.
Ημερομηνία έκδοσης: