Stohastički gradijentni pad (SGD) popularan je optimizacijski algoritam koji se koristi u strojnom učenju, dubokom učenju i neuronskim mrežama za minimiziranje funkcije gubitka (također poznate kao funkcija troška, funkcija pogreške ili funkcija cilja) tijekom obuke.
Za razliku od tradicionalnog algoritma spuštanja s gradijentom koji ažurira parametre modela za svaki primjer obuke (seriju), SGD ažurira parametre za svaki pojedinačni primjer obuke. Drugim riječima, SGD nasumično odabire jedan primjer obuke, izračunava gradijent funkcije gubitka s obzirom na parametre modela koristeći taj primjer, a zatim ažurira parametre u smjeru tog gradijenta.
SGD se naširoko koristi jer je računalno učinkovit, zahtijeva manje memorije od paketnog gradijentnog spuštanja i može konvergirati brže jer se parametri češće ažuriraju. Međutim, može biti osjetljiv na brzinu učenja i izbor veličine mini serije što može utjecati na njegovu izvedbu.
Datum objave: