Što je stohastički gradijentni pad?

Stohastički gradijentni pad (SGD) popularan je optimizacijski algoritam koji se koristi u strojnom učenju, dubokom učenju i neuronskim mrežama za minimiziranje funkcije gubitka (također poznate kao funkcija troška, ​​funkcija pogreške ili funkcija cilja) tijekom obuke.

Za razliku od tradicionalnog algoritma spuštanja s gradijentom koji ažurira parametre modela za svaki primjer obuke (seriju), SGD ažurira parametre za svaki pojedinačni primjer obuke. Drugim riječima, SGD nasumično odabire jedan primjer obuke, izračunava gradijent funkcije gubitka s obzirom na parametre modela koristeći taj primjer, a zatim ažurira parametre u smjeru tog gradijenta.

SGD se naširoko koristi jer je računalno učinkovit, zahtijeva manje memorije od paketnog gradijentnog spuštanja i može konvergirati brže jer se parametri češće ažuriraju. Međutim, može biti osjetljiv na brzinu učenja i izbor veličine mini serije što može utjecati na njegovu izvedbu.

Datum objave: