Стохастично градиентно спускане (SGD) е популярен алгоритъм за оптимизация, използван в машинното обучение, дълбокото обучение и невронните мрежи за минимизиране на функцията на загубата (известна също като функция на разходите, функция на грешката или целева функция) по време на обучение.
За разлика от традиционния алгоритъм за градиентно спускане, който актуализира параметрите на модела за всеки пример за обучение (партида), SGD актуализира параметрите за всеки отделен пример за обучение. С други думи, SGD избира единичен пример за обучение на случаен принцип, изчислява градиента на функцията на загуба по отношение на параметрите на модела, използвайки този пример, и след това актуализира параметрите в посока на този градиент.
SGD се използва широко, защото е ефективен от изчислителна гледна точка, изисква по-малко памет от спускането на партиден градиент и може да се сближава по-бързо, тъй като актуализациите на параметрите се правят по-често. Въпреки това, той може да бъде чувствителен към скоростта на обучение и избора на размера на мини-партида, което може да повлияе на неговата производителност.
Дата на публикуване: