Logo ca.boatexistence.com

Per què descens de gradient estocàstic?

Taula de continguts:

Per què descens de gradient estocàstic?
Per què descens de gradient estocàstic?

Vídeo: Per què descens de gradient estocàstic?

Vídeo: Per què descens de gradient estocàstic?
Vídeo: Градиентный спуск, шаг за шагом 2024, Maig
Anonim

Segons un científic de dades sènior, un dels diferents avantatges d'utilitzar el descens del gradient estocàstic és que fa els càlculs més ràpid que el descens del gradient i el descens del gradient per lots… A més, a conjunts de dades massius, el descens del gradient estocàstic pot convergir més ràpidament perquè realitza actualitzacions amb més freqüència.

Per a què serveix el descens de gradient estocàstic?

El descens del gradient estocàstic és un algorisme d'optimització que s'utilitza sovint a les aplicacions d'aprenentatge automàtic per trobar els paràmetres del model que corresponen al millor ajust entre els resultats previstos i els reals És una tècnica inexacta però potent. El descens de gradient estocàstic s'utilitza àmpliament en aplicacions d'aprenentatge automàtic.

Per què hem d'utilitzar el descens del gradient estocàstic en lloc del descens estàndard del gradient per entrenar una xarxa neuronal convolucional?

Descens del gradient estocàstic actualitza els paràmetres per a cada observació, la qual cosa comporta més actualitzacions. Per tant, és un enfocament més ràpid que ajuda a la presa de decisions més ràpida. Es poden notar actualitzacions més ràpides en diferents direccions en aquesta animació.

Per què preferim la baixada en desnivell?

La raó principal per la qual s'utilitza el descens del gradient per a la regressió lineal és la complexitat computacional: és més barat (més ràpid) computacionalment trobar la solució utilitzant el descens del gradient en alguns casos. Aquí, heu de calcular la matriu X′X i després invertir-la (vegeu la nota a continuació). És un càlcul car.

Per què s'utilitza SGD?

La baixada del gradient estocàstic (sovint abreujat SGD) és un mètode iteratiu per optimitzar una funció objectiva amb propietats de suavitat adequades (p. ex., diferenciable o subdiferenciable).

Recomanat: