Per què lstm soluciona el gradient que es va esvaint?

Per què lstm soluciona el gradient que es va esvaint?
Per què lstm soluciona el gradient que es va esvaint?
Anonim

Els

LSTM resolen el problema mitjançant una estructura de gradient additiva única que inclou accés directe a les activacions de la porta oblida, permetent que la xarxa fomenti el comportament desitjat des del gradient d'error mitjançant l'actualització freqüent de les portes en cada pas del procés d'aprenentatge.

Com soluciona LSTM el gradient explosiu?

Una resposta molt curta: LSTM desacobla l'estat de la cel·la (normalment indicat amb c) i la capa/sortida oculta (normalment es denota amb h), i només fa actualitzacions additives a c, la qual cosa fa que les memòries en c siguin més estables. Així, el gradient que flueix per c es manté i és difícil desaparèixer (per tant, el gradient general és difícil d'esvair).

Com es pot resoldre el problema del gradient de desaparició?

Solucions: la solució més senzilla és utilitzar altres funcions d'activació, com ara ReLU, que no provoca cap petit derivat. Les xarxes residuals són una altra solució, ja que proporcionen connexions residuals directament a capes anteriors.

Quin problema soluciona LSTM?

LSTM. LSTM (abreviatura de memòria a curt termini a llarg termini) soluciona principalment el problema del gradient que desapareix en la retropropagació. Els LSTM utilitzen un mecanisme de gating que controla el procés de memoizing. La informació dels LSTM es pot emmagatzemar, escriure o llegir mitjançant portes que s'obren i es tanquen.

Per què els LSTM impedeixen que els vostres gradients desapareixin una vista des del pas enrere?

La raó d'això és perquè, per tal d'aplicar aquest flux d'error constant, el càlcul del gradient es va truncar per no tornar a les portes d'entrada o candidates..

Recomanat: