Capítulo 35 – A Matemática do Problema de Dissipação do Gradiente em Deep Learning
Vamos continuar a discussão iniciada no capítulo anterior. Para entender porque o problema da dissipação do gradiente ocorre, vamos considerar a rede neural profunda mais simples: uma com apenas um único neurônio em cada camada. Aqui está uma rede com três camadas ocultas: Aqui, w1, w2,… são os pesos, b1, b2,… são os …