Regularização no ponto de vista do gradiente [Propagação de retrocesso manual no Tensorflow]

Qual o efeito da regularização no gradiente?

Jae Duk Seo Blocked Unblock Seguir Seguindo 5 de janeiro GIF deste site

Regularização é como o gato mostrado acima, quando alguns dos pesos querem ser "grandes" em magnitude, nós os penalizamos. E hoje eu queria ver que tipo de mudanças o termo de regularização traz ao gradiente. Abaixo está a lista de diferentes termos de regularização que vamos comparar. (? é o peso de cada camada).

Z. Linha de Base (sem regularização)
A. ?²
(regressão de Ridge)
B. abs (?) + sqrt (abs (?) ²)
( Rede Elástica )
C. ?
(do artigo “ Comparando Medidas de Esparsidade ”)
D. sqrt (?²)
(do artigo “ Comparando Medidas de Esparsidade ”)
E. abs (?)
(norma p com um valor p de 1)
F. sqrt (abs (?) ²)
(norma p com um valor p de 2)
G. sqrt (?²) / ?
(do artigo “ Comparando Medidas de Esparsidade ”)
H. -tanh (?)
(do artigo “ Comparando Medidas de Esparsidade ”)
I. -tanh (?²)
(do artigo “ Comparando Medidas de Esparsidade ”)
J. -log (1 + ?²)
(do artigo “ Comparando Medidas de Esparsidade ”)