Tabla de Contenidos

8. Optimización de redes neuronales: Apendices

Regularización

Vamos a suponer la siguiente función de pérdida:

$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } $$

L1 (Lasso)

Hace que los pesos tiendan a ser cero

$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } + \alpha \frac 1 m \displaystyle\sum_{j=1}^{m} {|w_j|^1} $$

El uso del valor absoluto hace que cuanto mas pequeño sea el valor de w, menos sea el error.

Sirve para:

L2 (Ridge)

Hace que los pesos tiendan a tener un valor bajo pero no es necesario que sena tan bajos como con L1

$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } + \alpha \frac 1 {2m} \displaystyle\sum_{j=1}^{m} {|w_j|^2} $$

El uso de elevar al cuadrado hace que para valores entre -1 y 1, se hagan aun mas pequeños los w por lo que no es necesario que sena tan cercanos a cero.

Sirve para:

Podemos ver la difrencia entre la función del valor absoluto (L1) y elevar al cuadrado (L2) aquí: GeoGebra L1 y L2

L1 y L2 (ElasticNet)

Es la unión de L1 y L2.

Parece un nuevo hiperparámetro r que indica si queremos que se de mas importancia a L1 o a L2.

$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } + r \cdot \alpha \frac 1 m \displaystyle\sum_{j=1}^{m} {|w_j|^1} + (1-r) \cdot \alpha \frac 1 {2m} \displaystyle\sum_{j=1}^{m} {|w_j|^2} $$