Vamos a suponer la siguiente función de pérdida:
$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } $$
Hace que los pesos tiendan a ser cero
$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } + \alpha \frac 1 m \displaystyle\sum_{j=1}^{m} {|w_j|^1} $$
El uso del valor absoluto hace que cuanto mas pequeño sea el valor de w
, menos sea el error.
Sirve para:
Hace que los pesos tiendan a tener un valor bajo pero no es necesario que sena tan bajos como con L1
$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } + \alpha \frac 1 {2m} \displaystyle\sum_{j=1}^{m} {|w_j|^2} $$
El uso de elevar al cuadrado hace que para valores entre -1 y 1, se hagan aun mas pequeños los w
por lo que no es necesario que sena tan cercanos a cero.
Sirve para:
Es la unión de L1 y L2.
Parece un nuevo hiperparámetro r
que indica si queremos que se de mas importancia a L1 o a L2.
$$ Error=\frac 1 n \displaystyle\sum_{i=1}^{n} {(y_i-y'_i)^2 } + r \cdot \alpha \frac 1 m \displaystyle\sum_{j=1}^{m} {|w_j|^1} + (1-r) \cdot \alpha \frac 1 {2m} \displaystyle\sum_{j=1}^{m} {|w_j|^2} $$