Vamos a suponer la siguiente función de pérdida:
Error=1nn∑i=1(yi−y′i)2
Hace que los pesos tiendan a ser cero
Error=1nn∑i=1(yi−y′i)2+α1mm∑j=1|wj|1
El uso del valor absoluto hace que cuanto mas pequeño sea el valor de w
, menos sea el error.
Sirve para:
Hace que los pesos tiendan a tener un valor bajo pero no es necesario que sena tan bajos como con L1
Error=1nn∑i=1(yi−y′i)2+α12mm∑j=1|wj|2
El uso de elevar al cuadrado hace que para valores entre -1 y 1, se hagan aun mas pequeños los w
por lo que no es necesario que sena tan cercanos a cero.
Sirve para:
Es la unión de L1 y L2.
Parece un nuevo hiperparámetro r
que indica si queremos que se de mas importancia a L1 o a L2.
Error=1nn∑i=1(yi−y′i)2+r⋅α1mm∑j=1|wj|1+(1−r)⋅α12mm∑j=1|wj|2