Herramientas de usuario

Herramientas del sitio


clase:iabd:pia:2eval:tema07-apendices-metricas

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
clase:iabd:pia:2eval:tema07-apendices-metricas [2024/03/09 19:34]
admin [Otras métricas]
clase:iabd:pia:2eval:tema07-apendices-metricas [2024/03/19 19:50]
admin borrado
Línea 35: Línea 35:
 ^  ^  Fórmula que usan  ^^^^^ ^  ^  Fórmula que usan  ^^^^^
 ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^ ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^
-| Sensibilidad (TPR) y Especificidad (TNR)  |  $Balanced \; Accuracy=\frac{TPR+TNR}{2}$  |    |    |  $Informedness=TPR+TNR-1$ |   |+| Sensibilidad (TPR) y Especificidad (TNR)  |    |    |    |  $Informedness=TPR+TNR-1$ |   |
 | Sensibilidad (TPR) y FPR  |    |    |    |    $Positive \; likelihood \; ratio=\frac{TPR}{FPR}$ | | Sensibilidad (TPR) y FPR  |    |    |    |    $Positive \; likelihood \; ratio=\frac{TPR}{FPR}$ |
 | Especificidad (TNR) y FNR  |    |    |    |    $Negative \; likelihood \; ratio=\frac{FNR}{TNR}$ | | Especificidad (TNR) y FNR  |    |    |    |    $Negative \; likelihood \; ratio=\frac{FNR}{TNR}$ |
 | FPR y FNR  |    |    |     | | FPR y FNR  |    |    |     |
 +
 +Mas información:
 +  * [[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2749250/|Youden Index and the optimal threshold for markers with mass at zero]]: El indice Youden es el máximo Informedness según el threshold
 +  * {{ :clase:iabd:pia:2eval:youden-index_for_rating_diagnostic_tests.pdf |Youden-Index for rating diagnostic tests}}: Explicación del índica Informedness o indice Youden
 +
 +$$
 +Youden \; Index=maximo \{ sensibilidad(threhold)+especificidad(threhold)-1 \} \;\; threshold \in [0,1]
 +$$
  
 \\ \\
Línea 46: Línea 54:
 ^  ^  Fórmula que usan  ^^^^^ ^  ^  Fórmula que usan  ^^^^^
 ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^ ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^
-| Sensibilidad (TPR) y Especificidad (TNR)  |    |  $\frac{1}{\frac{1}{TPR}+\frac{1}{TNR}}$  |  $\sqrt{TPR*TNR}$  |    $\frac{TPR}{TNR}$ y $\frac{TNR}{TPR}$ | +| Sensibilidad (TPR) y Especificidad (TNR)  |  $\frac{TPR+TNR}{2}$  |  $\frac{2}{\frac{1}{TPR}+\frac{1}{TNR}}$  |  $\sqrt{TPR*TNR}$  |    $\frac{TPR}{TNR}$ y $\frac{TNR}{TPR}$ | 
-| Sensibilidad (TPR) y FPR  |  $\frac{TPR+FPR}{2}$  |  $\frac{1}{\frac{1}{TPR}+\frac{1}{FPR}}$  |  $\sqrt{TPR*FPR}$  |  $TPR+FPR-1$ |  $\frac{FPR}{TPR}$ | +| Sensibilidad (TPR) y FPR  |  $\frac{TPR+FPR}{2}$  |  $\frac{2}{\frac{1}{TPR}+\frac{1}{FPR}}$  |  $\sqrt{TPR*FPR}$  |  $TPR+FPR-1$ |  $\frac{FPR}{TPR}$ | 
-| Especificidad (TNR) y FNR  |  $\frac{TNR+FNR}{2}$  |  $\frac{1}{\frac{1}{TNR}+\frac{1}{FNR}}$  |  $\sqrt{TNR*FNR}$  |  $TNR+FNR-1$ |  $\frac{TNR}{FNR}$ | +| Especificidad (TNR) y FNR  |  $\frac{TNR+FNR}{2}$  |  $\frac{2}{\frac{1}{TNR}+\frac{1}{FNR}}$  |  $\sqrt{TNR*FNR}$  |  $TNR+FNR-1$ |  $\frac{TNR}{FNR}$ | 
-| FPR y FNR  |  $\frac{FPR+FNR}{2}$  |  $\frac{1}{\frac{1}{FPR}+\frac{1}{FNR}}$  |  $\sqrt{FPR*FNR}$  |  $FPR+FNR-1$ |  $\frac{FNR}{FPR}$ y $\frac{FPR}{FNR}$ |+| FPR y FNR  |  $\frac{FPR+FNR}{2}$  |  $\frac{2}{\frac{1}{FPR}+\frac{1}{FNR}}$  |  $\sqrt{FPR*FNR}$  |  $FPR+FNR-1$ |  $\frac{FNR}{FPR}$ y $\frac{FPR}{FNR}$ |
  
 <note tip> <note tip>
Línea 74: Línea 82:
 ^  ^  Fórmula que usan  ^^^^^ ^  ^  Fórmula que usan  ^^^^^
 ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^ ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^
-| PPV y NPV  |  $\frac{PPV+NPV}{2}$  |  $\frac{1}{\frac{1}{PPV}+\frac{1}{NPV}}$  |  $\sqrt{PPV*NPV}$  |    $\frac{PPV}{NPV}$ y $\frac{NPV}{PPV}$ | +| PPV y NPV  |  $\frac{PPV+NPV}{2}$  |  $\frac{2}{\frac{1}{PPV}+\frac{1}{NPV}}$  |  $\sqrt{PPV*NPV}$  |    $\frac{PPV}{NPV}$ y $\frac{NPV}{PPV}$ | 
-| PPV y FOR  |  $\frac{PPV+FOR}{2}$  |  $\frac{1}{\frac{1}{PPV}+\frac{1}{FOR}}$  |  $\sqrt{PPV*FOR}$  |  $PPV+FOR-1$ |  $\frac{PPV}{FOR}$ y $\frac{FOR}{PPV}$ | +| PPV y FOR  |  $\frac{PPV+FOR}{2}$  |  $\frac{2}{\frac{1}{PPV}+\frac{1}{FOR}}$  |  $\sqrt{PPV*FOR}$  |  $PPV+FOR-1$ |  $\frac{PPV}{FOR}$ y $\frac{FOR}{PPV}$ | 
-| NPV y FDR  |  $\frac{NPV+FDR}{2}$  |  $\frac{1}{\frac{1}{NPV}+\frac{1}{FDR}}$  |  $\sqrt{NPV*FDR}$  |  $NPV+FDR-1$ |  $\frac{NPV}{FDR}$ y $\frac{FDR}{NPV}$ | +| NPV y FDR  |  $\frac{NPV+FDR}{2}$  |  $\frac{2}{\frac{1}{NPV}+\frac{1}{FDR}}$  |  $\sqrt{NPV*FDR}$  |  $NPV+FDR-1$ |  $\frac{NPV}{FDR}$ y $\frac{FDR}{NPV}$ | 
-| FDR y FOR  |  $\frac{FDR+FOR}{2}$  |  $\frac{1}{\frac{1}{FDR}+\frac{1}{FOR}}$  |  $\sqrt{FDR*FOR}$  |  $FDR+FOR-1$ |  $\frac{FDR}{FOR}$ y $\frac{FOR}{FDR}$ |+| FDR y FOR  |  $\frac{FDR+FOR}{2}$  |  $\frac{2}{\frac{1}{FDR}+\frac{1}{FOR}}$  |  $\sqrt{FDR*FOR}$  |  $FDR+FOR-1$ |  $\frac{FDR}{FOR}$ y $\frac{FOR}{FDR}$ |
  
 <note tip> <note tip>
Línea 91: Línea 99:
 ^  ^  Fórmula que usan  ^^^^^ ^  ^  Fórmula que usan  ^^^^^
 ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^ ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^
-| PPV y Sensibilidad (TPR)  |    |  $F_{1}score=\frac{1}{\frac{1}{PPV}+\frac{1}{TPR}}$  |  $Fowlkes-Mallows \; index=\sqrt{PPV*TPR}$  |     |+| PPV y Sensibilidad (TPR)  |    |  $F_{1}score=\frac{2}{\frac{1}{PPV}+\frac{1}{TPR}}$  |  $Fowlkes-Mallows \; index=\sqrt{PPV*TPR}$  |     |
 | NPV y Especificidad (TNR)  |    |    |    |     | | NPV y Especificidad (TNR)  |    |    |    |     |
 \\ \\
Línea 100: Línea 108:
 ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^ ^  Métricas básicas que usan  ^  Media aritmética  ^  Media armónica  ^  Media geométrica  ^  Suma-1  ^  Ratio  ^
 | PPV y Sensibilidad (TPR)  |  $\frac{PPV+TPR}{2}$  |      |  $PPV+TPR-1$ |  $\frac{PPV}{TPR}$ y $\frac{TPR}{PPV}$ | | PPV y Sensibilidad (TPR)  |  $\frac{PPV+TPR}{2}$  |      |  $PPV+TPR-1$ |  $\frac{PPV}{TPR}$ y $\frac{TPR}{PPV}$ |
-| NPV y Especificidad (TNR)  |  $\frac{NPV+TNR}{2}$  |  $\frac{1}{\frac{1}{NPV}+\frac{1}{TNR}}$  |  $\sqrt{NPV*TNR}$  |  $NPV+TNR-1$ |  $\frac{NPV}{TNR}$ y $\frac{TNR}{NPV}$ |+| NPV y Especificidad (TNR)  |  $\frac{NPV+TNR}{2}$  |  $\frac{2}{\frac{1}{NPV}+\frac{1}{TNR}}$  |  $\sqrt{NPV*TNR}$  |  $NPV+TNR-1$ |  $\frac{NPV}{TNR}$ y $\frac{TNR}{NPV}$ |
  
-===== Otras métricas ===== +===== Más métricas derivadas ===== 
-Veamos ahora otras métricas que si que existen pero no encajan en organización que habíamos creado.+Veamos ahora otras métricas que derivamos a partir de las básicas que son Sensibilidad, Especificidad, Prevalencia, FPR y FNR.
  
 ==== Accuracy ==== ==== Accuracy ====
Línea 112: Línea 120:
 $$ $$
  
-Debido a que usa los 4 valores vamos a expresar la misma fórmula usando Especificidad, Sensibilidad y Prevalencia. Esto se hace ya que así podremos usar la prevalencia que queramos y no la de nuestros datos.+  * Debido a que usa los 4 valores vamos a expresar la misma fórmula usando Especificidad, Sensibilidad y Prevalencia. Esto se hace ya que así podremos usar la prevalencia que queramos y no la de nuestros datos.
  
 $$ $$
Línea 118: Línea 126:
 $$ $$
  
-Eso se puede expresar como la suma de 2 probabilidades+  * Eso se puede expresar como la suma de 2 probabilidades
  
 $$ $$
Línea 128: Línea 136:
 $$ $$
  
-Vamos a ver que para la prevalencia de los datos, las 2 fórmulas son iguales.+  * Por lo tanto la fórmula que como:
  
 $$ $$
-Sensibilidad*Prevalencia+Especificidad*(1-Prevalencia)=\frac{TP}{(TP+FN)}*\frac{(TP+FN)}{TP+FN+FP+TN}+\frac{TN}{(FP+TN)}*\frac{(FP+TN)}{TP+FN+FP+TN}=+Accuracy=Sensibilidad*Prevalencia+Especificidad*(1-Prevalencia)
 $$ $$
 +
 +
 +  * Vamos a ver que para la prevalencia de los datos, las 2 fórmulas son iguales.
  
 $$ $$
-\frac{TP}{TP+FN+FP+TN}+\frac{TN}{TP+FN+FP+TN}=\frac{TP+TN}{TP+FN+FP+TN}=Accuracy+Sensibilidad*Prevalencia+Especificidad*(1-Prevalencia)=\frac{TP}{(TP+FN)}*\frac{(TP+FN)}{TP+FN+FP+TN}+\frac{TN}{(FP+TN)}*\frac{(FP+TN)}{TP+FN+FP+TN}=
 $$ $$
- 
-Por lo tanto: 
  
 $$ $$
-Accuracy=Sensibilidad*Prevalencia+Especificidad*(1-Prevalencia)+\frac{TP}{TP+FN+FP+TN}+\frac{TN}{TP+FN+FP+TN}=\frac{TP+TN}{TP+FN+FP+TN}=Accuracy
 $$ $$
  
  
-==== Accuracy y Balanced Accuracy ==== 
  
-Veamos ahora la relación que hay entre //Accuracy// y //Balanced Accuracy//.+==== Balanced Accuracy ==== 
 +Realmente esta no es una nueva métrica sino que es la misma que //Accuracy// pero con una prevalencia del 0.
  
 $$ $$
Línea 153: Línea 163:
 $$ $$
  
-Pero si calculamos //Accuracy// suponiendo que la $Prevalencia=0.5$ obtenemos:+  * Pero si calculamos //Accuracy// suponiendo que la $Prevalencia=0.5$ obtenemos: 
 + 
 +$$ 
 +Accuracy=Sensibilidad*Prevalencia+Especificidad*(1-Prevalencia)= 
 +$$
  
 $$ $$
-Accuracy=Sensibilidad*Prevalencia+Especificidad*(1-Prevalencia)=Sensibilidad*0,5+Especificidad*(1-0,5)=+Sensibilidad*0,5+Especificidad*(1-0,5)=Sensibilidad*0,5+Especificidad*0,5=
 $$ $$
  
Línea 171: Línea 185:
 $$ $$
  
-Se deduce de la siguiente forma:+  * Se deduce de la siguiente forma:
  
 $$ $$
Línea 181: Línea 195:
 $$ $$
  
-Sabiendo que:+  * Sabiendo que:
  
 $$ $$
Línea 199: Línea 213:
 $$ $$
  
-Entonces:+  * Entonces:
  
 $$ $$
Línea 219: Línea 233:
 $$ $$
 \frac{TP}{TP+FP+FN}=Indice \; Jaccard \frac{TP}{TP+FP+FN}=Indice \; Jaccard
 +$$
 +
 +  * Sin embargo también podemos definir el Indice Jaccard en función de la sensibilidad, la especificidad y la prevalencia.Usando el teorema de bayes podemos definir P(Positivo) de la siguiente forma:
 +
 +$$
 +P(Positivo)=\frac{P(Positivo|Enfermo)*P(Enfermo)}{P(Enfermo|Positivo)}=
 +$$
 +
 +$$
 +\frac{P(Positivo|Enfermo)*P(Enfermo)}{1} \div \frac{P(Positivo|Enfermo)*P(Enfermo)}{P(Positivo|Enfermo)*P(Enfermo)+P(Positivo|Sano)*P(Sano)}=
 +$$
 +
 +$$
 +Sensibilidad*Prevalencia+(1-Especificidad)*(1-Prevalencia)
 +$$
 +
 +
 +  * Y ahora usamos la formula de P(Positivo) en la definición del Indice Jaccard
 +
 +$$
 +Indice \; Jaccard=\frac{P(Positivo|Enfermo)*P(Enfermo)}{P(Positivo)+P(Enfermo)-P(Positivo|Enfermo)*P(Enfermo)}=
 +$$
 +
 +$$
 +\frac{Sensibilidad*Prevalencia}{Sensibilidad*Prevalencia+(1-Especificidad)*(1-Prevalencia)+Prevalencia-Sensibilidad*Prevalencia}=
 +$$
 +
 +$$
 +\frac{Sensibilidad*Prevalencia}{(1-Especificidad)*(1-Prevalencia)+Prevalencia}
 +$$
 +
 +  * Por lo tanto
 +
 +$$
 +Indice \; Jaccard=\frac{Sensibilidad*Prevalencia}{(1-Especificidad)*(1-Prevalencia)+Prevalencia}
 $$ $$
  
Línea 229: Línea 278:
 Prevalence \; threshold=\frac{\sqrt{Sensibilidad(1-Especificidad)}+(Especificidad-1)}{Sensibilidad+Especificidad+1} Prevalence \; threshold=\frac{\sqrt{Sensibilidad(1-Especificidad)}+(Especificidad-1)}{Sensibilidad+Especificidad+1}
 $$ $$
-Que jugando un poco con los signos se obtiene la formula equivalente:+Que jugando un poco con los signos se obtiene la formula equivalente que aparece en Wikipedia:
 $$ $$
 Prevalence \; threshold=\frac{\sqrt{Sensibilidad*FPR}-FPR}{Sensibilidad-FPR} Prevalence \; threshold=\frac{\sqrt{Sensibilidad*FPR}-FPR}{Sensibilidad-FPR}
 $$ $$
  
 +==== Diagnostic odds ratio ====
 +Se define como la división entre //Positive likelihood ratio (LR+)// y  //Negative likelihood ratio (LR-)//
 +
 +$$
 +DOR=\frac{LR+}{LR-}=\frac{TP*TN}{FP*FN}
 +$$
 +
 +  * Aunque también se puede definir en función de la sensibilidad y la especificidad
 +
 +$$
 +DOR=\frac{LR+}{LR-}=\frac{\frac{TPR}{1-TNR}}{\frac{1-TPR}{TNR}}=\frac{Sensibilidad*Especificidad}{(1-Sensibilidad)(1-Especificidad)}
 +$$
 +
 +===== Otras métricas =====
  
 ==== Matthews correlation coefficient ==== ==== Matthews correlation coefficient ====
Línea 243: Línea 306:
   * -1 : El clasificador acierta peor que aleatoriamente, es decir que clasifica al revés "perfectamente"   * -1 : El clasificador acierta peor que aleatoriamente, es decir que clasifica al revés "perfectamente"
  
-$$MCC = \frac{ \mathit{TP} \times \mathit{TN} - \mathit{FP} \times \mathit{FN} } {\sqrt{ (\mathit{TP} + \mathit{FP}) ( \mathit{TP} + \mathit{FN} ) ( \mathit{TN} + \mathit{FP} ) ( \mathit{TN} + \mathit{FN} ) } }$$+$$MCC = \frac{ \mathit{TP} \times \mathit{TN} - \mathit{FP} \times \mathit{FN} } {\sqrt{ (\mathit{TP} + \mathit{FP}) ( \mathit{TP} + \mathit{FN} ) ( \mathit{TN} + \mathit{FP} ) ( \mathit{TN} + \mathit{FN} ) } }=\sqrt{TPR \times TNR \times PPV \times NPV}-\sqrt{FNR \times FPR \times FOR \times FDR}$$
  
  
Línea 271: Línea 334:
 Valor para una predicción que nunca acierta= -1.0 Valor para una predicción que nunca acierta= -1.0
 </sxh> </sxh>
- 
- 
-<note warning> 
-La métrica también está en [[https://www.tensorflow.org/addons/api_docs/python/tfa/metrics/MatthewsCorrelationCoefficient|tfa.metrics.MatthewsCorrelationCoefficient]] pero  
-he visto que no tiene el parámetro ''threshold'' por lo que supongo que solo trabaja con valores de **predicción** y no de **score**. 
- 
-\\ 
- 
-Además en [[https://stackoverflow.com/questions/56865344/how-do-i-calculate-the-matthews-correlation-coefficient-in-tensorflow]] se indica que:  
-> Also please note that MCC values printed from Keras during iterations will be incorrect because of the metric calculation per batch size. You can only trust MCC value from calling "evaluate" or "score" after fitting. This is because MCC for the whole sample is not the sum/average of the parts, unlike the other metrics. For example, if your batch size is one, MCC printed will be zero during iterations. 
-</note>  
- 
- 
  
 Mas información: Mas información: