Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa | ||
clase:iabd:pia:2eval:tema07.metricas [2024/03/19 22:12] admin [Ejercicios] |
— (actual) | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
- | ====== 7. Entrenamiento de redes neuronales c) Métricas ====== | ||
- | |||
- | ===== Métricas ===== | ||
- | Hasta ahora hemos visto como definir una red neuronal y como entrenarla. El último paso que nos queda es saber si la red ha funcionado correctamente. | ||
- | |||
- | Las métricas son muy parecidas a las funciones de coste pero hay métricas que no existen como función de coste. El muchos casos la métrica será la misma que la función de coste. | ||
- | |||
- | |||
- | En el método '' | ||
- | |||
- | <sxh python> | ||
- | model.compile(loss=" | ||
- | history=model.fit(x, | ||
- | </ | ||
- | |||
- | Para obtener los valores de la métrica en cada época se usa la siguiente línea | ||
- | |||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | |||
- | ===== Validación ===== | ||
- | Acabamos de ver que entrenando la red neuronal , el error se consigue bajar a prácticamente cero. Es decir que los valores de los parámetros , pesos (weight) y sesgos bias, debe ser muy buenos. No exactamente. Resulta que los parámetros se han ajustado a los datos que le hemos pasado, pero ¿Como es de bueno el modelo para nuevos datos que no ha visto? **Realmente ver como se comporta con datos nuevos y con los datos que ha ya visto es lo que nos va a decir como es de bueno nuestro modelo**. Así que pasemos a ver como sacar las métricas también con datos nuevos. | ||
- | |||
- | Lo primero es averiguar de donde obtenemos nuevos datos. Normalmente no tenemos nuevos datos así que lo que hacemos es que solo vamos a entrenar nuestra red neuronal con el 80% de los datos y el 20% restante los guardaremos para validar la red neuronal. Eso lo vamos a hacer con la función [[https:// | ||
- | |||
- | <sxh python> | ||
- | from sklearn.model_selection import train_test_split | ||
- | |||
- | x_train, x_test, y_train, y_test = train_test_split(x, | ||
- | </ | ||
- | |||
- | La función '' | ||
- | * Los primeros arrays son los datos a //dividir// entre los datos de entrenamiento o de validación (//test// en inglés). | ||
- | * '' | ||
- | * '' | ||
- | * retorna los 4 array: | ||
- | * '' | ||
- | * '' | ||
- | * '' | ||
- | * '' | ||
- | |||
- | Y ahora a Keras se los tenemos que pasar así: | ||
- | |||
- | <sxh python> | ||
- | history=model.fit(x_train, | ||
- | </ | ||
- | |||
- | Lo datos de entrenamiento se pasan igual que antes pero los de validación se pasan en en un tupla en un parámetro llamado '' | ||
- | |||
- | Por último tenemos que obtener la métrica para los datos de validación. Se obtiene igual que antes pero el nombre de la métrica empieza por '' | ||
- | |||
- | <sxh python> | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | Veamos un ejemplo completo: | ||
- | |||
- | <sxh python> | ||
- | import numpy as np | ||
- | import tensorflow as tf | ||
- | import numpy as np | ||
- | import pandas as pd | ||
- | import keras | ||
- | import random | ||
- | from keras.models import Sequential | ||
- | from keras.layers import Dense | ||
- | from sklearn.datasets import load_iris | ||
- | import matplotlib.pyplot as plt | ||
- | from sklearn.model_selection import train_test_split | ||
- | |||
- | iris=load_iris() | ||
- | x=iris.data[0: | ||
- | y_true=iris.target[0: | ||
- | |||
- | np.random.seed(5) | ||
- | tf.random.set_seed(5) | ||
- | random.seed(5) | ||
- | |||
- | x_train, x_test, y_train, y_test = train_test_split(x, | ||
- | |||
- | model=Sequential() | ||
- | model.add(Dense(3, | ||
- | model.add(Dense(1, | ||
- | model.compile(loss=" | ||
- | history=model.fit(x_train, | ||
- | |||
- | figure=plt.figure(figsize=(8, | ||
- | axes = figure.add_subplot() | ||
- | |||
- | axes.plot(history.history[' | ||
- | axes.plot(history.history[' | ||
- | |||
- | axes.legend() | ||
- | axes.set_xlabel(' | ||
- | axes.set_ylabel(' | ||
- | axes.set_facecolor("# | ||
- | axes.grid(b=True, | ||
- | </ | ||
- | |||
- | {{ : | ||
- | |||
- | Podemos ver en el gráfico que la métrica es muy similar con los datos de validación que con los de entrenamiento. otro detalle importante es que las métricas suelen ser buenas si su valor es 1 (al contrario de las funciones de pérdida en la que lo bueno era un 0) | ||
- | |||
- | ===== Tipos de métricas ===== | ||
- | Para acabar el tema vamos a ver las distintas métricas que existen. Lo primero es indicar nombres tanto en inglés como en español ya que vamos a usar los nombres en inglés | ||
- | |||
- | |||
- | ^ Inglés | ||
- | | Precision | ||
- | | Recall | ||
- | | F1-score | ||
- | | Accuracy | ||
- | | Sensitivity | ||
- | | Confusion Matrix | ||
- | | True Positive | ||
- | | True Negative | ||
- | | False Positive | ||
- | | False Negative | ||
- | |||
- | * Regresión | ||
- | * Mean Absolute Error (MAE) | ||
- | * Mean Squared Error (MSE) | ||
- | * Distancia del coseno | ||
- | * Root Mean Squared Error (RMSE) | ||
- | * Coeficiente de determinación o R² | ||
- | * Clasificación con 2 posibles valores | ||
- | * Binary Crossentropy | ||
- | * Accuracy | ||
- | * Precision | ||
- | * Recall o Sensitivity | ||
- | * F1-score | ||
- | * Area under the curve (AUC) | ||
- | * Clasificación con más de 2 posibles valores | ||
- | * Categorical Crossentropy | ||
- | * Categorical Accuracy | ||
- | |||
- | Hay métricas que son exactamente iguales a las funciones de coste como MEA o MSE en los problemas de regresión MAE, MSE. Si ya las usamos como función de coste y queremos usarlas como métricas no es necesario indicarlas como métricas, se puede acceder a ellas de la siguiente forma: | ||
- | |||
- | Para mostrar la función de coste en el entrenamiento: | ||
- | <sxh python> | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | |||
- | Para mostrar la función de coste en la validación: | ||
- | <sxh python> | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | |||
- | ===== Métricas de regresión ===== | ||
- | Son las métricas que se usan en problemas de regresión. Son casi las mismas que usábamos como funciones de coste. | ||
- | |||
- | ==== Mean Absolute Error (MAE) ==== | ||
- | Es igual que la función de coste de Mean Absolute Error (MAE), así que no explicaremos nada mas sobre ella excepto como se usa en Keras como métrica | ||
- | |||
- | Se define como: | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.MeanAbsoluteError()] | ||
- | metrics=[" | ||
- | |||
- | metrics=[" | ||
- | </ | ||
- | |||
- | y usarla como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | |||
- | history.history[" | ||
- | history.history[" | ||
- | </ | ||
- | |||
- | |||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | |||
- | |||
- | ==== Mean Squared Error (MSE) ==== | ||
- | Es igual que la función de coste de Mean Squared Error (MSE), así que no explicaremos nada mas sobre ella excepto como se usa en Keras como métrica | ||
- | |||
- | Se define como: | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.MeanSquaredError()] | ||
- | metrics=[" | ||
- | |||
- | metrics=[" | ||
- | </ | ||
- | |||
- | |||
- | y usarla como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | |||
- | history.history[" | ||
- | history.history[" | ||
- | </ | ||
- | |||
- | |||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | |||
- | |||
- | |||
- | ==== Distancia del coseno ==== | ||
- | Es igual que la función de coste de Distancia del coseno, así que no explicaremos nada mas sobre ella excepto como se usa en Keras como métrica | ||
- | |||
- | Se define en Keras como: | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.CosineSimilarity()] | ||
- | metrics=[" | ||
- | </ | ||
- | |||
- | y se usa como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | |||
- | |||
- | ==== Root Mean Squared Error (RMSE) ==== | ||
- | La Root Mean Squared Error (RMSE) o Raiz cuadrada del error cuadrático medio se calcula igual que el MSE pero se le aplica la raíz cuadrada. | ||
- | |||
- | Por lo tanto su fórmula es | ||
- | |||
- | RMSE=√MSE=√1NN∑i=1(yi−^yi)2 | ||
- | |||
- | Ahora vamos a explicar algunas cosas de RMSE. | ||
- | * ¿Por qué se hace la raíz cuadrada? Pues porque antes habíamos elevado al cuadrado los errores | ||
- | * ¿Pero que ventaja tiene esa raíz cuadrada? La raíz cuadrada se hace para que el error esté en las mismas unidades que los datos. Es para que como //humanos// entendamos mejor el valor. Es decir que nosotros entendemos mejor el resultado de RMSE que el de MSE | ||
- | * ¿Por qué no existe la RMSE como función de coste? Por ahorrarnos el trabajo de hacer la raíz cuadrada. Como función de coste nos da igual el valor de MSE que la raíz cuadrada de MSE, la red va a funcionar igual. | ||
- | * ¿Por qué no existe RMAE? Por que con MAE no elevábamos nada al cuadrado así que no tiene sentido RMAE | ||
- | * A veces se intenta comprar los resultados de RMSE con MAE ya que ambos están en las mismas unidades. | ||
- | * Por lo que si queremos usar MSE como métrica es mejor usar RMSE y como función de coste es mejor MSE | ||
- | |||
- | |||
- | Se define en Keras como: | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.RootMeanSquaredError()] | ||
- | </ | ||
- | |||
- | y se usa como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | |||
- | |||
- | ==== Coeficiente de determinación o R² ==== | ||
- | El coeficiente de determinación o R² se calcula de la siguiente forma: | ||
- | |||
- | |||
- | R2=1−N∑i=1(yi−^yi)2N∑i=1(yi−ˉy)2 | ||
- | ˉy=1NN∑i=1yi−^yi | ||
- | |||
- | Siendo: | ||
- | |||
- | |||
- | Ahora vamos a explicar algunas cosas de R² | ||
- | * MAE, MSE y RMSE son mejor cuanto menor es el valor, mientras que R² es mejor cuanto más se acerca a 1. | ||
- | * Un problema de R² es que aumenta su valor cuantas más variables tengamos de entrada (es decir el tamaño del vector de cada muestra) por eso se suele usar la métrica de R² ajustada. Para ello en Keras le pasaremos el argumento '' | ||
- | |||
- | |||
- | Se define en Keras como: | ||
- | <sxh python> | ||
- | metrics=[tfa.metrics.RSquare()] | ||
- | </ | ||
- | |||
- | y se usa como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | * {{: | ||
- | |||
- | |||
- | ==== Selección de métricas de regresión ==== | ||
- | La elección de una métrica u otra se puede ver en [[https:// | ||
- | |||
- | * RMSE es mejor que MSE ya que está en las mismas unidades que el resultado y no al cuadrado. | ||
- | * MAE vs MSE: | ||
- | * MAE es mas robusto que MSE ante datos anómalos, es decir que los tiene menos en cuenta | ||
- | * MSE eleva el error al cuadrado y la regresión al intentar minimizar dicho error , tiende a ir hacia ese dato anómalo. Por lo que MSE tiene más en cuenta los datos anómalos. | ||
- | * Por lo tanto si los datos " | ||
- | |||
- | |||
- | |||
- | ===== Métricas de clasificación con 2 posibles valores ===== | ||
- | Clasificación con 2 posibles valores es cuando la salida de nuestra red neuronal solo puede tener 2 posibles valores. | ||
- | |||
- | Antes de entrar a ver las métricas , es necesario entender lo que son: | ||
- | * True Positives (TP) | ||
- | * True Negatives (TN) | ||
- | * False Positives (FP): También llamados errores de Tipo I | ||
- | * False Negatives (FN): También llamados errores de Tipo II | ||
- | |||
- | |||
- | |||
- | |||
- | | ^^ Predicción | ||
- | | ^^ Positivo | ||
- | ^ Realidad | ||
- | ^ ::: ^ Sano | FP | TN | | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | {{ : | ||
- | |||
- | Para explicar todos estos conceptos véase los artículos: | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | |||
- | Más información: | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | * {{ : | ||
- | |||
- | |||
- | ===== Umbral o Threshold ===== | ||
- | En la clasificación binaria los posibles valores son '' | ||
- | A ese valor se le llama '' | ||
- | |||
- | Si el valor del '' | ||
- | |||
- | Veamos un ejemplo de ello: | ||
- | <sxh python> | ||
- | y_score=np.array([0.27, | ||
- | y_pred=y_score> | ||
- | print(y_pred) | ||
- | </ | ||
- | |||
- | Siendo el resultado | ||
- | <sxh python> | ||
- | [False False True True False False False False True True True False False] | ||
- | </ | ||
- | |||
- | Por ello la mayoría de nuestras métricas son dependientes del valor que indiquemos de '' | ||
- | |||
- | Un ejemplo de lo que acabamos de ver está en las métricas de '' | ||
- | En [[https:// | ||
- | mientras que en [[https:// | ||
- | |||
- | |||
- | ===== Probabilidad condicional ===== | ||
- | La probabilidad condicional se expresa de la siguiente forma //P(A|B)// que significa , la probabilidad de que ocurra //A// sabiendo que ya ocurrido //B//. ¿Y que tiene que ver ésto con las métricas? Realmente las métricas se pueden expresar como probabilidades condicionales. Lo bueno de usar probabilidades condicionales es que se entienden mejor. | ||
- | |||
- | Para explicar las métricas vamos a imaginar los test de COVID que comprobamos en las farmacias , que nos decían si teníamos o no COVID. El ejemplo es igual que si fuera una red neuronal que dado una radiografía nos dijera si teníamos o no COVID. Pero se usa el test de farmacia de COVID para hacer más comprensible la explicación. | ||
- | |||
- | Para poner la probabilidad condicional vamos a usar la siguiente nomenclatura: | ||
- | * Positivo: El test ha dado un valor positivo. Umbral >= 0.5 | ||
- | * Negativo: El test ha dado un valor negativo. Umbral < 0.5 | ||
- | * Enfermo: El paciente está enfermo ya que se ha usado el {{https:// | ||
- | * Sano: El paciente está sano ya que se ha usado el {{https:// | ||
- | |||
- | Veamos ahora unas probabilidades condicionales. | ||
- | |||
- | * P(Positivo|Enfermo): | ||
- | * P(Enfermo|Positivo): | ||
- | |||
- | Detengámonos un momento. ¿Cual de las 2 probabilidades nos interesa?. P(Positivo|Enferma) o P(Enferma|Positivo). Si lo pensamos , ¿para que queremos saber P(Positivo|Enferma)? | ||
- | |||
- | ===== Cálculo de las métricas ===== | ||
- | Pongamos ahora todas las combinaciones de probabilidades posibles de las métricas que realmente nos interesan. | ||
- | |||
- | * P(Enfermo|Positivo): | ||
- | * P(Sano|Positivo): | ||
- | \\ | ||
- | * P(Sano|Negativo): | ||
- | * P(Enfermo|Negativo): | ||
- | |||
- | |||
- | Mientras que las 4 siguientes aparentemente no nos interesan lo más mínimo: | ||
- | |||
- | * P(Positivo|Enfermo): | ||
- | * P(Negativo|Enfermo): | ||
- | \\ | ||
- | * P(Negativo|Sano): | ||
- | * P(Positivo|Sano): | ||
- | |||
- | |||
- | Volvamos a la matriz de confusión: | ||
- | | ^^ Predicción | ||
- | | ^^ Positivo (PP) ^ Negativo (PN) ^ | ||
- | ^ Realidad | ||
- | ^ ::: ^ Sano (N) | FP | TN | | ||
- | |||
- | $$ | ||
- | \begin{array} | ||
- | \\ | ||
- | E& | ||
- | \\ | ||
- | S& | ||
- | \\ | ||
- | PP& | ||
- | \\ | ||
- | PN& | ||
- | \\ | ||
- | \end{array} | ||
- | $$ | ||
- | |||
- | |||
- | Y siendo un poco perspicaces podremos ver como se calculan las 8 probabilidades y los nombres que tienen: | ||
- | |||
- | |||
- | $$ | ||
- | \begin{array} | ||
- | \\ | ||
- | P(Enfermo|Positivo)& | ||
- | \\ | ||
- | P(Sano|Positivo)& | ||
- | \\ | ||
- | \\ | ||
- | P(Sano|Negativo)& | ||
- | \\ | ||
- | P(Enfermo|Negativo)& | ||
- | \\ | ||
- | \end{array} | ||
- | $$ | ||
- | \\ | ||
- | \\ | ||
- | $$ | ||
- | \begin{array} | ||
- | \\ | ||
- | P(Positivo|Enfermo)& | ||
- | \\ | ||
- | P(Negativo|Enfermo)& | ||
- | \\ | ||
- | \\ | ||
- | P(Negativo|Sano)& | ||
- | \\ | ||
- | P(Positivo|Sano)& | ||
- | \\ | ||
- | \end{array} | ||
- | $$ | ||
- | \\ | ||
- | \\ | ||
- | | ^^ Predicción | ||
- | | ^^ Positivo (PP) ^ Negativo (PN) ^ | ||
- | ^ Realidad | ||
- | ^ ::: ^ Sano (S) | FP | TN | P(Positivo|Sano)=FPS | ||
- | ^ ^ Métricas | ||
- | ^ ::: ^ ::: | P(Sano|Positivo)=FPPP | ||
- | |||
- | | ^^ Predicción | ||
- | | ^^ Positivo (PP) ^ Negativo (PN) ^ | ||
- | ^ Realidad | ||
- | ^ ::: ^ Sano (S) | FP | TN | FPR=FPS | ||
- | ^ ^ Métricas | ||
- | ^ ::: ^ ::: | FDR=FPPP | ||
- | |||
- | | ^^ Predicción | ||
- | | ^^ Positivo (PP) ^ Negativo (PN) ^ | ||
- | ^ Realidad | ||
- | ^ ::: ^ Sano (S) | FP | TN | FPR=FPS | ||
- | ^ ^ Métricas | ||
- | ^ ::: ^ ::: | FDR=\frac{FP}{PP} | ||
- | |||
- | |||
- | ===== Selección de métricas ===== | ||
- | Volvamos ahora a recapacitar otra vez sobre el significado de las métricas. En un test perfecto realmente lo que nos interesa es: | ||
- | * P(Enfermo|Positivo)=1: | ||
- | * P(Sano|Negativo)=1: | ||
- | |||
- | A esas 2 métricas se les llama: | ||
- | * P(Enfermo|Positivo)=Valor \; Predictivo \; Positivo \; (VPP)=Positive \; Predictive \; Value \; (PPV)=Precisión | ||
- | * P(Sano|Negativo)=Valor \; Predictivo \; Negativo \; (VPN)=Negative \; Predictive \; Value \; (NPV) | ||
- | |||
- | Se llaman así porque realmente son las 2 métricas que predicen si estás enfermo o sano cuando el test da positivo o negativo respectivamente. Y a la primera de ellas se le llama también **precisión** | ||
- | |||
- | |||
- | ===== Teorema de Bayes ===== | ||
- | El problema de calcular la precisión y el VPN es que sus valores dependen de la cantidad de enfermos y de sanos que tengamos al entrenar nuestra red. Por lo tanto del valor de E y S. Es decir que dependen de lo balanceados que tengamos nuestras clases. | ||
- | |||
- | Para calcular como de balanceadas están las clases se usa la Prevalencia \; o \; P(Enfermo) , y es un dato muy importante que se calcula de la siguiente forma: | ||
- | |||
- | |||
- | $$ | ||
- | Prevalencia=P(Enfermo)=\frac{TP+FN}{TP+FN+FP+TN}=\frac{E}{E+S} | ||
- | $$ | ||
- | |||
- | Además están otras probabilidades que son: | ||
- | |||
- | $$ | ||
- | |||
- | \begin{array} | ||
- | \\ | ||
- | P(Enfermo)& | ||
- | \\ | ||
- | P(Sano)& | ||
- | \\ | ||
- | P(Positivo)& | ||
- | \\ | ||
- | P(Negativo)& | ||
- | \end{array} | ||
- | $$ | ||
- | |||
- | Recordar que: | ||
- | $$ | ||
- | E+S=PP+PN=Total | ||
- | $$ | ||
- | |||
- | En la siguiente imagen vamos a obtener las métricas y vamos a ver como varían las métricas si aumenta o disminuye el número de positivos. Es decir vamos a ver como dependen la precisión y el VPN según la prevalencia. | ||
- | |||
- | {{ : | ||
- | |||
- | Vemos que si aumentamos el número de positivos (por lo tanto aumentando la prevalencia), | ||
- | * Si aumentamos la prevalencia: | ||
- | * Mejora la precisión (VPP) ya que ha pasado de 0.89 a 0.96 | ||
- | * Empeora el VPN ya que ha pasado de 0.93 a 0.82 | ||
- | * Si disminuimos la prevalencia: | ||
- | * Empeora la precisión (VPP) ya que ha pasado de 0.89 a 0.74 | ||
- | * Mejora el VPN ya que ha pasado de 0.93 a 0.97 | ||
- | |||
- | |||
- | |||
- | Por lo tanto se podría hacer trampa y sin modificar el modelo pero variando la prevalencia de los datos de validación, | ||
- | |||
- | ¿Cual es entonces la solución? Pues usar métricas que no dependan de la prevalencia. Y esas métricas son la sensibilidad y la especificidad que habíamos descartado. ¿Y para que las queremos? Pues esas 2 métricas nos dicen lo bueno que es nuestro modelo cuando lo estamos desarrollando ya que nos decían cuanto acertaban o fallaban cuando sabíamos lo que debía dar y son métricas independientes de la prevalencia de nuestros datos. Podemos ver que esas métricas no han variado aunque se haya modificado la prevalencia. | ||
- | |||
- | Vale, pero nosotros lo que queremos es saber la precisión y la VPN. Pues resulta que el teorema de bayes es una fórmula matemática que nos calcula la precisión y la VPN en base a la sensibilidad y la especificidad y además según la prevalencia. 😍😍😍😍😍😍 | ||
- | |||
- | |||
- | $$ | ||
- | P(Enfermo|Positivo)=\frac{P(Positivo|Enfermo)*P(Enfermo)}{P(Positivo|Enfermo)*P(Enfermo)+P(Positivo|Sano)*P(Sano)} | ||
- | |||
- | |||
- | $$ | ||
- | P(Sano|Negativo)=\frac{P(Negativo|Sano)*P(Sano)}{P(Negativo|Sano)*P(Sano)+P(Negativo|Enfermo)*P(Enfermo)} | ||
- | $$ | ||
- | |||
- | y usando los nombres // | ||
- | |||
- | |||
- | $$ | ||
- | Precisión=VPP=\frac{Sensibilidad*Prevalencia}{Sensibilidad*Prevalencia+(1-Especificidad)*(1-Prevalencia)} | ||
- | |||
- | |||
- | $$ | ||
- | VPN=\frac{Especificidad*(1-Prevalencia)}{Especificidad*(1-Prevalencia)+(1-sensibilidad)*Prevalencia} | ||
- | $$ | ||
- | |||
- | |||
- | **Todo ellos nos lleva a que al desarrollar nuestra red neuronal solo nos interesan que los valores de Sensibilidad y de Especificidad sean lo más altos posibles. Y cuando vayamos a predecir, nos tendrán que indicar el valor de la prevalencia y en ese caso podremos calcular si ha salid positivo el valor de Precisión \; (VPP) y si ha salido negativo calcularemos el valor de VPN.** | ||
- | |||
- | Por ello en los prospectos de los test de covid, los valores que siempre se calculaban son el de Sensibilidad y de Especificidad: | ||
- | |||
- | <note important> | ||
- | ¿Y como sabemos el valor de la prevalencia? | ||
- | |||
- | En los siguientes 2 artículos vemos investigaciones para calcular la prevalencia del COVID según distintas circunstancias: | ||
- | * {{ : | ||
- | * {{ : | ||
- | |||
- | |||
- | </ | ||
- | |||
- | ===== Mejores valores de las métricas ===== | ||
- | Ahora ya sabemos que **VPP** y **VPN** son las métricas que nos interesan realmente y que sus valores deben ser lo más cercanas a 1. Pero también sabemos que esas métricas dependen de la **Prevalencia** (que no depende de lo bueno que sea nuestro modelo ) y de las métricas de **Sensibilidad** y **Especificidad** (Que si que dependen de lo bueno que sea nuestro modelo). Así que para obtener los mejores valores del VPP y VPN tenemos que conseguir en nuestro modelo consigamos los mejores valores de **Sensibilidad** y **Especificidad**. | ||
- | |||
- | |||
- | Como ya hemos visto hay las siguientes relaciones entre métricas: | ||
- | |||
- | $$ | ||
- | FNR=1-Sensibilidad | ||
- | $$ | ||
- | \\ | ||
- | $$ | ||
- | FPR=1-Especificidad | ||
- | $$ | ||
- | |||
- | Además de | ||
- | |||
- | $$ | ||
- | FDR=1-VPP | ||
- | $$ | ||
- | \\ | ||
- | $$ | ||
- | FOR=1-VPN | ||
- | $$ | ||
- | |||
- | Como esas métricas no son independientes de las anteriores, volvamos ahora a poner la tabla de confusión únicamente con las métricas que nos interesan y además los valores ideales que nos interesarían. | ||
- | |||
- | |||
- | | ^^ Predicción | ||
- | | ^^ Positivo (PP) ^ Negativo (PN) ^ | ||
- | ^ Realidad | ||
- | ^ ::: ^ Sano (S) | FP | TN | | Especificidad=1 | ||
- | ^ ^ Métricas | ||
- | ^ ::: ^ ::: | | VPN=1 | ||
- | |||
- | Y por lo tanto el resto de las métricas nos interesarían que fueran 0 pero al depender de la que hemos mostrado , ni las mediremos. | ||
- | |||
- | |||
- | ==== Resumen ==== | ||
- | {{ : | ||
- | |||
- | |||
- | Más información en: | ||
- | * [[https:// | ||
- | * [[tema07-apendices-metricas]] | ||
- | |||
- | |||
- | |||
- | ===== Metricas en Keras ===== | ||
- | Veamos como calcular en Keras las métricas que necesitamos | ||
- | |||
- | ==== Sensibilidad ==== | ||
- | La sensibilidad en inglés es // | ||
- | |||
- | Su uso en Keras es | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.Recall()] | ||
- | metrics=[" | ||
- | </ | ||
- | |||
- | y usarla como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | Ejemplo: | ||
- | <sxh python> | ||
- | y_true = np.array([1, | ||
- | y_pred = np.array([0.9, | ||
- | metric = tf.keras.metrics.Recall() | ||
- | metric(y_true, | ||
- | </ | ||
- | |||
- | <sxh python> | ||
- | 0.6 | ||
- | </ | ||
- | |||
- | Más información: | ||
- | * [[https:// | ||
- | |||
- | ==== Especificidad ==== | ||
- | Inexplicablemente esta métrica no existe en keras. Pero la podemos definir con el siguiente código: | ||
- | |||
- | <sxh python> | ||
- | def specificity(y_true, | ||
- | threshold=0.5 | ||
- | y_pred = tf.cast(tf.greater(y_score, | ||
- | |||
- | |||
- | true_negatives = tf.logical_and(tf.equal(y_true, | ||
- | num_true_negatives=tf.reduce_sum(tf.cast(true_negatives, | ||
- | |||
- | |||
- | negatives =tf.equal(y_true, | ||
- | num_negatives= tf.reduce_sum(tf.cast(negatives, | ||
- | |||
- | |||
- | specificity = num_true_negatives / (num_negatives + tf.keras.backend.epsilon()) | ||
- | | ||
- | return specificity | ||
- | </ | ||
- | |||
- | Su uso en Keras es | ||
- | <sxh python> | ||
- | metrics=[specificity] | ||
- | </ | ||
- | |||
- | y usarla como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | Ejemplo: | ||
- | <sxh python> | ||
- | y_true = np.array([0, | ||
- | y_pred = np.array([0.9, | ||
- | specificity(y_true, | ||
- | </ | ||
- | |||
- | <sxh python> | ||
- | 0.4 | ||
- | </ | ||
- | |||
- | |||
- | |||
- | |||
- | ==== Area under the curve (AUC) ==== | ||
- | La Area under the curve (AUC) es una métrica que nos dice el área de una curva ROC. Pero pasemos primero a explicar que es una curva ROC. | ||
- | |||
- | Lo primero es que cuando predecimos que ciertos valores son Positivos o Negativos, lo hacemos en base a un umbral. Normalmente si algo es menor o igual que 0.5 decimos que es '' | ||
- | |||
- | |||
- | En las siguientes gráficas vamos a ver como afecta a nuestro modelo el variar el umbral. | ||
- | |||
- | {{ : | ||
- | |||
- | Vamos a explicar cada columna de la imagen anterior: | ||
- | * 1º Columna: Se muestra la distribución de los Positivos y los Negativos que ha hecho el modelo. Pero según el umbral podrán ser True Positive (TP), True Negative (TN),False Positive (FP) y False Negative (FN) | ||
- | * 2º Columna: Se muestra como evolucionan | ||
- | * Se cuenta cuantos Positivos hay bajo el umbral que serán los False Positive (FP) | ||
- | * Se cuenta cuantos Positivos hay sobre el umbral que serán los True Positive (TP) | ||
- | * Se cuenta cuantos Negativos hay bajo el umbral que serán los True Negative (TN) | ||
- | * Se cuenta cuantos Negativos hay sobre el umbral que serán los False Negative (FN) | ||
- | * 3º Columna: Se calculan las métricas de //True Positive Rate (TPR)// y //False Positive Rate (FPR)// según las siguientes fórmulas: | ||
- | |||
- | |||
- | \begin{align} | ||
- | True \: Positive \: Rate \: (TPR) &= \frac{TP}{TP+FN} \\ False \: Positive \: Rate \: (FPR) &= \frac{FP}{FP+TN} | ||
- | \end{align} | ||
- | |||
- | * 4º Columna: Muestra el //True Positive Rate (TPR)// frente a //False Positive Rate (FPR)//. Es decir que cada punto la '' | ||
- | |||
- | Cada una de las filas de la imagen son predicciones distintas, siendo: | ||
- | * 1º Fila: Una predicción perfecta. | ||
- | * 2º Fila: Una predicción buena | ||
- | * 3º Fila: Una predicción mala en la que falla lo mismo que acierta. Sería como hacerlo aleatorio con un 50% de probabilidades de acertar. | ||
- | * 4º Fila: Una predicción nefasta que falla la mayoría de las veces. | ||
- | * 5º Fila: Una predicción lamentable que nunca acierta. | ||
- | |||
- | Entonces, ¿Que es la Area under the curve (AUC)? **Es el área de la curva ROC** es decir el área rosa de las gráficas de la última columna. Si nos fijamos cuanto mejor es la predicción, | ||
- | |||
- | {{ : | ||
- | |||
- | <note tip> | ||
- | Destacar que se hace uso de la métrica AUC que es una métrica como cualquier otra que tiende a 1 si es buena y a 0 si es mala pero lo que no vas a ver al usar la métrica de AUC es la curva ROC. La curva ROC se muestra para entender que significa la métrica AUC pero no se dibuja normalmente. | ||
- | </ | ||
- | |||
- | En keras podemos usar la métrica de AUC de la siguiente forma: | ||
- | Su uso en Keras es | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.AUC()] | ||
- | metrics=[" | ||
- | </ | ||
- | |||
- | y usarla como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | * {{ : | ||
- | * {{ : | ||
- | * {{ : | ||
- | * [[https:// | ||
- | * [[https:// | ||
- | |||
- | |||
- | |||
- | ===== Métricas de clasificación con más de 2 posibles valores ===== | ||
- | |||
- | ==== Categorical Accuracy ==== | ||
- | Accuracy nos indica la proporción de aciertos que ha tenido. Es decir el porcentaje (en tanto por uno) de verdaderos positivos y verdaderos negativos | ||
- | |||
- | Su uso en keras es: | ||
- | <sxh python> | ||
- | metrics=[tf.keras.metrics.CategoricalAccuracy()] | ||
- | metrics=[" | ||
- | </ | ||
- | |||
- | y usarla como | ||
- | <sxh python> | ||
- | history.history[' | ||
- | history.history[' | ||
- | </ | ||
- | |||
- | Mas información: | ||
- | * [[https:// | ||
- | |||
- | ===== Ejercicios ===== | ||
- | |||
- | < | ||
- | Para mostrar la matriz de confusión se usará la siguiente función que usa de '' | ||
- | <sxh python> | ||
- | def plot_matriz_confusion(axes, | ||
- | success_color=matplotlib.colors.to_rgb('# | ||
- | failure_color=matplotlib.colors.to_rgb("# | ||
- | blanco_color=matplotlib.colors.to_rgb("# | ||
- | |||
- | |||
- | if ((vpp is not None) | | ||
- | (vpn is not None) | | ||
- | (sensibilidad is not None) | | ||
- | (especificidad is not None) | | ||
- | (prevalencia is not None) | | ||
- | (f1_score is not None) | | ||
- | (mcc is not None) | | ||
- | (auc is not None) ): | ||
- | show_metrics=True | ||
- | else: | ||
- | show_metrics=False | ||
- | |||
- | |||
- | if show_metrics==False: | ||
- | axes.imshow([[success_color, | ||
- | else: | ||
- | axes.imshow([[success_color, | ||
- | |||
- | |||
- | |||
- | labels = [' | ||
- | xaxis = np.arange(len(labels)) | ||
- | axes.set_xticks(xaxis) | ||
- | axes.set_yticks(xaxis) | ||
- | axes.set_xticklabels(labels, | ||
- | axes.set_yticklabels(labels, | ||
- | axes.text(0, | ||
- | axes.text(0, | ||
- | axes.text(1, | ||
- | axes.text(1, | ||
- | axes.xaxis.tick_top() | ||
- | axes.set_xlabel(' | ||
- | axes.xaxis.set_label_position(' | ||
- | axes.set_ylabel(' | ||
- | |||
- | |||
- | if show_metrics==True: | ||
- | |||
- | |||
- | if (vpp is not None): | ||
- | axes.text(0, | ||
- | if (vpn is not None): | ||
- | axes.text(1, | ||
- | if (sensibilidad is not None): | ||
- | axes.text(2, | ||
- | if (especificidad is not None): | ||
- | axes.text(2, | ||
- | |||
- | metricas_generales="" | ||
- | if (prevalencia is not None): | ||
- | metricas_generales=metricas_generales+f" | ||
- | if (f1_score is not None): | ||
- | metricas_generales=metricas_generales+f" | ||
- | if (mcc is not None): | ||
- | metricas_generales=metricas_generales+f" | ||
- | if (auc is not None): | ||
- | metricas_generales=metricas_generales+f" | ||
- | |||
- | axes.text(2, | ||
- | </ | ||
- | |||
- | </ | ||
- | |||
- | ==== Ejercicio 1 ==== | ||
- | Si una red neuronal para detectar si una radiografía es de un tórax ha predicho lo siguiente: | ||
- | * Para 13 radiografías que eran de tórax , en 8 ha dicho que era un tórax y en 5 ha dicho que no lo era. | ||
- | * Para 7 radiografías que no eran un tórax , en 4 ha dicho que no era un tórax y en 3 ha dicho que lo era. | ||
- | |||
- | Indica el nº de: | ||
- | * Verdaderos Positivos (TP) | ||
- | * Verdaderos Negativos (TN) | ||
- | * Falsos Positivos (FP) | ||
- | * Falsos Negativos (FN) | ||
- | |||
- | Dibuja la matriz de confusión | ||
- | |||
- | ==== Ejercicio 2.A ==== | ||
- | Seguimos con la red neuronal que predice si una radiografía es de tórax. | ||
- | |||
- | Si para 10 imágenes ha sacado los siguientes resultados: | ||
- | |||
- | <sxh python> | ||
- | y_score=np.array([0.27, | ||
- | </ | ||
- | |||
- | Indica para cada valor predicho , si ha predicho que era una imagen de tórax o no. | ||
- | |||
- | |||
- | ==== Ejercicio 2.B ==== | ||
- | Seguimos con la red neuronal que predice si una radiografía es de tórax. | ||
- | |||
- | Si para 10 imágenes ha sacado los siguientes resultados: | ||
- | |||
- | <sxh python> | ||
- | y_score=np.array([0.27, | ||
- | </ | ||
- | |||
- | |||
- | Pero los valores verdaderos son los siguientes: | ||
- | <sxh python> | ||
- | y_true=np.array([1, | ||
- | </ | ||
- | |||
- | |||
- | Indica el nº de: | ||
- | * Verdaderos Positivos (TP) | ||
- | * Verdaderos Negativos (TN) | ||
- | * Falsos Positivos (FP) | ||
- | * Falsos Negativos (FN) | ||
- | |||
- | Dibuja la matriz de confusión | ||
- | |||
- | ==== Ejercicio 2.C ==== | ||
- | Siguiendo con los datos anteriores y suponiendo que el umbral es 0.5: | ||
- | |||
- | <sxh python> | ||
- | y_true=np.array([1, | ||
- | y_score=np.array([0.27, | ||
- | |||
- | </ | ||
- | |||
- | Calcula directamente las siguientes métricas: | ||
- | * Prevalencia | ||
- | * Sensibilidad | ||
- | * Especificidad | ||
- | * VPP | ||
- | * VPN | ||
- | |||
- | |||
- | ==== Ejercicio 2.D ==== | ||
- | Calcula ahora los valores de: | ||
- | * VPP | ||
- | * VPN | ||
- | |||
- | pero usando el teorema de bayes en base a los valores de: | ||
- | * Prevalencia | ||
- | * Sensibilidad | ||
- | * Especificidad | ||
- | |||
- | ==== Ejercicio 2.E ==== | ||
- | Muestra ahora una gráfica con matplolib en la que se vea como evolucionan los valores de VPP y VPN según la prevalencia. | ||
- | |||
- | Esa misma gráfica se puede mostrar en [[https:// | ||
- | |||
- | {{: | ||
- | |||
- | ==== Ejercicio 3.A ==== | ||
- | Crea una red neuronal con los datos de //bread cancer// con las siguientes características: | ||
- | |||
- | * neuronas por capa:'' | ||
- | * Función de activation: '' | ||
- | * Nº de epocas: '' | ||
- | * Optimizador: | ||
- | |||
- | Muestra las siguientes métricas durante el entrenamiento (para cada una de las épocas): | ||
- | * Loss | ||
- | * Sensibilidad | ||
- | * Especificidad | ||
- | |||
- | {{: | ||
- | |||
- | ==== Ejercicio 3.B ==== | ||
- | En este ejercicio vamos a mostrar la matriz de confusión de la red que acabamos de crear. | ||
- | |||
- | Para ello vamos a usar los valores de test que los tenemos en las siguientes variables del ejercicio anterior: | ||
- | * '' | ||
- | * '' | ||
- | |||
- | La variable '' | ||
- | |||
- | Para ello sigue los siguientes pasos: | ||
- | * Crea una función llamada '' | ||
- | * Calcula '' | ||
- | * Haz que '' | ||
- | * Llama a la función '' | ||
- | * Muestra la matriz de confusión | ||
- | |||
- | ==== Ejercicio 3.C ==== | ||
- | Crea una función llamada '' | ||
- | * Sensibilidad | ||
- | * Especificidad | ||
- | * VPP | ||
- | * VPN | ||
- | * Prevalencia | ||
- | |||
- | Para calcular VPP y VPN se debe usar la prevalencia. Si no se pasa el valor de prevalencia ( Es decir ' | ||
- | |||
- | |||
- | Usando los valores de '' | ||
- | |||
- | Muestra todo en la matriz de confusión. | ||
- | |||
- | ==== Ejercicio 3.D ==== | ||
- | Guarda el modelo a disco | ||
- | |||
- | |||
- | |||
- | ==== Ejercicio 3.E ==== | ||
- | En un nuevo jupyter notebook, carga el modelo y con los datos de test , vuelve a mostrar la matriz de confusión con todas las métricas. | ||
- | |||
- | |||
- | |||
- | ==== Ejercicio 3.F ==== | ||
- | Muestra ahora 1 gráfica, en la que se mostrará: | ||
- | |||
- | * El valor de la sensibilidad y la especificidad según el valor del umbral | ||
- | |||
- | {{: | ||
- | |||
- | ¿Que valor de umbral dejarías? | ||
- | |||
- | ==== Ejercicio 3.G ==== | ||
- | Muestra una gráfica similar a las anteriores pero ahora sea la suma los valores de sensibilidad y la especificidad menos 1. | ||
- | |||
- | A la suma de los 2 valores para obtener el máximo pero restando 1 se le llama Informedness | ||
- | |||
- | $$ | ||
- | Informedness=Sensibilidad+Especificidad-1 | ||
- | $$ | ||
- | |||
- | Muestra un punto con el máximo de la gráfica y el threshold correspondiente al máximo.Además para ese nivel de threshold, **imprime la sensibilidad y la especificidad** | ||
- | |||
- | {{: | ||
- | |||
- | |||
- | |||
- | ==== Ejercicio 4 ==== | ||
- | Indica en los siguientes problemas si subirías o bajarías el umbral | ||
- | |||
- | * Una IA que detecta si hay petroleo en el subsuelo | ||
- | * Una IA que predice si un usuario en Amazon está cometiendo fraude | ||
- | * Una IA que decide si te concede un préstamo | ||
- | * Una IA que decide una persona en un juicio es inocente | ||
- | * Una IA que corrige automáticamente un examen y te dice si has aprobado | ||
- | |||
- | |||
- | |||
- | ==== Ejercicio 5.A ==== | ||
- | Crea una nueva red neuronal para el problema del //bread cancer// | ||
- | |||
- | Ahora razona con cual de las 2 redes te quedarías y que threshold elegirías para cada uno de ellos. | ||
- | |||
- | Para elegir debes mostrar gráficas , una al lado de la otra para comparar lo siguiente: | ||
- | * Gráficos de perdida, sensibilida y especificidad durante el entrenamiento | ||
- | * Matriz de confusión con las métricas: Sensibilidad, | ||
- | * Threshold vs (Sensibilidad y Especificidad) | ||
- | * Threshold vs Informedness (Muestra en el label el máximo) | ||
- | |||
- | |||
- | ¿Con que red te quedarías? | ||
- | |||
- | {{: | ||
- | |||
- | Además para el nivel de threshold de la red que ha " | ||
- | |||
- | ==== Ejercicio 5.B ==== | ||
- | Con el modelo elegido, guarda el modelo a disco | ||
- | |||
- | |||
- | ==== Ejercicio 5.C ==== | ||
- | Con modelo que has elegido, cargalo en otro Jupyter notebook y realiza inferencia de 10 pacientes. | ||
- | |||
- | Para cada paciente: | ||
- | * Indica su prevalencia (te la tienes que inventar de forma aleatoria) | ||
- | * Indica la probabilidad de que la red haya acertado. | ||
- | |||