Processing math: 100%

Herramientas de usuario

Herramientas del sitio


clase:iabd:pia:2eval:tema08.seleccion-metricas

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
clase:iabd:pia:2eval:tema08.seleccion-metricas [2025/02/14 10:21]
admin [Métricas para datos desbalaceados]
clase:iabd:pia:2eval:tema08.seleccion-metricas [2025/04/14 10:42] (actual)
admin [Métricas para datos desbalaceados]
Línea 137: Línea 137:
 nMarkedness=VPP+VPN2 nMarkedness=VPP+VPN2
  
-===== Métricas para datos desbalaceados =====+===== Métricas para datos desbalanceados =====
 El último grupo de métricas que vamos a ver son las métrica para datos desbalanceados. Datos desbalanceados significa con prevalencias muy pequeñas o muy grandes aunque nos vamos a limitar a hablar cuando la prevalencia tiene un valor muy pequeño.  El último grupo de métricas que vamos a ver son las métrica para datos desbalanceados. Datos desbalanceados significa con prevalencias muy pequeñas o muy grandes aunque nos vamos a limitar a hablar cuando la prevalencia tiene un valor muy pequeño. 
  
Línea 280: Línea 280:
 ===== Ejercicios ===== ===== Ejercicios =====
  
 +==== Ejercicio 1 ====
 +Indica para los siguientes problemas de IA cual es la mejor métrica a usar:
 +  * Un modelo en el que no está clara la prevalencia.
 +  * Un modelo en el que la prevalencia es muy muy muy baja.
 +  * Un modelo en el que la prevalencia es muy muy muy alta. 
 +  * Un modelo en el que sabemos la prevalencia y no es extrema
  
 +==== Ejercicio 2.A ====
 +Estamos hacienda una IA de video vigilancia para venderla a empresas o gobiernos. La IA hará fotos de caras e indicará la raza de la persona (Para que sea un problema de clasificación binaria vamos a suponer que solo hay 2 razas: caucásicos y el resto).
  
-==== Ejercicio 3.G ==== +Indica en los siguientes supuestos que métrica/s usarías
-Muestra una gráfica similar a las anteriores pero ahora sea la suma los valores de sensibilidad y la especificidad menos 1+  * Cuando le enseñas la IA a tu jefe. 
 +  * Cuando enseñas el modelo a un grupo de inversores. 
 +  * Cuando enseñas el modelo para venderlo en España. 
 +  * Cuando enseñas el modelo para venderlo en el Reino Unido. 
 +  * Cuando enseñas el modelo para venderlo en Londres 
 +  * Cuando enseñas el modelo para venderlo en EEUU. 
 +  * Cuando enseñas el modelo para venderlo en Nueva Orleans 
 +  * Cuando enseñas el modelo para venderlo en Sudan del Sur.
  
-la suma de los valores para obtener el máximo pero restando 1 se le llama Informedness+==== Ejercicio 2.B ==== 
 +Suponiendo que la IA tiene: 
 +  * Sensibilidad: 96.8% 
 +  * Especificidad: 97.2%
  
-$$ +Haz lo siguiente:
-Informedness=Sensibilidad+Especificidad-1 +
-$$+
  
-Muestra un punto con el máximo de la gráfica y el threshold correspondiente al máximo.Además para ese nivel de threshold, **imprime la sensibilidad y la especificidad**+  * Busca el porcentaje de caucásicos en las zonas anteriores 
 +  Elije las mejores métricas en cada caso 
 +  Calcula es valor de dichas métricas.
  
-{{:clase:iabd:pia:2eval:threshold-markedness-informedness.png?direct|}} 
  
 +<note>
 +Datos de población caucásica por países:
  
-==== Ejercicio 5.A ==== +<nodisp 2> 
-Crea una nueva red neuronal para el problema del //bread cancer//+  * España: 75% 
 +  * Reino Unido: 86% 
 +  * Londres: 53% 
 +  * EEUU: 57% 
 +  * Nueva Orleans: 31% 
 +  * Sudan del Sur: 0.6% 
 +</nodisp> 
 +</note>
  
-Ahora razona con cual de las redes te quedarías y que threshold elegirías para cada uno de ellos.+==== Ejercicio 3 ==== 
 +Estamos hacienda una IA que hace fotos al sol y predecirá con 2 horas de antelación cuando va a haber una super fulguración solar que afecte a la tierra.
  
-Para elegir debes mostrar gráficas , una al lado de la otra para comparar lo siguiente: +Indica en los siguientes supuestos que métrica/s usarías. 
-  * Gráficos de perdida, sensibilida y especificidad durante el entrenamiento +  * Cuando le enseñas la IA a tu jefe. 
-  * Matriz de confusión con las métricas: Sensibilidad, Especificidad, VPP, VPN, Prevalencia +  * Cuando enseñas el modelo a un grupo de inversores. 
-  * Threshold vs (Sensibilidad y Especificidad) +  * Cuando enseñas el modelo para venderlo en España. 
-  * Threshold vs Informedness (Muestra en el label el máximo)+  * Cuando enseñas el modelo para venderlo en el Reino Unido. 
 +  * Cuando enseñas el modelo para venderlo en Londres 
 +  * Cuando enseñas el modelo para venderlo en EEUU. 
 +  * Cuando enseñas el modelo para venderlo en Nueva Orleans 
 +  * Cuando enseñas el modelo para venderlo en Sudan del Sur.
  
 +==== Ejercicio 4.A ====
 +Estamos hacienda una IA que hace fotos a un bebe recien nacido y detecta si al bebe tiene Sindrome de Dawn
  
-¿Con que red te quedarías?+Indica en los siguientes supuestos que métrica/s usarías. 
 +  * Cuando le enseñas la IA a tu jefe. 
 +  * Cuando enseñas el modelo a un grupo de inversores. 
 +  * Cuando enseñas el modelo para venderlo en España. 
 +  * Cuando enseñas el modelo para venderlo en el Reino Unido. 
 +  * Cuando enseñas el modelo para venderlo en Londres 
 +  * Cuando enseñas el modelo para venderlo en EEUU. 
 +  * Cuando enseñas el modelo para venderlo en Nueva Orleans 
 +  * Cuando enseñas el modelo para venderlo en Sudan del Sur.
  
-{{:clase:iabd:pia:2eval:comparar_redes.png?direct|}}+==== Ejercicio 4.B ==== 
 +¿De que depende en este caso realmente la prevalencia?
  
-Además para el nivel de threshold de la red que ha "ganado", **imprime la sensibilidad y la especificidad**+==== Ejercicio 5 ==== 
 +Dado los siguientes problemas de Kaggle: 
 +  * **Problema A**:[[https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists|HR Analytics: Job Change of Data Scientists]]: Al contratar a alguien , averiguar si es persona va a buscar rápidamente cambiar de trabajo. 
 +  * **Problema B**:[[https://www.kaggle.com/datasets/adityakadiwal/water-potability/code|Water Quality]]: Averiguar si es base a cierto parámetros del agua ésta es potable. 
 +  * **Problema C**:[[https://www.kaggle.com/datasets/hopesb/student-depression-dataset/data|Student Depression Dataset.]]: Predecir si un estudiante va a tener depresión.
  
-==== Ejercicio 5.B ==== +Responde las siguientes cuestiones
-Con el modelo elegido, guarda el modelo disco+
  
 +  * Indica la prevalencia del problema:
 +    * Si no se sabe porque depende de donde se vaya a usar.
 +    * Si es la de los datos
 +    * Si es otro valor conocido. En ese caso di cual.
 +  * En base a la prevalencia indica la métrica de rendimiento global más adecuada.
  
-==== Ejercicio 5.C ==== +Usando la métrica que has seleccionadomuestra para cada problema una gráfica en la que se muestre esa métrica en función del umbral (threshold). Y elige el umbral más adecuado.
-Con modelo que has elegidocárgalo desde disco en otro Jupyter notebook y realiza inferencia de 10 pacientes+
  
-Para cada paciente: 
-  * Indica su prevalencia (te la tienes que inventar de forma aleatoria) 
-  * Indica la probabilidad de que la red haya acertado. 
  
  
clase/iabd/pia/2eval/tema08.seleccion-metricas.1739524886.txt.gz · Última modificación: 2025/02/14 10:21 por admin