Herramientas de usuario

Herramientas del sitio


clase:iabd:pia:1eval:tema05-apendices

5. Pandas: Apendices

Tratamiento de datos inválidos

  • De una columna , obtener la lista de filas que tiene el valor NaN o None. Retorna una array de booleanos.

df.capacidad.isna()

[False, True,  False, True,  False, False, False, False, False, False, 
 False, False, False, False, False, False, False, False, False, False, 
 False, False, False, False, False, False, False, False, False, False]

  • De una columna , obtener la lista de filas que NO tiene el valor NaN o None. Retorna una array de booleanos.. Como es un array de booleanos se puede usar para filtrar las filas que son válidas.

df.capacidad.notna()

[True, False, True, False, True, True, True, True, True, True, 
 True, True,  True, True,  True, True, True, True, True, True, 
 True, True,  True, True,  True, True, True, True, True, True]

  • De una columna, borrar las filas que tengan NaN o None

new_df=df[df.capacidad.notna()]

  • De más de una columna, borrar las filas que tenga NaN o None

df[(df.tipo.notna()) & (df.capacidad.notna()) & (df.precio.notna())]

  • Rellenar los valores que tengan NaN o None con la media de su columna

df.fillna(df.mean(),inplace=True)
new_df=df.fillna(df.mean())

  • Rellenar los valores de una columna con NaN o None con un valor

df['tipo']=df.tipo.fillna("Desconocido")

  • Rellenar los valores de una columna con NaN o None con la media

df['precio']=df.precio.fillna(df.precio.mean())

pandas_profiling

Genera un HTML con información del DataFrame

from pandas_profiling import ProfileReport
reporte = ProfileReport(df, title = "Mi reporte")
reporte.to_file("reporte.html")

Se puede ver el resultado en pandas_profiling.html

Mas información:

clase/iabd/pia/1eval/tema05-apendices.txt · Última modificación: 2022/01/23 17:16 por admin