====== 5. Pandas: Apendices ======
===== Tratamiento de datos inválidos =====
* De una columna , obtener la lista de filas que tiene el valor ''NaN'' o ''None''. Retorna una array de booleanos.
df.capacidad.isna()
[False, True, False, True, False, False, False, False, False, False,
False, False, False, False, False, False, False, False, False, False,
False, False, False, False, False, False, False, False, False, False]
* De una columna , obtener la lista de filas que **NO** tiene el valor ''NaN'' o ''None''. Retorna una array de booleanos.. Como es un array de booleanos se puede usar para filtrar las filas que son válidas.
df.capacidad.notna()
[True, False, True, False, True, True, True, True, True, True,
True, True, True, True, True, True, True, True, True, True,
True, True, True, True, True, True, True, True, True, True]
* De una columna, borrar las filas que tengan ''NaN'' o ''None''
new_df=df[df.capacidad.notna()]
* De más de una columna, borrar las filas que tenga ''NaN'' o ''None''
df[(df.tipo.notna()) & (df.capacidad.notna()) & (df.precio.notna())]
* Rellenar los valores que tengan ''NaN'' o ''None'' con la media de su columna
df.fillna(df.mean(),inplace=True)
new_df=df.fillna(df.mean())
* Rellenar los valores de una columna con ''NaN'' o ''None'' con un valor
df['tipo']=df.tipo.fillna("Desconocido")
* Rellenar los valores de una columna con ''NaN'' o ''None'' con la media
df['precio']=df.precio.fillna(df.precio.mean())
===== pandas_profiling ====
Genera un HTML con información del DataFrame
from pandas_profiling import ProfileReport
reporte = ProfileReport(df, title = "Mi reporte")
reporte.to_file("reporte.html")
Se puede ver el resultado en [[http://logongas.es/pandas_profiling.html|pandas_profiling.html]]
[[http://logongas.es/pandas_profiling.html|{{:clase:iabd:pia:1eval:pandas_profiling.png|}}]]
Una herramienta similar pero mucho mas potente es [[https://taknev83.github.io/pywedge-docs/|pywedge]]. Mas información en [[https://towardsdatascience.com/automated-interactive-package-for-eda-modeling-and-hyperparameter-tuning-in-a-few-lines-of-228c561fa63c|Automated Interactive Package for EDA, Modeling, and Hyperparameter Tuning in a few lines of Python Code]]
Mas información:
* [[https://medium.com/tacosdedatos/an%C3%A1lisis-exploratorio-de-datos-eda-con-pandas-profiling-cf6c19caa8aa|Análisis Exploratorio de Datos (EDA) con pandas_profiling]]
* [[https://enlapasta.wordpress.com/2017/08/24/pandas-profiling-una-excelente-herramienta-para-la-exploracion-de-datos/|Pandas Profiling: Una excelente herramienta para la exploración de datos]]