Automatizando el análisis de datos con Pandas.

Abstract

La manipulación y análisis de datos es una necesidad latente. Las hojas de cálculo son una excelente alternativa, pero es indispensable utilizar tecnologías más poderosas y flexibles como Python, para extraer el mayor provecho a los datos con los que contamos, de manera fácil y automatizada.

Description

Comenzaremos con una introducción general a la librería de Pandas utilizando la interfaz de Jupyter. Revisaremos, utilizando analogías, qué son los Data Frames, y cómo éstos almacenan y despliegan la información.

Posteriormente, revisaremos múltiples formatos en los que se pueden encontrar los datos (json, xml, csv) almacenados. Aprenderemos cómo cargar y manipular cualquier formato en Pandas, descargando un par de datasets de la página de datos abiertos de gobierno.

Durante la plática, aprenderemos a contestar las siguientes preguntas:

- ¿Qué nivel de agregación tienen nuestros datos?
- ¿Cuáles son los tipos de datos que tenemos en nuestro Data Frame?
- ¿Cómo modificar los tipos de datos?
- ¿Qué podemos hacer con los valores faltantes y NAs?

Aprovecharemos la mayor parte del tiempo de la plática para realizar 3 ejemplos prácticos, que nos permitirán comprender a grandes rasgos las ventajas de Pandas:

1. Modificar la estructura inicial de nuestros datos. Ejemplo: vamos a suponer que tenemos información sobre productos y los queremos publicarla en Shopify, Mercadolibre, Ebay, o cualquier otro Marketplace. En este ejemplo aprenderemos a reorganizar la información para homologarla con el formato de un tercero. Compartiré un conjunto de herramientas, y trucos, que permiten la fácil reestructuración de los datos.

2. Extraer información específica de los datos. Ejemplo: Cómo estandarizar la generación de un reporte de ventas que extraiga de todas las ventas individuales, el consolidado por cada canal de venta.

3. Realizar operaciones más complicadas de agrupación. Ejemplo: Cómo hacer cualquier tipo de tabla dinámica de Excel utilizando Pandas.

Por último, revisaremos algunos de los principios de automatización. Por qué Python es una excelente herramienta para eliminar la cantidad de trabajo repetitivo. Revisaremos algunas ideas sobre qué hacer una vez teniendo la información procesada y analizada:

- Exportar los archivos.
- Enviar la información por mail.
- Actualizar la información en una Spread Sheet compartida por el equipo de trabajo.
- Visualizar los resultados utilizando Data Studio de Google.
- Subir los cambios a una base de datos.

Tabla de contenido:

  1. Introducción. (5 minutos)

    • Sobre mí.
    • Qué es Pandas.
    • Qué es un Data Frame.
  2. Tipos de archivos y cómo importarlos en Python. (3 minutos)

    • Json
    • XML
    • CSV
    • Excel
  3. Conociendo nuestra información. (3 minutos)

    • Niveles de agregación de la información
    • Validez estadística: muestra o población
    • Tipos de datos
    • Valores faltantes.
  4. Procesamiento de información. (15 minutos)

    • Convertir información (eg. transformar el formato de la información).
    • Extraer información necesaria (eg. información estadística).
    • Agrupar información (eg. tablas dinámicas y groupby).
  5. Automatización, seguimiento y cierre. (9 minutos)

    • Qué hacer con la información.
    • Exportar un archivo.
    • Almacenar en otra base de datos.
    • Enviar el reporte por mail.
    • Actualizar un Spread Sheet de Google.