¿Qué es Pandas? (Y no, nos referimos al animal)
Cuando escuchas la pregunta: ¿qué es Pandas?, ¿qué se te viene a la mente? ¿Esos adorables osos nativos en China? Si pensaste en eso, no estás solo. Pero la realidad es que en el mundo de las ciencias de datos, Pandas tiene un significado completamente distinto.
Es probable que hayas escuchado acerca de Python, uno de los lenguajes de programación más usados en internet. De hecho, de acuerdo al portal Towards AI, Python es uno de los lenguajes de programación oficiales de Google. Así que si buscaste: ¿qué es Pandas? en Google, más probable que no, el lenguaje de programación Python fue utilizado en tu búsqueda.
Dicho esto, ¿qué es Pandas? Si bien Python es el lenguaje, Pandas puede ser visto como un complemento o adición a este lenguaje. Sin más que agregar, repasemos exactamente a qué hace referencia el término Pandas.
¿Qué es Pandas en Python?
Como mencionamos, Python es uno de los lenguajes de programación más utilizados en la ciencia de datos. Pero, ¿qué es Pandas?
En resumen, Pandas es una librería para Python que se usa para el análisis de datos. Fue creada en el año 2008 por el programador Wes McKinney como una solución a la necesidad de tener una herramienta flexible y robusta para el análisis cuantitativo.
Hoy en día, es una de las librerías de Python más populares, con más de 50 mil colaboradores según el portal Github.
Pandas está construido sobre 2 librerías clave de Python: matplotlib, que se usa para la visualización de datos, y NumPy, que ejecuta todas las operaciones matemáticas detrás. De cierta forma, la librería Pandas abarca estas 2 librerías, permitiendo a los usuarios acceder a muchas de las funciones de matplotlib y métodos de NumPy pero con menos código.
Antes de la creación de Pandas, muchos científicos de datos usaban Python para extraer y preparar los datos, y posteriormente trasladaban éstos a un lenguaje de programación más específico, como el caso de R, otro lenguaje de programación muy popular. Pandas introdujo 2 nuevos tipos de objetos para para almacenar datos: las Series, que tienen una estructura tipo lista, y los Data Frames, que tienen una estructura tabular.
Objetos en librerías de Python
Ya que conoces qué es Pandas, veamos más a detalle los elementos que abarca.
Series en Pandas
En Pandas y Python, los arreglos 1D son conocidos como Series. Una serie se crea a través de el constructor pd.series en un código. Este arreglo tiene muchos argumentos y condiciones opcionales, el argumento más común es data, que hace referencia a los elementos de la serie.
Fuente: Data Science Institute
En las líneas de código mostradas arriba, existen números enteros del lado izquierdo, en conjunto, a éstos se les conoce como el índice de la serie.
Indexación
Otro término importante en la librería de Python es la indexación. Se puede establecer un índice personalizado siempre y cuando el índice sea del mismo largo que las Series en Pandas.
Data Frames
Como mencionamos arriba, los Data Frames son otro tipo de objeto en Pandas la librería de Python que ayudan al almacenamiento de datos. En pocas palabras, un Data Frame es un arreglo 2D. Puede ser creado a través de un conductor pd. DataFrame. A diferencia de las series que pueden ser construidas de un escalón (que representa una Serie de valores únicos), los Data Frames no pueden elaborarse de esta forma.
El índice (la fila) y etiquetas de columnas de un Data Frame pueden definirse en el constructor.
Fuente: Data Science Institute
Otras funciones de Pandas
Bien, ya conoces qué es Pandas en Python y algunos elementos que lo componen, repasemos brevemente otras funciones de esta librería y cómo facilita la interpretación y análisis para la ciencia de datos en Python.
- El objeto Data Frame permite manipular los datos con indexación integrada.
- Esta librería de Python cuenta con herramientas para leer y registrar datos entre distintas estructuras y formatos de archivos.
- Alineación de datos y almacenamiento integrado de datos faltantes.
- Reformación y pivoteo de series de datos.
- Estructura de datos permite agregar y eliminar columnas así como integrar y junta distintas series de datos.
Fuente: Unsplash
Cómo instalar Pandas
Ya que sabes qué es Pandas y algunos de sus usos y funciones, veamos cómo lo puedes instalar en tu computadora.
Pandas es un software de código abierto, también conocido como open source, lo cual quiere decir que es gratuito y tiene miles de colaboradores.
Lo primero que debes hacer es asegurar que tengas Python instalado en tu ordenador. Para poder usar la librería Pandas en Python, debes importarla. Importar una librería quiere decir cargarla en tu memoria para que esté disponible para manipularla. Para hacer esto, debes ejecutar el siguiente código:
import pandas as pd
import numpy as np
Como mencionamos, Numpy te permite visualizar la base de datos de mejor forma.
Luego de ejecutar estas líneas de código, estás listo para usar Pandas en Python.
Fuente: Unsplash
Bien, ya conoces qué es Pandas, los elementos que componen esta librería de Python, sus usos y funciones, y cómo instalarla. Si eres un data scientist, o te interesa la programación, Python es un gran lugar por donde empezar.
Existen muchos tipos de lenguajes de programación. Además de Python, existe JavaScript, C + + o incluso HTML, el lenguaje de internet. Si te interesa comenzar o fortalecer tu carrera como científico de datos, saber qué es Pandas es una enorme ventaja al recolectar e interpretar datos. Y si apenas estás empezando con Pandas, en el Curso Online de Combinar Data con Pandas, impartido por Marco Rojo, científico de datos en Rappi, verás cuáles son los primeros pasos para realizar un proyecto de análisis de datos: obtención, exploración y manipulación de un dataset.
Pero la programación no se limita sólo a esto. El desarrollo web abarca un sinfín de posibilidades en un mundo cada vez más digital.
Por ahora, esperamos que ya conozcas un poco más sobre qué es Pandas en Python y sus usos en la ciencia de datos.
Lo único que falta es que lo comiences a usar.
¡Mucho éxito!
Fun fact: mucha gente piensa que el nombre Python está relacionado con las pitones, pero la realidad es que el creador de Python, Guido Van Rossum, era fanático de la serie de comedia ‘Monty Python’s Flying Circus’.