DEV Community

Andrea Méndez Ortiz for AWS Girls Chile

Posted on • Edited on

Aprende a analizar datos: primeros pasos con Athena de AWS

¡Hola! En este post quiero compartirles como poder usar un servicio de Amazon Web Services que me gusta mucho, porque es dinámico, ágil y muy fácil de usar.

Si les interesa aprender o desarrollarse en datos, Amazon Athena es el servicio para ustedes.

Athena

¿Qué es Amazon Athena?

Amazon Athena es un servicio de Amazon Web Services que permite realizar consultas de forma interactiva, el cual además permite analizar datos desde S3 (Amazon Simple Storage Service), por lo que no es necesario configurar bases de datos o servidores.

La forma de trabajar con Amazon Athena es mediante consultas en SQL (Structured Query Language). Ideal para quienes trabajan o deseen trabajar como analistas de datos y ya cuentan con los conocimientos en este lenguaje.

Un beneficio importante de Athena es que tiene un bajo costo, ya que solo se paga por las consultas ejecutadas, sin asumir gastos a largo plazo.

Una vez ya entendiendo qué es Amazon Athena, querrás saber de qué forma comenzar a jugar con este servicio, así que manos a la obra...

1. Crear un Bucket en S3

Lo primero para usar Athena es tener los datos para poder trabajar. Si no tienes algún dataset a mano, puedes obtener alguno interesante en Kagglesobre algún tema que te interese. En mi caso, utilizaré un dataset sobre las personas que estuvieron en el Titanic, ya que me gusta mucho.

Ya teniendo el dataset, debes ingresar al servicio de Amazon S3 en tu cuenta de AWS.

crear bucket

Posteriormente, determinan un nombre a su bucket y la región en la que desean que se cree. En mi caso seleccioné us-east-1

Image description

Una vez creado el bucket se darán cuenta que está vacío, por lo que tienen que cargar el objeto, que en este caso sería el dataset con el que van a trabajar:
Image description

Una vez que está cargado... ¡Felicitaciones! Ahora se viene la parte entretenida

Image description

2. Conecta el bucket en Athena

Ingresa al servicio de Amazon Athena y selecciona la primera opción "Query your data".

Image description

Ingresarás a un editor de SQL, en donde que a la izquierda aparecen tablas y vistas, en donde hay una opción para crear. Seleccionala y donde dice "Crear una tabla desde una fuente de datos", selecciona S3 bucket data

Image description

Se abrirá una pantalla para crear la tabla, en donde debes indicar el nombre y lo más importante: la dirección en donde se encuentra tu dataset.

En el formato de datos, recuerda indicar el tipo de dataset y en detalles de columnas, deberás poner los nombres de cada columna de tu dataset, indicando el tipo de dato.

Image description

3. ¡Comienza a entretenerte con Athena!

Acá ya viene la parte entretenida. Selecciona la tabla que ya subiste, apreta los 3 puntos y haz clic en

SELECT * FROM "analytics"."dataset_titanic" limit 10;
Enter fullscreen mode Exit fullscreen mode

Ahora puedes comenzar a crear consultas con la tabla que tengas. Crearé algunas consultas sencillas a continuación con SQL.

N° total de mujeres en el Titanic:

SELECT COUNT(sex) FROM "analytics"."dataset_titanic"
WHERE (sex) = 'female';
Enter fullscreen mode Exit fullscreen mode

Image description

Mujeres mayores de 60 años:

personas mujeres mayores de 60 años
SELECT * FROM "analytics"."dataset_titanic"
WHERE (age) = '60';
Enter fullscreen mode Exit fullscreen mode

Image description

Personas que pagaron el ticket más caro:

SELECT name, middle_name, fare FROM "analytics"."dataset_titanic"
ORDER BY fare DESC;
Enter fullscreen mode Exit fullscreen mode

Image description

Personas que sobrevivieron mayores a 30 años:

SELECT * FROM "analytics"."dataset_titanic"
WHERE (survived) = '1' AND (age) >= '30'
ORDER BY age ASC;
Enter fullscreen mode Exit fullscreen mode

Image description

Bueno, espero que les haya gustado esta introducción a Amazon Athena y les motive a aprender más sobre este gran servicio y a meter las manos en la masa con algún dataset que les guste.
¡Nos vemos!

Top comments (0)