Marcos Torregrosa

Data Mesh: gestión de datos descentralizada

El paradigma Data Mesh está ganando adeptos como un nuevo enfoque para la gestión de datos en las organizaciones. A diferencia de las arquitecturas monolíticas como Data Warehouse o Data Lake, el Data Mesh se enfoca en la descentralización, democratización…

24 octubre 2023

Data Engineering Zoomcamp – Semana 6

Stream processing con Apache Kafka Llegamos a la última semana del bootcamp para Data Engineers organizado por DataTalksClub. Si la semana pasada vimos el procesamiento de datos por lotes, en esta vamos a abordar el procesamiento en tiempo real con…

10 marzo 2023

Data Engineering Zoomcamp – Semana 5

Batch Processing con Spark Entramos en la recta final del bootcamp para Data Engineers. Las dos semanas que quedan están dedicadas al procesamiento de datos, comenzando esta con el batch o procesamiento por lotes empleando tecnología spark y la semana…

24 febrero 2023

Data Engineering Zoomcamp – Semana 4

Modelización de datos con dbt Cada vez se pone más interesante el bootcamp para Data Engineers. La cuarta semana está dedicada al modelaje de datos y los Analytics Engineer como pieza intermedia entre los Data Engineers y los Data Scientists.…

14 febrero 2023

Python: Optimizar uso de memoria con Pandas

Si estás trabajando con dataframes de Pandas en Python te propongo varias formas de optimizar el consumo de memoria RAM. Para nuestro ejemplo vamos a usar el siguiente dataset: En primer lugar, para analizar el consumo de memoria de cada…

13 febrero 2023

Data Engineering Zoomcamp – Semana 3

La tercera semana del bootcamp para Data Engineers se ha centrado en Data warehouse y en concreto, el servidio de Google Cloud Platform dedicado a tal fin: BigQuery. Hemos abordado conceptos como particionamiento y clustering para optimizar el consumo de…

6 febrero 2023

Data literacy o alfabetización de los datos

A consecuencia de un mundo empresarial cada vez más impulsado por los datos en los últimos años se viene hablando de la data literacy o alfabetización de datos. Se trata de una metodología de trabajo que busca desarrollar la capacidad…

6 febrero 2023

Domain Driven Design (DDD) en arquitectura de datos

Dentro de la transformación de la arquitectura de datos de un modelo centralizado (Data Warehouse o Data Lake) a uno descentralizado (Data Mesh) podemos encontramos con un cambio de enfoque de desarrollo software, desplazándonos de un punto de vista data-driven…

2 febrero 2023

Data Swamp: ¿Qué es y cómo evitarlo?

En la era digital, las organizaciones recopilan y almacenan una cantidad masiva de datos de diferentes fuentes. Sin embargo, el acúmulo de información sin clasificar y sin gestionar adecuadamente puede convertirse en un problema y dificultar la recuperación y el…

31 enero 2023