Consultoría & Consultores

Data Warehouse, Data Lake, Data Lakehouse… Hoy en día nuestros diccionarios evolucionan de una manera vertiginosa y muchas veces no tenemos tiempo para entender los nuevos conceptos que van apareciendo en el sector del análisis de datos. Desde finales de los 80, los Data Warehouse han ido evolucionando de muchas maneras: nuevas herramientas de ETL, motores de base de datos más potentes y más facilidad parar crear modelos de datos, entre otros.

Entrados los 2000, se empezó escuchar la palabra Data Lake y aparecieron las primeras menciones a tecnologías como MapReduce, Hadoop, Spark e incluso Hive, y con todas estas tecnologías aparecen también un montón de palabras ininteligibles para la gente de a pie.

¿Qué tienen de bueno los Data Lake? Los Data Lakes ofrecen una clara ventaja en flexibilidad y capacidad para gestionar datos no estructurados y semi-estructurados. Sin embargo, la contrapartida principal consiste en la organización de estos datos, ya que suelen almacenarse en archivos que pueden resultar difíciles de gestionar.

Y entonces… ¿Qué es un Data Lakehouse? Es juntar lo mejor de los dos mundos: la potencia para tratar datos de todo tipo junto a las características analíticas habituales de tener un Data Warehouse.

Para desplegar este tipo de soluciones, necesitamos nuevas herramientas y metodologías. Por ejemplo, los llamados Data Lakehouse se suelen estructurar en tres capas llamadas Bronze, Silver y Gold:

  1. Bronze: datos en estado original y sin procesado
  2. Silver: datos procesados y limpios, pero de manera básica
  3. Gold: datos procesados con lógica de negocio aplicada y listos para ser explotados.

Una arquitectura típica para ejemplificar este ecosistema, en este caso dentro de Azure y bajo el paraguas de Microsoft, sería la siguiente:

Sigue leyendo en ABAST