Por Pere Munar, publicado el 16 enero 2024
Un data lake es una plataforma de almacenamiento que alberga grandes cantidades de datos sin procesar, de todo tipo (no estructurados, estructurados y semiestructurados), de diferentes fuentes y con completa fidelidad.
Pero los data lakes no solo almacenan datos transferidos desde cualquier sistema, sino que también los procesan y analizan, lo que los convierte en una herramienta muy interesante para cualquier experto en data science y para cualquier empresa que quiera analizar de forma profunda sus datos.
Por tanto, la principal función de un lago de datos es permitir que las organizaciones puedan obtener información de valor de los datos que tienen almacenados sin necesidad de organizar y procesar previamente los datos.
Elementos de un Data Lake
Además del almacenamiento de datos, esto es todo lo que puedes encontrar en un lago de datos:
- Herramientas de análisis y procesamiento de big data: los data lake suelen integrar este tipo de funcionalidades a través de motores de procesamiento y otras herramientas de análisis.
- Metadatos: los metadatos hacen más sencilla la búsqueda y la comprensión de los datos en el lago de datos ofreciendo información sobre su calidad, contenido y significado.
- Funciones de seguridad: son muy importantes para garantizar la protección de todo el big data que almacena el data lake. Entre las funciones de seguridad más comunes encontramos el cifrado de datos y los controles de acceso.
- Integraciones con otras plataformas: normalmente, los data lake no se utilizan de forma autónoma e independiente y forman parte de otros sistemas de almacenamiento, análisis o visualización de datos.
- Herramientas de monitorización: los data lake suelen incluir herramientas que supervisan el rendimiento y la salud de la plataforma para garantizar la buena ejecución de sus acciones.
- Procesos de calidad de datos: para garantizar la calidad de los datos almacenados, los data lake llevan integradas funcionalidades de limpieza, validación y normalización de datos.
Tipos de Data Lake
Los data lake se pueden clasificar atendiendo a diferentes criterios. Pero en este caso vamos a exponer el más simple, que es según su ubicación.
Data Lake local
Opera en los servidores de la empresa que lo utiliza. Se caracteriza por necesitar una inversión de capital mayor, pues para ponerlo en marcha hay que adquirir licencias tanto de hardware como de software.
Además, se necesita la ayuda de expertos en IT (tecnología de la información) para instalarlo y posteriormente administrarlo, por lo que las empresas son las responsables de garantizar el rendimiento y la seguridad de los datos.
Otro aspecto negativo es que no es muy escalable y es muy común ver cómo las empresas que lo implementan necesitan migrar su lago de datos a un sistema más grande que pueda abarcar todo el big data.
Pese a ello, un lago de datos local presenta un rendimiento superior.
Data Lake en la nube
Los data lake en la nube son los más utilizados y se caracterizan por ejecutarse en la nube de un proveedor externo, por lo que se accede a ellos a través de internet.
Son más económicos que los data lake locales, pues las empresas suelen pagar según el modelo de suscripción. Otra diferencia en la que superan a los data lake locales es que sí son escalables, pues para ampliar su capacidad de almacenamiento y gestión del big data solo será necesario pagar una suscripción superior.
Con un lago de datos en la nube la empresa que los contrata no tendrá que ocuparse de la seguridad, el rendimiento o la fiabilidad de los datos, pues es algo que hace la empresa proveedora. De esta forma, la empresa puede centrarse más en aspectos como el análisis de datos.
Beneficios de un Data Lake
- Flexibilidad de procesamiento: un data lake puede analizar y procesar big data tanto en tiempo real como por lotes.
- Agilidad y facilidad de acceso al big data: un lago de datos hace que los expertos en data science puedan comprender los datos y acceder a informes de una manera rápida y sencilla. Esto, a su vez, provoca que las empresas tengan más facilidad para adaptarse a los cambios al poder reaccionar más rápidamente a ellos.
- Diversidad de datos: un data lake almacena datos de todo tipo y de una gran variedad de orígenes.
- Calidad de datos: un lago de datos permite implementar políticas de gobernanza de datos para asegurar la seguridad, privacidad y cualidad del big data que aloja.
- Complejidad de análisis: se pueden realizar análisis más avanzados que incluyen el análisis predictivo y el aprendizaje automático. Esto es beneficioso porque permite a las empresas tener información más profunda acerca de sus datos.
Cómo funcionan los Data Lake
Un lago de datos tiene un funcionamiento sencillo. Primero, importan los datos de diferentes fuentes, que pueden ser tanto plataformas internas de la organización (CRM, ERP…) como externas (redes sociales, página web, correo electrónico…).
Después, todos estos datos se almacenan en el lago de datos sin estructurar y sin procesar en un sistema de archivo plano. Este almacenamiento se puede producir en un flujo contínuo o en lotes según la fuente y, una vez dentro, los datos se organizan en categorías.
Por último, una vez se haya producido lo anterior, los expertos en data science pueden utilizar herramientas de analítica y de machine learning para conseguir información de esos datos.
Casos de uso de un Data Lake
Estos son algunos de los usos más comunes de los data lake:
- Analizar big data: este es el uso más habitual que se le da a los data lake, pues pueden almacenar grandes cantidades de datos y realizar análisis para descubrir patrones.
- Almacenar datos en tiempo real: esto permite un análisis inmediato por parte de los expertos en data science y, como ya hemos mencionado, poder tomar decisiones a una mayor velocidad.
- Identificar tendencias: debido a que los data lake pueden almacenar big data a largo plaza, se crea una base de datos histórica que permite hacer análisis retrospectivos e identificar tendencias.
- Analizar sentimientos: los data lake también pueden procesar y almacenar datos de las redes sociales y otras plataformas para analizar cómo se siente el cliente con respecto a la marca.
- Recuperar datos: muchas veces actúan como recurso de soporte ante incidentes de pérdidas de datos.
- Cumplir políticas de seguridad: como el almacenamiento que se lleva a cabo en un lago de datos es seguro y está centralizado, se utiliza mucho para cumplir con las normativas de seguridad y protección de datos.
- Almacenar datos inactivos: como los data lake en la nube son muy económicos, se suelen utilizar muy frecuentemente para almacenar todo tipo de datos, pero en especial datos fríos, es decir, aquellos a los que se accede con poca frecuencia.
- Integrar datos: un lago de datos es muy útil para unificar información de diferentes fuentes y construir así una base de datos que se pueda comprender.
Los pozos de datos, el lado oscuro de los Data Lakes
Pese a todos los beneficios y funcionalidades que albergan los data lakes, si no se utilizan adecuadamente pueden terminar siendo lo que se conoce como pozos o pantanos de datos.
Un pozo o pantano de datos es un lago de datos que no se ha administrado de forma adecuada, es decir, en el que no se han implementado de forma asidua prácticas de gestión y calidad de datos, provocando que los datos se vuelvan inútiles y poco fiables.
Por tanto, si se quiere implementar un data lake en una organización, es importante contar con expertos en data science para que garanticen un buen mantenimiento, administración y gestión de los datos. Solo de esta forma se puede mantener la calidad y gobernabilidad del big data almacenado.
Diferencia entre Data Lakes y Data Warehouse (Almacén de datos)
Es muy común confundir ambos términos, pero la realidad es que los data lakes y los data warehouse son plataformas diferentes debido a que utilizan distintos criterios de almacenamiento.
Pese a que ambos almacenan datos, los data lakes lo hacen sin seguir un esquema concreto y definido, es decir sin utilizar dimensiones jerárquicas o tablas para almacenar los datos. Esto es algo que sí que hacen los data warehouse y que se conoce como esquema de lectura.
La ventaja de no organizar los datos siguiendo un esquema definido es que es un sistema muy útil para cualquier tipo de experto en data science, ya que les facilita cualquier actividad relacionada con el machine learning y el descubrimiento de datos. En definitiva, los data lakes son entornos más flexibles que facilitan el uso futuro de los datos almacenados.
En cuanto a cuál es mejor, ninguno es per se superior al otro, pues cada uno tiene sus ventajas y desventajas. Los data lakes, aunque suelen tardar más tiempo en ofrecer un resultado a una consulta, tienen un coste más bajo y su capacidad de almacenamiento es muy grande. Por su parte, los data warehouse son más caros, pero tienen un mayor rendimiento.
Es importante recalcar que no hay que ver a los data lake y a los data warehouse como herramientas enfrentadas, sino complementarias. Incluso, a veces hay empresas que necesitan equiparse con ambas plataformas.
Y, por supuesto, cada una es mejor para un área que para otra. Por ejemplo, los data warehouse se suelen utilizar más para generar informes y para hacer seguimiento de ventas o de tráfico web.
Los data lakehouse, la evolución del data lake y el data warehouse
Las desventajas que presentan ambas formas de almacenamiento de datos provocó que surgiera un entorno que combina lo mejor de ambos mundos: el data lakehouse. Los data lakehouse son entornos de almacenamiento que tiene una alta capacidad de administrar los datos, pero con un bajo coste.