Los datos se están convirtiendo en una pieza clave para las empresas hoy en día. Toda empresa quiere mejorar su e ciencia analizando los datos que generan de manera periódica, pero debido al volumen de información, este conjunto de datos necesita ser tratado con una serie de técnicas y herramientas no tradicionales.
La solución para el tratamiento de esta información pasa por la arquitectura Lambda. Proporciona un enfoque que permite combinar el tratamiento de datos en tiempo real y en diferido, de forma escalable y tolerante a fallos.
Una arquitectura Lambda consta de tres capas principales:
La capa de streaming (Spark Streaming + Kafka) nos permite recuperar datos en tiempo real obteniendo información y conocimiento de ellos.
La capa de procesamiento batch permite analizar datos de distintas fuentes origen de manera rápida y escalable.
La capa servidor: tanto los datos de tiempo real como los datos de procesamiento bach se van almacenando para su posterior explotación, utilizando las distintas tecnologías disponibles en base a su utilización (Cassandra, Neo4J, MongoDB...)
Estas tecnologías permiten el uso de base de datos no solo no relacionales si no también bases de datos NoSQL, entre las que destacan:
- Orientadas a ficheros
- Grafos
- Clave – valor
Esta arquitectura permite generar modelos de predicción (con herramientas como Apache Mahout, Spark MLLib,..) mediante el procesamiento batch analizando el histórico almacenado en los servidores y utilizando estos modelos con los datos en streaming, pudiendo realizar predicciones en tiempo real que aporten valor a nuestro negocio.
Los beneficios de Big Data son:
- Mejoran y aceleran los procesos de tratamiento de información.
- Manejo de datos en tiempo real
- Gestión de datos desestructurados y de diversas fuentes origen.
- Arquitectura en la nube de fácil mantenimiento y escalabilidad horizontal