Mitos y realidades del Big Data – Urko Zurutuza

Este es el resumen escrito en directo de la ponencia de Urko Zurutuza, profesor e investigador de Mondragon Unibertsitatea, «Introducción al Big Data». Esta ponencia ha abierto la jornada «Mitos y realidades del Big Data», organizada por Enpresa Digitala en su nodo de Garaia.

«El Big Data es la electricidad del siglo XXI», «el Big Data hará un mundo mejor»… Estamos oyendo frases de este tipo todos los días, y el objetivo de esta jornada es pararnos un momento y ver qué es esto del Big Data. Hoy en día casi todo esté conectado a Internet, se generan y recopilan una cantidad ingente de datos y es necesario gestionar y procesar estos datos.

«Big Data» trata sobre volúmenes de información tan grandes y tan complejos que no podemos procesarlos de una manera tradicional. Urko ha ido planteando una serie de preguntas para aclarar conceptos:

Instalo y uso una BBDD NoSQL. Hago Big Data?

Una base de datos NoSQL es:

No relacional.
Distribuida.
Open Source.
Horizontalmente escalable: podemos añadir más servidores, más nodos.

Hay varios tipos de bases de datos NoSQL:

Clave-valor. Por ejemplo: Redis.
Familia columnas. Cassandra.
Documentos. MongoDB.
Grafos. Neo4j.

Entonces, dependerá de si mi sistema es escalable, distribuido y si el volumen de datos que manejo es lo suficientemente grande. Si es así, podemos estar haciendo Big Data.

Tengo una plataforma basada en Hadoop instalada en mi equipo, ¿Hago Big Data?

Hadoop permite una computacion fiable, escalable y distribuida. Hadoop funciona en clusters de servidores sobre Java, y por encima de Java tenemos un sistema de almacenamiento basado en Hadoop: Hadoop HDFS. Por encima existe una capara de procesamiento distribuido de datos, Hadoop MapReduce.

Además, hay muchos proyectos que generan aplicaciones y herramientas que trabajan sobre Hadoop. Si tenemos Hadoop instalado en un solo equipo, no hacemos Big Data, no es una solución distribuída. Aunque puede ser una buena opción para comenzar a aprender sobre estas herramientas.

Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. Soy Big Data?

El fin del Big Data es extraer valor de tantos datos. Algo que ya se está haciendo desde hace tiempo con el «Small Data». Queremos obtener, por ejemplo:

Recomendación basada en el comportamiento de usuarios. Por ejemplo, lo que hace Amazon.
Agrupación de documentos de texto parecidos.
Clasificación y predicción.

En el machine learning y data mining el procesamiento se hace en memoria. Pero cuando se trata de Big Data, tenemos que hacer el procesamiento de manera distribuido y escalable.

Si aplicamos estas técnicas en nuestra empresa, seguramente estamos preparados para entrar en el mundo del Big Data.

Entonces, cómo hago Big Data o qué necesito?

Tengo tantos datos? Puedo obetener un valor añadido del prcesamiento de los datos? En realidad, es una decisión de negocio. Si lo tenemos claro, necesitamos una infraestructura para trabajar: en nuestras instalaciones (en casa) o en la nube.

En casa: Distribuciones Hadoop

Cloudera,
MapR,
Hortonworks…

En la nube:

IaaS: Amazon Elastic Compute Cloud, Azure…
PaaS: Amazon Elastic MapReduce, Azure Elastic…
SaaS: Teradata, sqlstream…

La formación del personal es muy importante: administración del cluster, NoSQL, Desarrollo, Machine learning, Data mining, visualización de datos…

Urko recomienda empezar poco: objetivos simples e integración de resultados obtenidos. Realizar iteraciones rápidas y ágiles e ir aprendiendo en nuestros negocios.

Esta es la presentación que ha usado Urko en su ponencia: