Big Data y Hadoop. Cloudera vs Hortonworks


En este artículo vamos a hablar de Big Data y Hadoop, dos términos muy oídos en los últimos meses. Debido al avance de las nuevas tecnologías, Internet y la Web 2.0 entre otros, se han alcanzado escenarios de ingentes volúmenes de datos. Por ello, una de las tendencias tecnológicas que más ruido está haciendo en la actualidad gira en torno al concepto ‘Big Data’. Analistas y grandes compañías coinciden que será uno de los pilares del mercado en los próximos años, junto con la movilidad, el cloud computing y las redes sociales.

Big Data y Hadoop van de la mano

El mercado del almacenamiento y procesamiento de grandes volúmenes de datos está directamente ligado a Hadoop, un framework open-source que pertenece a la fundación Apache.

 

Big Data y Hadoop
Conceptos que definen el Big Data, vía: https://www.datameer.com

 

Con el fin de facilitar la configuración e instalación de Hadoop, existen diversas distribuciones, tales como Cloudera o Hortonworks entre otras.

Cloudera vs Hortonworks

La distribución de Cloudera (CDH) fue la primera en aparecer en el mercado, combinando Big Data y Hadoop. CDH no solo incluye el núcleo de Hadoop (HDFS, MapReduce…) sino que también integra diversos proyectos de Apache (HBase, Mahout, Pig, Hive, etc.). CDH es 100% open-source, y cuenta con una interfaz gráfica propietaria, Cloudera Manager, para la administración y gestión de los nodos del clúster Hadoop. La descarga es totalmente gratuita. No obstante, también cuenta con una versión empresarial, que incluye una interfaz más sofisticada. Cloudera recientemente ha estrechado vínculos tanto con IBM como con Oracle. En la siguiente ilustración, se muestra la arquitectura de la distribución CDH:

Cloudera vs Hortonworks
Distribución Cloudera: CDH, vía: http://www.cloudera.com

 

Otra alternativa al Big Data y Hadoop es Hortonworks. A diferencia de Cloudera, Hortonworks es una de las distribuciones más recientes de Hadoop (HDP). Al igual que CDH, HDP es totalmente open-source, incluye las herramientas que forman el núcleo de Hadoop, y por supuesto también incorpora diferentes proyectos open-source de Apache. Para más detalles, la siguiente ilustración muestra la arquitectura de HDP:

 

Cloudera vs Hortonworks
Distribución Hortonworks: HDP, vía: http://hortonworks.com

 

Una de las diferencias más notables respecto a Cloudera es la integración de Apache Ambari como herramienta de gestión y administración del clúster. A diferencia del Cloudera Manager, Apache Ambari no es propietario.  Sin embargo, el nivel de madurez de la herramienta de gestión de Cloudera es superior a la de Hortonworks. Como partners más cercanos, cuenta con Microsoft e Informatica.

Considerando la importancia de las tecnologías Big Data y Hadoop, el grupo de Telemática de Mondragon Unibertsitatea está inmerso en el desarrollo de dichas tecnologías con el fin de mejorar la eficiencia energética en procesos industriales. Si quieres más información no dudes en contactar con nosotros, puedes hacerlo a través de nuestra página de contacto.

 

Hay 2 comentarios

Añade el tuyo
  1. 1
    Big Data y Hadoop

    Muchas gracias por compartir la información y por la aclaración. Yo no soy ningún gran experto en Hadoop así que siempre es agradecido leer algo al respecto, y esta pequeña comparativa es muy didáctica.

    Gracias y que acabéis de pasar un buen día chicos,
    Juan.

Hay 1 comentario