HADOOP SIMPLIFICADO

Una simple explicación de cómo funciona Hadoop

Hoy en día vivimos en la era de los grandes datos, donde no solo estos volúmenes han superado las capacidades de almacenamiento y de procesamiento de una máquina, sino que también ha crecido la variedad de formatos.
Esto trae 2 retos fundamentales:

  • Cómo almacenar grandes volúmenes y trabajar con esta diversidad de formatos
  • Cómo analizar estos volúmenes y utilizarlos para obtener ventajas competitivas.
  • Hadoop llena este vacío mediante la superación de ambos desafíos. Hadoop se basa en los trabajos de investigación de Google, desarrollados por Doug Cutting, quien le dio el nombre al Framework a partir del elefante de peluche de su hijo.

Entonces, ¿qué es Hadoop?

Es un Framework formado por:

  • HDFS – Sistema de archivos distribuido Hadoop
  • Hilos de cómputo distribuidos utilizando MapReduce
  • Cluster de servers de bajo precio.
  • Consta de un Nodo Maestro o NameNode para controlar el procesamiento
  • Utiliza nodos para almacenar y procesar datos.
  • JobTracker y TaskTracker para gestionar y supervisar los trabajos

Veamos por qué Hadoop se ha vuelto tan popular hoy en día

  • Durante la última década, todos los cálculos, se hacían mediante la potencia de cálculo de una máquina. Para optimizar esta potencia se incrementaba el número de procesadores y/o la memoria RAM, pero esto traía aparejado limitaciones físicas.
  • Dado el escenario en donde los datos continuaron creciendo más allá de estas capacidades, era necesario desarrollar una alternativa para manejar las necesidades de almacenamiento de las organizaciones como eBay (10 PB), Facebook (30 PB), Yahoo (170 PB), JPMC (150 PB)
  • Con la típica tasa de transferencia a disco de 75 MB/Sec resulta imposible procesar dicha cantidad de datos
  • La escalabilidad no solo se encuentra limitada por el tamaño físico sino que también por la tolerancia a fallos.
  • La diversidad de datos complica el análisis de los mismos en las bases de datos tradicionales.

Cómo Hadoop aborda estos desafíos:

  • Los datos se divide en pequeños bloques de 64 o 128 MB, se almacena en un mínimo de 3 máquinas a la vez para asegurar la disponibilidad y fiabilidad de los datos.
  • Multiples máquinas forman un clúster que opera en paralelo que optimizan el procesamiento de datos.
  • Si alguna una máquina falla, el trabajo se asigna a otra de forma automática
  • MapReduce rompe tareas complejas en partes más pequeñas para ser ejecutados en paralelo

Algunos beneficios del uso de Hadoop como plataforma de Big Data:

  • Almacenamiento económico: Múltiples servidores lowcost reducen el costo por terabyte
  • Escalabilidad prácticamente ilimitada: Se pueden ir agregando nodos sin afectar los actuales. No posee límites en cuanto a la cantidad de nodos que se pueden agregar.
  • Velocidad de procesamiento: Optimiza el tiempo de procesamiento a travez del procesamiento en paralelo.
  • Flexibilidad: Puede almacenar cualquier formato de datos, estructurados o no (audio, vídeo, texto, CSV, PDF, imágenes, datos de navegación, medios de comunicación social, entre otros)
  • Tolerancia a fallos: cualquier fallo en un nodo ,está respaldado por otro nodo, de forma automática.

¿Cómo está conformado el ecosistema de Hadoop?

Sobre esta plataforma se han ido desarrollando productos que van conformando su ecosistema, entre ellos:Hive: Interfaz SQL

  • Pig: Lenguaje de gestión de datos.
  • Hbase: Base de datos en la parte superior de HDFS
  • Flume: Real-time datastreaming como transacciones de tarjeta de crédito, videos, etc.
  • ISqoop: Interfaz SQL para RDBMS y HDFS
  • Zookeeper: Gestión DBA para Hadoop

De qué forma las organizaciones líderes han adoptado Hadoop

  • Chevron procesa grandes cantidades de datos sísmicos para detectar dónde pueden obtener recursos.
  • JPMC lo utiliza para almacenar más de 150 PB de datos, de más de 3,5 mil millones de usuarios, para la detección de fraude.
  • eBay utiliza el análisis en tiempo real dentro de 9 PB de datos, con 97 millones de compradores activos y más de 200 millones de artículos a la venta
  • Nokia lo utiliza para almacenar datos de sus celulares y analizar cómo las personas interactúan con las app y detectar cuáles son sus patrones de uso
  • Walmart lo utiliza para analizar el comportamiento de más de 200 millones de visitas de clientes por semana

Hadoop no puede sustituir a los almacenes de datos existentes, sino que se está convirtiendo en la opción número 1 para las plataformas de Big Data con una fuerte relación precio / rendimiento.

hadop

Newsletter

La Compra Cognitiva, una experiencia real

Según el estudio de IBM “El consumidor es el canal”, el 94% de los directivos de la industria d...

Requisitos que deben cumplir las empresas antes de poner en marcha proyectos de Big Data

El Big Data ayuda a las empresas a mejorar sus resultados, equilibrar la oferta a la demanda, anti...

¿Qué beneficios puede aportar una consultoría de Big Data?

Mejorar procesos de negocio con Big Data Un ejemplo claro de la mejora de procesos es la selección...

Data visualization: ¿qué necesitas?

Data visualization es el preludio del análisis. La visualización, así entendida, es la aplicació...