Introducción a HDInsight


HdInsightHDInsight es la distribución de Hadoop pensada para Azure. Azure nos permite en cuestión de unos minutos tener disponible un servicio de Hadoop en la nube.

Que es Hadoop?

Hadoop es un repositorio de datos (o ficheros) que se encuentra distribuido en múltiples servidores (o nodos). Se puede escalar fácilmente y con excelente rendimiento de acceso a los datos. La manera de acceder a los datos es mediante el procesado de los datos en cada servidor (Map) y la unificación de estos datos procesados de los diferentes servidores (Reduce), es lo que se conoce como proceso MapReduce. Este proceso de manera nativa se ejecuta en Java (mediante su empaquetado en un Jar).

Que más incorpora HDInsight

HdInsight incorpora una serie de utilidades que facilitan enormemente el uso de Hadoop.

  • Pig: Ejecuta pseudo comandos (similares a bloques de consulta de SQL) para realizar el proceso de MapReduce.
  • Hive: Ejecuta comandos de Sql que generan el proceso de MapReduce.
  • HCatalog: Independiza Procesos de MapReduce de la ubicación física de los datos y permite trabajar de manera independiente con las diferentes utilidades con MapReduce.
  • Oozi: Script acciones en Hadoop; usa un Xml (como MS-Build).
  • Sqoop: Transfiere los datos de Hadoop desde/hacia Base de datos.
  • Mahout: Añade funcionalidad para trabajar con aprendizaje automático.

Que es Storm?

StormLogoStorm permite el procesado de datos en tiempo real en Hadoop. También se incorpora en HDInsight.

Que es Spark?

Spark-logoEs un servicio más nuevo con la misma idea de Haddop; que se esta imponiendo sobre este. Aporta dos ventajas principales sobre Hadoop: su mejor rendimientos y la incorporación de mayores funcionalidades (como su propio motor de aprendizaje automático, conexión directa a Power BI, Real Time,…). También se incorpora en HDInsight.

Anuncios
Esta entrada fue publicada en Azure, Big Data, Cortana Analytics. Guarda el enlace permanente.

2 respuestas a Introducción a HDInsight

  1. Pingback: ¿Qué es Cortana Analytics Suite? | Pensando bajo la lluvia

  2. Pingback: Glosario de Terminos de Big Data | Pensando bajo la lluvia

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s